Питон, анализ данных и гитары
Контакты

Наибольший вклад в теги

Все теги (25)

Лучшие ответы пользователя

Все ответы (54)
  • Как получить текст при парсинге?

    @sunsexsurf
    IT & creative
    Поддержу пользователя @Sergei1337
    вот тут у вас:
    text = href.find_all('span', class_='text')
    получается список. и поэтому выбрать текст, который там есть, можно циклом:
    for i in text:
        print(i.text)

    т.е. просто добавьте короткий цикл в ваш скрипт
    Ответ написан
    Комментировать
  • Как с помощью NLP распознать названия начальных и конечных пунктов маршрута?

    @sunsexsurf
    IT & creative
    во-первых, действительно, вам нужно решить NER-задачу, то есть достать из строки названия. Такое умеет, например, библиотека Natasha (ссылка на гитхаб).
    Потом, как вариант, сделать так: если перед объектом стоит "из" - это значит начальный пункт, если "в" - конечный пункт. Но это вторая задача, которая решается не ML, а с помощью подбора лингвистических правил, скорее.
    Ответ написан
    Комментировать
  • Как парсить контент, сгенерированный JS-ом на Python. Что посоветуете?

    @sunsexsurf
    IT & creative
    поддержу. не всегда Селениум нужен (да и долго, порой). Поизучайте сначала то, как сервер отдает контент (или приложите ссылку сервиса). Порой, нужно просто покопаться в том, как уходят запросы и как они возвращаются. И никакой Селениум не нужен.
    Ответ написан
    Комментировать
  • На чем лучше писать парсер для соц. сетей?

    @sunsexsurf
    IT & creative
    Как было сказано выше - Python
    >>Если искать разработчика, то сколько такое будет стоить и как правильно поставить ему задачу?
    ту важно многое: как часто будет опрашиваться соцсеть, кто будет хостить сервис, нужна ли вашему сервису веб-мордочка или справитесь голым питоном, требуется ли что-то кастомное, будетли код оставаться у исполнителя или полностью принадлежать вам. Т.е. все может с 10к легко вырасти до 100к-150к
    Ответ написан
    Комментировать
  • Какой конфигурации нужен ноут для комфортной локальной разработки в Дата Саенс?

    @sunsexsurf
    IT & creative
    Присоединюсь к ответам умных ребят.
    Если вы под DS подразумеваете «повертеть таблички в пандасе и разобраться в «классической машинке» (sklearn, бустинги и т.д.), то вам ничего не помешает это сделать на обычном ноуте. Любом. Тем более, датасеты обычно в начале тестовые и не тяжелые. Выбирать ли мак или нет - вообще дело исключительно вашего удобства.

    Если вы хотите в «современный DS», в котором много занимает обработка изображений (какие-нибудь медицинские соревнования на Кэггл), то начинаются «вычислительные потолки» и вот тут вам действительно уже нужно идти либо в карточки, либо в облачные истории с AWS или что-то такое. Но тестовые штуки можно пробовать считать и на компе, и в Гугл-коллабе.

    Все от задач.
    Ответ написан
    Комментировать

Лучшие вопросы пользователя

Все вопросы (42)