Ответы пользователя Сергей Ильин

Как спарсить из html файла кусок строки, зная ее характерное содержание, используя различные библиотеки?

Сергей Ильин @sunsexsurf

IT & creative

Гуглим "beautifulsoup a href".
Получаем: https://stackoverflow.com/questions/5815747/beauti...

решение:

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])

а вы говорите, что "не нашёл аналога startswith"... просто не то искали...

Ответ написан более двух лет назад

1 комментарий

Как сделать поиск который понимает суть запроса?

Сергей Ильин @sunsexsurf

IT & creative

Вы решаете задачу, которую решает Гугл, в целом.
в общем, путь, по которому можно пойти:

1/ прикрутить к вашей поисковой строке расстояние Левенштейна и искать совпадения. Уже будет работать. Плоховато, но лучше, чем ничего.
2/ Посчитать tf-idf на ваших документах и смотреть, что ввел пользователь. Будет работать значительно лучше
3/ построить w2v: каждому слову будет дан эмбеддинг (векторное представление), косинусные расстояния между векторами будут обозначать похожесть слов (синонимическую)
4/ Прикрутить Берт-подобные модели. Если сайт не какой-то специфический, можно даже не доучивать на вашем корпусе.
4 итерация - это, по сути, "предгенеративный" шаг. Потом начинаются большие языковые модели (типа огромного Ялма) и всякие вопросно-ответные системы типа чатЖПТ.

Ответ написан более двух лет назад

Комментировать

Как настроить ML-модель?

Сергей Ильин @sunsexsurf

IT & creative

автор выше вам ответил очень объемно и правильно. Дополнительно, не забывайте про такую библиотеку (hyperopt): https://habr.com/en/post/542624/
Она работает лучше, чем встроенная в sklearn (но для базового понимания надо начать с нее)

Ответ написан более двух лет назад

Комментировать

Какие библиотеки могут понадобится для факторного анализа в Python?

Сергей Ильин @sunsexsurf

IT & creative

вы можете использовать pandas/numpy, может быть пригодится scipy и, вероятно, sklearn. Визуализация - matplotlib/seaborn или plotly. Какой именно анализ вы хотите сделать? Если не привязываться к языку, на R удобнее.

Ответ написан более двух лет назад

2 комментария

Какой конфигурации нужен ноут для комфортной локальной разработки в Дата Саенс?

Сергей Ильин @sunsexsurf

IT & creative

Присоединюсь к ответам умных ребят.
Если вы под DS подразумеваете «повертеть таблички в пандасе и разобраться в «классической машинке» (sklearn, бустинги и т.д.), то вам ничего не помешает это сделать на обычном ноуте. Любом. Тем более, датасеты обычно в начале тестовые и не тяжелые. Выбирать ли мак или нет - вообще дело исключительно вашего удобства.

Если вы хотите в «современный DS», в котором много занимает обработка изображений (какие-нибудь медицинские соревнования на Кэггл), то начинаются «вычислительные потолки» и вот тут вам действительно уже нужно идти либо в карточки, либо в облачные истории с AWS или что-то такое. Но тестовые штуки можно пробовать считать и на компе, и в Гугл-коллабе.

Все от задач.

Ответ написан более двух лет назад

Комментировать

Как искать по слову в классе?

Сергей Ильин @sunsexsurf

IT & creative

Если вы точно знаете, что телефон записан так и других форматов нет, то можно попробовать доставать его регуляркой. Или записать все возможные форматы в список и по нему циклом проходиться, доставая элемент и проверяя его (напр.: ['+79251231233', '9251231233', '+7-925-123-12-33']. Тут проблема в том, что под каждый такой вариант нужно будет написать регулярку).
По тексту "телефон" искать - хорошая идея, но проверьте, всегда ли он есть, этот текст.

Войдите на сайт