Задать вопрос
@pochti_junior
Люблю парсинг.

Как и где можно научиться писать многопоточные парсеры для любых задач?

Очень интересная тема: Парсинг.
Только в интернете нету нормальной информации по ней.
Где искать инфу?
  • Вопрос задан
  • 1618 просмотров
Подписаться 12 Простой 1 комментарий
Пригласить эксперта
Ответы на вопрос 5
saboteur_kiev
@saboteur_kiev
software engineer
Только в интернете нету нормальной информации по ней.


Вы шутите? Вы просто не умеете парсить инет. Информации о парсинге в инете просто завались.

Почитайте что такое CVS, XML, HTML, дом-дерево.
Можно почитать про готовые библиотеки для разбора XML/HTML
Можно почитать про регулярные выражения

А дальше - писать на любом языке простенькие парсеры.
Ответ написан
DmitriyEntelis
@DmitriyEntelis
Думаю за деньги
Структурно любой многопоточный парсер прост:
У вас есть 2 очереди: задачи на скачку и задачи на собственно парсинг.
Соответственно есть два вида воркеров.

Первый вид воркера берет задачи из очереди на скачку, качает их каким-нибудь курлом и помещают в очередь на обработку.

Второй вид воркера - каким-то образом разбирает контент и пихает его уже в итоговое хранилище.
Разбирать лучше всего регулярками - это работает быстрее всего.
Ответ написан
latteo
@latteo
Минимум раз в год выходит видеокурс по парсингу на чистом ЯП или с помощью инструментов datacol, content downloader и другие. Часть из них оседает на торентах и файлообменниках. Часть изначально публичные и доступны на ютубе.
Ответ написан
Комментировать
@spaceatmoon
Могу сказать что делать маппинг из пустого в порожнее это просто, а сделать приложение которая решает жизненные проблемы это другое.

Поэтому только через опыт. Я вот писал 2 парсера. Оба они на что-то заточены. Первый товары в любом объеме может парсить прямо в сайт. Второй мой последний может парсить для последующего каркаса будущего сайта. Сейчас в скором времени буду писать мегакомбайн способный парсить любой контент руками домохозяйки. Ибо самому даже задрало настраивать одно и тоже. Актуально это для соцсеточек, всяких фото галерей. Но тут с SPA, js и весь этот бред, нужно какое-то решение.

Желательно чтобы на калькуляторе работало. Я думаю на js лучше не писать парсеры, только в ноги стрелять им. Очень прикольный и костыльный язык - люблю и ненавижу его.
C#, python, PHP, GO думаю норм будет.

Я вот пишу на PHP и мне норм, если меня не устраивает скорость, то я просто фигачу новый 24МБ поток и все.

Все зависит как вы архитектуру умеете строить. Я вот не смотря на опыт, все равно пишу чувствуя что пишу ересь и поэтому можно переписать. Помните, рефакторинг - зло. Можно переписывать тысячу раз Фибоначчи и все равно это будет мусор.
Ответ написан
@bro-dev0
Не советую концентрироваться на этом, область с очень низким потолком. Много заработать не получится, развить навыки тоже, конкурентов дофига, а задачи делятся на очень простые монотонные, и на те на которые придется писать свой скайнет.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы