@Oxoron
Шарпер

Какова архитектура «стандартный» парсер?

Доброго дня.
Недавно пришлось писать парсер для одного сайта. Требования были простейшие, задачку сделал и забыл. Недавно друг попросил пограбить другой сайт. Само собой, часть кода перекочевала в новый проект.

Вопрос: какие есть "стандартные" (распространенные, общие, частые) требования к парсерам, и как они отражаются в архитектуре?
  • Вопрос задан
  • 1872 просмотра
Решения вопроса 1
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
1. Параллельные потоки загрузки и обработки данных
2. Управление уровнем ошибок для продолжения или прерывания обработки ресурса.
3. Обработка и сегментация данных из ошибочных и неверных структурированных данных (например, HTML/XML).
4. "Решето" (правила) для предотвращения дальнейшей обработки ресурса на основе уже полученных данных (условия алгоритма прописываются в конфиге).
Например, контент размером более 5 кб со словом "toster" или url содержит "toster.ru" - пропустить и перейти к обработке следующего.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
gephaest
@gephaest
PHP, Yii2, Laravel
Существуют различные библиотеки и готовые решения, на базе которых можно реализовывать парсеры, например Grab
Ответ написан
otetz
@otetz
Есть и полностью готовые решения, например HTTrack.
А уж менее автоматических оффлайн браузеров так вообще полно.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы