Как написать универсальный парсер для множества однообразных сайтов?

Question

German Zvonchuk @inside22

Как написать универсальный парсер для множества однообразных сайтов?

Доброго времени суток.

Стоит задача написать парсер для порядка 30 однообразных сайтов объявлений.
У всех сайтов разная структура сайта и разные наборы данные - где-то данных больше, где-то меньше.

Парсер для выдергивания данных по любому надо писать специализированный под каждый сайт, верно? Или все-таки есть какие-то варианты?

А как на счет БД?
К примеру у меня сейчас готов парсер для одного сайта. Есть входные URL-ы категорий при заходе на который парсер выдергивает URL-ы pagination по определенным категориям.

Входные URL-ы:
Table: site_category

URL-ы pagination по категориям:
Table: site_pagination

Далее URL-ы pagination парсятся и из них выдергиваются URL-ы самих объявлений.
Table: site_item

А что делать если у следующего сайта будет другая структура?

Вопрос задан более трёх лет назад
6163 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Skillbox

PHP-разработчик. Базовый уровень

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 4

5 комментариев

sim3x @sim3x

на руби нет нормального скраппера сайтов?

Написано более трёх лет назад
Viktor Vsk @viktorvsk

sim3x: кслову, именно "скрапер" нормальный всего один. И то, он только не совсем скрапер. Может быть, вы имеете ввиду дом-парсеры. Тогда предложенное решение - строится поверх дом-парсера.

На руби (и на других языках, я долго искал), я не нашел бы решения, которое решало именно множественное и регулярное добавление "образцов" сайтов.

Обычно как делается? Берешь сайт, смотришь его дом, пишешь код (руби, пхп, питон), проверяешь - ок, работает. Делаешь коммит, заливаешь аппу. Еще один сайт распарсить? Повторяешь. Изменилась где-то верстка? Повторяешь...

Даже для 30 источников - это утомительное и малонадежное занятие.

Написано более трёх лет назад
Viktor Vsk @viktorvsk

sim3x: да и рассматривать, по сути, нужно не как скрапер, а как прокачанную качалку (с js\ без js) и почти произвольной пагинацией и фолловом, плюс, очень упрощенный аналог xslt

Написано более трёх лет назад
sim3x @sim3x

Виктор Выскребенцев:
>кслову, именно "скрапер" нормальный всего один
как називается?

Написано более трёх лет назад
Viktor Vsk @viktorvsk

sim3x: https://github.com/felipecsl/wombat

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 232 просмотра
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 233 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 218 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 223 просмотра
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 146 просмотров
1

ответ
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 116 просмотров
0

ответов
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 207 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 251 просмотр
3

ответа
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 123 просмотра
1

ответ
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 269 просмотров
3

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP/Go

ЭТП ГПБ / VESNA

До 220 000 ₽

Answer 1 · 2015-01-05 23:52:57

Как раз занимаюсь этой проблемой.
Скачать сейчас можно только https://github.com/victorvsk/apify-core
Но уже есть сервер, клиент (админка), и готовится рецепт ansible/chief/puppet, где, в принципе, нужен будет только vps, и синтаксис типа:

{
  "index": {
    "url": ["https://github.com/blog"],
    "js": false,
    "paginate": [
      "\\/?+$",
      "/?page=<% 1,2,1 %>"
    ]
  },
  "posts": {
    "from": "select('h2.blog-post-title a') from('index')",
    "js": false,
    "host": "http://github.com",
    "pattern": {
      "title": "<% .blog-title %>",
      "meta": {
        "calendar": "<% .blog-post-meta li:first %>",
        "author": "<% .blog-post-meta .vcard %>",
        "category": "<% .blog-post-meta li:last %>"
      },
      "body": "<% .blog-post-body %>"
    }
  }
}

(Этот "код" скачивает все посты с первых двух страниц гитхаба https://github.com/blog)
Код на руби, но задумывается как standalone демон, так что можете или поучаствовать или подождать готового решения.
Самая большая сложность, в ближайшее время, наверное, в нормальной документации.

P.S. Смысл вообще в том, есть куча инстансов-парсеров на разных серверах (или на одном, или локально, неважно) и есть админка, где вы создаете сущности (юниты), в которых описываете структуру таким вот псевдо-синтаксисом (что откуда парсить) и в конце-концов указываете url, куда отправить готовый результат

UPDATE: Выложил кривоватый кусок на хероку
Если интересно, можете поэкспериментировать. Конечно, без документации тяжело, но, возможно, что то получится, используя примеры:
Например, json указанный выше, можно отправить на адрес:

https://agile-river-6704.herokuapp.com/crawler?apify_secret=secret

POST запросом, Content-type: application/json
А для проверки непосредственно синтаксиса, можно передавать не ссылки, а html. Например, вот такой json:

{
"html": "<html><head></head><body><div id='text'>Текст</div></body></html>",
"pattern": { "title": "Значение", "title-2": "Это: <% #text %> <% html |first |html %>", "text-html": "<% #text | first | html %>" }
}

POST запросом на https://agile-river-6704.herokuapp.com/parser?apif...
Важно указать в адресе ?apify_secret=secret

Это, конечно, совсем черновой вариант, и хероку обрывает запросы более 30 секунд... Но может кто-то заинтересуется.

Answer 2 · 2015-09-11 18:06:23

У меня много косяков в парсинге выходит, вчера напала на вебинар, может можно записаться тем, кто у него не постоянно учится https://dmitrylavrik.ru/php-parser

Answer 3 · 2015-01-05 23:05:21

Если без выполнения скриптов, импортов и применения стилей, то приспокойно берем любой готовый xml-парсер и скармливаем ему страницы.
Далее останется только найти нужные данные в получившейся структуре.

Answer 4 · 2016-11-02 17:10:51

Мы сделали «обучающийся» парсер. Ему без разницы структура сайта. Он из любого магазина может получить информацию о товаре. Вот онлайн демка https://fetch.ee/ru/developers/

Как написать универсальный парсер для множества однообразных сайтов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт