Возможно ли написать универсальный парсер сайтов?

Question

Дмитрий @slo_nik

Возможно ли написать универсальный парсер сайтов?

Добрый день.
Возникла необходимость написать парсер сайтов, универсальный.
Задача в следующем.
Пользователь вводит адрес сайта в поле формы, через cURL получают содержимое сайта, выделить из выдачи только текст(из div, p, table, span и т.д.).
Но вот вопрос. Каждый сайт, это индивидуальная структура. Как в этом случае, настроив парсер только раз, получать данные с любого сайта, не меняя настройки парсера под каждый сайт? Возможно ли это?
Сейчас использую php, cUrl, htmlpurifier для получения текста с сайта.

p.s. Что необходимо получить?
Необходимо получить только текст, сохранив орфографию и пунктуацию. Никаких тегов быть не должно. Js/Jquery тоже не надо получать, единственное, что надо получить из данных, подгружаемых js/jquery - содержание слайдеров, если там есть текст.
В идеале надо получить весь текст от <body> до </body> и только текст. Если текст, например, находится в таблице, то надо выбрать текст из td, записать в одну строку и сохранить в файл(базу). Следующая строка в таблице tr > все td - сформировать строку и добавить в файл(базу). В итоге должно получится, что всё содержимое одной таблицы является одним абзацем в файле. Так же и с остальными тегами.
Вот как-то так)

p.s.s попытка реализации задачи

Вопрос задан более трёх лет назад
2270 просмотров

2 комментария

Подписаться 4 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 5

10 комментариев

Дмитрий @slo_nik Автор вопроса, куратор тега Yii

К вопросу прикрепил ссылку на попытку реализации... Но не всегда работает как надо. На некоторых сайтах не расставляет пробелы(в некоторых местах), на некоторых не до конца забирает текст, но есть и такие, которые отлично парсятся. В моём случает можно найти "золотую середину"?

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега JavaScript

Для начала забудьте про регулярные выражения. Написать универсальный парсер на регулярных выражениях невозможно.

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Алексей Уколов: Так как же мне поступить, с какого бока подойти к решению?

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Если надо получить только текст([-a-zа-яё0-9]+) и знаки препинания, то почему не подходят регулярные выражения?

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега JavaScript

Потому что вы же решаете задачу не "получить только текст", а "убрать все теги". И эту задачу регулярными выражениями не решить, нужно работать с обработанным деревом документа. Я не нашёл на сайте HTMLPurifier описание технологии его работы, но вряд ли там регулярки.

Я так и не добился от вас конкретного описания вашей задачи. Вам нужен вообще весь контент страницы без тегов или какие-то дополнительные эвристики?

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Алексей Уколов: Мне нужен весь контент, начиная от шапки сайта и заканчивая подвалом. Заголовки разного уровня, списки, меню, таблицы, статьи, всё, что можно получить, Смысл этой затеи в том, что владелец сайта, вводит адрес сайта, отправляет форму, в ответ получает весь текст со своего сайта, который сохраняется в файл и базу. Далее этот текст должен проверяться корректорами на наличие ошибок.

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега JavaScript

Я бы для решения этой задачи построил дерево документа, а потом рекурсивно его обрабатывал depth-first, выгребая контент и расставляя переносы строк там, где это требуется (тут логика относительно простая). Как только вы будете работать с абстрактным деревом и конечным набором стандартных текстов, вы и получите ту самую универсальность. И пьюрифаить ничего не понадобится - вы будете просто игнорировать все эти стили и левые атрибуты. Я бы ещё добавил к этому функционалу скриншот всей страницы 1к1, чтобы корректор мог понять контекст, это часто важно.

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Алексей Уколов: За идею со скриншотом спасибо, интересно.
>>> Я бы для решения этой задачи построил дерево документа
DomDocument или что Вы посоветуете?
>>>И пьюрифаить ничего не понадобится...
Htmlpurifier уже встроен в framework, поэтому решил его использовать.

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Алексей Уколов: Если делать такой скриншот, то что Вы посоветуете, как подойти к этой проблеме?
Знаю о таком ресурсе www.thumbshots.ru, но может что-то есть проще?

Написано более трёх лет назад
Алексей Уколов @alexey-m-ukolov Куратор тега JavaScript

Давайте перенесём дальнейшие ваши вопросы в формат именно вопросов. Так всем будет легче.

Написано более трёх лет назад

5 комментариев

Дмитрий @slo_nik Автор вопроса, куратор тега Yii

Мне как раз надо получить только текст, сохранив орфографию и пунктуацию. Никаких тегов быть не должно. Js/Jquery тоже не надо получать, единственное, что надо получить из данных, подгружаемых js/jquery - содержание слайдеров, если там есть текст.

Написано более трёх лет назад
Omich @omichkun

slo_nik: вот curl вам и не сможет подгрузить эти слайдеры. Плюс, некоторые сайты защищаются от парсинга, загружая контент при помощи javascript, тем самым немного усложняя задачу парсеролюбам.

Написано более трёх лет назад
Сергей delphinpro @delphinpro Куратор тега JavaScript

А данные которые подгружаются на сайте разве не http-запросом дергаются? Повторяешь запрос курлом, получаешь искомое.

Написано более трёх лет назад
Omich @omichkun

Сергей: Нет, курл совсем не умеет в жаваскрипт. Абсолютно.
Те данные, которые подгружаются жаваскриптом, курлом вообще не подгрузятся, хоть повторите вы запрос через 5 секунд, хоть через час.

Написано более трёх лет назад
Сергей delphinpro @delphinpro Куратор тега JavaScript

Omich: повторяешь запрос - это значит нужно не еще раз тот же запрос послать (ну и фантазии у вас :) ).
Я имел ввиду, и думал это очевидно, что нужно курлом сделать точно такой же запрос, который делает джаваскрипт. Еще раз: весь интернет построен на http запросах. Курл прекрасно работает с http запросами. Он для этого и написан. Отсюда следует, что курлом можно получить любой контент.

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Простой
Неправильно работает crypto.subtle.deriveKey в Firefox, баг или мой косяк?
- 1 подписчик
- 16 окт.
- 77 просмотров
0

ответов
JavaScript

Простой
Как подгружать xml с перерисовкой таблицы?
- 3 подписчика
- 14 окт.
- 132 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 222 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Есть ли js-библиотека для офлайн-распознавания русской речи?
- 1 подписчик
- 12 окт.
- 157 просмотров
2

ответа
JavaScript

Простой
Почему не работает в консоли setTimeout?
- 1 подписчик
- 11 окт.
- 309 просмотров
1

ответ
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 120 просмотров
1

ответ
Yii

Простой
Вопрос по Yii2 и сверхмощному(?!) виджету GridView::widget?
- 1 подписчик
- 06 окт.
- 104 просмотра
1

ответ
HTML

+1 ещё

Средний
Скачал плагин image preview в вс коде, чтобы установить иконку сайта. Иконка появилась в браузере, но не появилась слева напротив строки. Почему так?
- 1 подписчик
- 30 сент.
- 141 просмотр
1

ответ
JavaScript

Простой
Как прочитать ответ сервера после отправки формы?
- 2 подписчика
- 27 сент.
- 284 просмотра
1

ответ
HTML

+1 ещё

Простой
От какой технической характеристики компьютера зависит скорость работы сайта, указанного ниже?
- 1 подписчик
- 24 сент.
- 445 просмотров
2

ответа
Показать ещё Загружается…

Верстальщик / фронтендер для браузерного расширения

DevTeam.Space

от 1 000 до 2 000 $

React разработчик

ITK academy • Нижний Новгород

от 80 000 до 120 000 ₽

React Developer

ITK academy • Воронеж

от 50 000 до 90 000 ₽

Мне как раз надо получить только текст,
Весь текст или только значимый текст? Первое сделать очень легко (curl + strip_tags), второе где-то между сложно и невозможно (см. мой ответ).
Вам нужно нормальное ТЗ. Ваше описание - мечты идиота.
Поисковики давно делают похожее, но сколько это будет стоить?
Как бюджетный вариант - Сохраняйте в PDF страницы, отрендеренные соответствующим инструментом и тащите оттуда текст Fine Reader подобным инструментом.

Answer 1 · 2016-07-13 11:34:57

И да, и нет: у вас очень расплывчатая формулировка. Непонятно, насколько осмысленным и обработанным должен быть итоговый результат, насколько допустим мусор.

Скачать страницу, построить дерево документа и какими-то элементарными эвристиками вырезать ненужное (меню, сайдбары, подвалы, рекламу и т.п.) относительно просто, но результат будет довольно грубый с неудовлетворительным соотношением сигнал/шум.

Для повышения универсальности инструмента, потребуется увеличивать количество и сложность этих эвристик. А ещё можно подключить туда машинное обучение, чтобы они сами себя улучшали.
И вот вы уже хотите написать что-то вроде поискового паука. Представьте, сколько сил вложено в разработку паука Яндекса или Гугла. У вас есть такие возможности? А ведь мало его просто написать, надо поддерживать, следить за новыми стандартами...

Парсинг сайтов - это задача, которая легко решается людьми, но плохо даётся роботам. Если смотреть с точки зрения бизнеса, то гораздо дешевле и эффективнее будет посадить джуниора, который будет писать отдельные правила парсинга под каждый сайт, чем пытаться конкурировать с Гуглом.

Answer 2 · 2016-07-13 11:33:11

Очень сомневаюсь, что это возможно.
Вам же нужны структурированные данные, а не просто сплошной текст того, что есть на сайте/странице. А чтобы получить структурированные данные, необходимо знать и настроить структуру для парсера, чтобы он знал, что брать, а что пропускать.
Ну и curl - не панацея от всех проблем. Например, он не сможет получить данные, которые подгружаются на сайте, используя JavaScript (подсказка: в этом случае поможет только PhantomJS).