Источники для написания парсера?

Question

Дмитрий @sonics

html,css,angular, php, joomla, opencart, bootstrap

PHP

Источники для написания парсера?

Здравствуйте.
Подскажите источник где можно прочесть про специфику написания парсера.
На данный момент есть цель научиться парсить каталоги товаров и хотелось бы это делать самостоятельно.
Но если вы знаете какие-то грамотные, реализованные решения, я бы с удовольствием их рассмотрел тоже.
Спасибо.

Вопрос задан более трёх лет назад
150 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

3 комментария

Дмитрий @sonics Автор вопроса

Это уже фактитчески модуль под опенкарт. Мне бы отдельно) а еще интереснее самостоятельно приступить к написанию.

Написано более трёх лет назад
Александр Кузнецов @DarkRaven

Дмитрий: Ну тогда все написано после TLDR. Модуль же приведет в качестве примера, изучив его, можно почерпнуть в подходах.

nepster-web вам предложил инструмент для преобразования ресурса в Xml-подобный документ и обхода его. К слову, отличный инструмент.

Снизу инструмент из ответа использует DOMDocument для работы, но, что немного странно, работает через load, а не через php.net/manual/ru/domdocument.loadhtml.php .

Суть моего ответа в том, что вы не ограничены стуктурированными данными, есть еще и не структурированные - файлы различного содержания и т.п., и к ним нужен свой подход.

Удачи с парсингом!

Написано более трёх лет назад
Дмитрий @sonics Автор вопроса

Спасибо за развернутый ответ)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

2 комментария

4 комментария

Дмитрий @sonics Автор вопроса

вот все прекрасно, но как поставить его, не могу понять :(

Написано более трёх лет назад
4iloveg @4iloveg

Читаешь/ сморишь видео о том что такое композер, как его ставить и зачем он нужен.
Далее в консоли пропишешь команду composer require imangazaliev/didom и скрипт будет загружен

Написано более трёх лет назад
Дмитрий @sonics Автор вопроса

вот видео я и не нашел по Didom ....

Написано более трёх лет назад
4iloveg @4iloveg

Дмитрий: А по нему и не нужно искать. Там в риадми всё доступно написано. Нужно подтянуть знания php если примеры вызывают затруднение.
Либо найди человека который разжует тебе. Но навряд ли кто то возьмется проводить уроки за бесплатно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 95 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 205 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 458 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 249 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 192 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 154 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2468 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 345 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 186 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2017-08-03 13:01:51

TLDR - для opencard пример парсера https://parsemx.com

Я никогда не задавался поиском на подобную тему, так как считаю это занятием, не особо того стоящим.
В вашем случае, вы желаете разобрать входящий слабоструктурированный/структурированный текст в набор определенных сущностей.
Перво-наперво, вам нужно выявить, что за основной формат входного текста (html, xml, json, текст просто).
Дальше, в зависимости от формата, вы выбираете стратегию. К примеру, если это html, то его можно почистить (tidy) и попробовать привести к XML. Зачастую это срабатывает нормально. Если нет - нужно разбирать конкретные случаи.
После того, как вы получили XML, вам нужно выделить минимальрный повторяющийся элемент, описывающий продукт. И просто пройтись по нему через XPath.