Как наиболее просто собрать кучу ссылок с сайта?

Question

Сергей Марков @srb-site

WEB-программист

Как наиболее просто собрать кучу ссылок с сайта?

Подскажите, пожалуйста, дико нетребовательный к ресурсам парсер сайта на php. Задача примитивная донельзя, нужно собрать с интернет-магазина ссылки на товары и описания к ним. Делаю это не для воровства контента, а для создания XML-файла для Regmarkets.

Вообще, успешно делал такое с помощью simple_html_dom но на другом компе. Сейчас в распоряжении только мега-слабая и старая машина, в результате чего библиотека пытается что-нибудь сделать в течение минут пяти и безрезультатно. "Затык" происходит на этапе разбора кода и поиска в нем нужных тегов. Пробовал на Денвер и OpenServer, от сервера не зависит.

Возможно стоит написать с нуля, но, парсеры никогда не делал и, наверное, быстрее использовать готовое решение, но оно должно быть каким-то очень простейшим. Надо: получить из каталога ссылки на товары, сходить по каждой ссылке и взять там описание из нужного div-а, сохранить это все в excel.

Вопрос задан более трёх лет назад
114 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

Антон @Eridani

Что Вам мешает не брать локальный компьютер, а взять для сих дел хостинг?

Написано более трёх лет назад
Сергей Марков @srb-site Автор вопроса

Ну, в принципе, выход ) Только такие задачи у меня большая редкость, специально для этого покупать хостинг не выгодно. Хотя можно использовать тестовый период где-нибудь... Если ничего не найду, попробую

Написано более трёх лет назад
Сергей Марков @srb-site Автор вопроса

Спасибо всем огромное! Написал свою, весьма извращенную, но легкую штуку ) Вроде работает.

Написано более трёх лет назад
Пычев Анатолий @pton

А поделиться? Не надо кодом, хотя-бы идеей или алгоритмом

Написано более трёх лет назад
Сергей Марков @srb-site Автор вопроса

Пожалуй, что таким решением стыдно делиться :) Сделать проект надо быстро, я уже пообещал и даже деньги взял, а потом оказался затык с производительностью компа. В результате не стал заморачиваться и получился многоходовой алгоритм, в котором приходится и ручками работать.

Его смысл:
1. Вручную открываешь нужную страницу
2. Копируешь адрес в поле наскоро созданной формочки
3. Нажимаешь на кнопку, адрес ajax-ом отправляется на сервер
4. При помощи file_get_contents скачивается страница
5. Регуляркой из нее достается нужный div
6. Содержимое этого div-а сохраняется в html-файл, прямо в виде разметки, а перед этим туда добавляется подключение js
7. Регулярка несовершенна и какого-то фига остается лишний код за пределами нужного div-а, убираем его вручную через текстовый редактор :)
8. Дальше открываем этот файл в браузере, срабатывает js и (вот тут-то вся "фишка и начинается) при помощи jquery обходит каждый нужный блок внутри большого родительского и собирает из каждого блока нужные данные, составляя все это в строку с разделителями вида '[%]', в конце данных, относящихся с одному товару ставится '[%%%]'. Символы "от балды", лишь бы среди нужной информации о товарах не попались.
9. После того, как все блоки обработаны, доходит дело до аякса. С его помощью собранная строка оказывается на сервере и там разбивается explode по указанным выше символам. Вместе с разбитием работает phpExcel и пишет инфу в нужные ячейки заранее созданного xls-файла.

Мне кажется, извращение дикое :) Зато как летает! Если приспособиться, можно получать готовый excel по отдельной странице секунд за 20-30. А дальше у меня уже готовый скрипт есть, который потом объединенный excel-файл в xml перегонит.

В общем я сам парсинг из php передал js.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Сложный
Как сделать это?
- 1 подписчик
- час назад
- 36 просмотров
1

ответ
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 365 просмотров
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 189 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 164 просмотра
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 153 просмотра
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 131 просмотр
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 273 просмотра
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 276 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 251 просмотр
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 521 просмотр
2

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Разработчик PHP (junior / стажер) - Laravel

CRM для НКО Мост данных

от 30 000 до 110 000 ₽

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

Что Вам мешает не брать локальный компьютер, а взять для сих дел хостинг?
Ну, в принципе, выход ) Только такие задачи у меня большая редкость, специально для этого покупать хостинг не выгодно. Хотя можно использовать тестовый период где-нибудь... Если ничего не найду, попробую
Спасибо всем огромное! Написал свою, весьма извращенную, но легкую штуку ) Вроде работает.
А поделиться? Не надо кодом, хотя-бы идеей или алгоритмом

Answer 1 · 2018-04-18 09:07:19

Не знаю. Я наоборот ни разу не использовал simple_html_dom. А пишу все на регулярках. Мне очень удобно и быстро работает.

Answer 2 · 2018-04-18 10:11:49

Евгений @Eugeny1987

Работаю с HostCMS

Content Downloader хорошо парсит
Ссылки получаете из карты сайта

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2018-04-18 10:25:13

Если надо сохранить это все в excel и на локальной машине, то я бы делал это прямо инструментами excel
С помощью инструмента WinHttp.WinHttpRequest.5.1 получаем данные страницы

spoiler

'---------------------------------------------------------------------------------------
' Purpose   : Стучимся в сервер за результатами
'---------------------------------------------------------------------------------------
' sQuery - строка запроса
' sResponse - ответ, передается по ссылке
Function Runhttp(sQuery As String, ByRef sResponse As String) As Boolean
   On Error GoTo ErrorHandler
   Dim oHttp As Object
   Dim s$, h$, FileName As String
   Dim v As Variant
   Set oHttp = CreateObject("WinHttp.WinHttpRequest.5.1")
   
   
   With oHttp
      .Open "GET",  sQuery, False
      .SetRequestHeader "User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.137 YaBrowser/17.4.1.955 Yowser/2.5 Safari/537.36"
      .SetRequestHeader "Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
      .SetRequestHeader "Accept-Language", "uk,ru;q=0.8,en;q=0.6"
      .SetRequestHeader "Connection", "keep-alive"
      
      .Send ("")
      
   End With
   
   If oHttp.Status = 200 Then
      sResponse = oHttp.responseText
      Runhttp = True
   Else
      sResponse = oHttp.Status
      Runhttp = False
   End If
   
   
ErrorExit:
   Set oHttp = Nothing
   On Error GoTo 0: Exit Function
ErrorHandler:
   If Err.Number = -2147012889 Then    ' Ошибка нет соединения
   End If
End Function

в результате в sResponse имеем полностью html запрошенной страницы
Далее проводим разбор. Я бы порекомендовал код отсюда Работа с HTML

Ну и дальше пишите себе ссылки или что вы там распарсите прямо в лист Excel

Это возможно будет медленнее чем на php, но Вы сказали, что такая задача бывает не часто. А значит запустил и пошел обедать. Можно сначала насобирать ссылок со страниц, а вторым этапом уже вытаскивать данные по ссылкам (алгоритм такой-же).

Есть одно предостережение, если ОС Windows XP и ниже, то не все https читаются. Http читается легко, https - только версии 1.1 . Это проблема ОС.

С Ув. Анатолий

Как наиболее просто собрать кучу ссылок с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт