Как спарсить страницы сайта?

Question

jaffrey @jaffrey

Как спарсить страницы сайта?

Нужно спарсить значения с кучи страниц сайта и записать их в MySQL. Дивы, где стоят значения - заранее известны и ид/класс их не меняется (страницы статические, просто информация везде разная). Подскажите пожалуйста наиболее простой способ в нынешнее время это сделать (может какие-то инструменты есть, упрощающие это).

С PHP знаком поверхностно, поэтому ссылки на материалы по разбору запросов/ответов и тд. очень приветствуются.

Спасибо.

Вопрос задан более трёх лет назад
1718 просмотров

8 комментариев

Подписаться 7 Оценить 8 комментариев

bnytiki @bnytiki

Neoline: Не стоит.

Написано более трёх лет назад
bnytiki @bnytiki

Neoline: Специализированные библиотеки намного удобнее.

Написано более трёх лет назад
bnytiki @bnytiki

Neoline: тебе жалко компьютера? он перегреется?
лишний код - облегчает жизнь.

парзинг сайта - это не такое простое дело как кажется на первый взгляд.
например, очередь обхода URL построить придется, перезапускать попытки при неудаче, не перегружать сервер из опасений бана.... и пр.

это все тебе самому придется решать.
хорошо, если библиотека за тебя уже все сделала.

Написано более трёх лет назад
bnytiki @bnytiki

Neoline: отнюдь.

1. тебе все равно писать эти вещи.
2. чтобы написать хорошо - нужно потратить кучу времени. еще и уметь это надо.
3. другие ребята уже споткнулись о грабли и учли нюансы.
4. если там нужно переходить по ссылкам - оно в 20 строк точно не уложится.

Написано более трёх лет назад
bnytiki @bnytiki

Neoline: при использовании качественных библиотек - это не так.
свой велосипед обходится дороже.

Написано более трёх лет назад
bnytiki @bnytiki

Neoline:

Нет.

Если есть необходимость использовать эмуляторы браузеров - значит содержимое страницы строится через жестокий JavaScript.

И тут уж вам PHP ничем не поможет.
От слова - совсем.

Написано более трёх лет назад
bnytiki @bnytiki

Neoline:
GMail у вас есть?

Спарзите на PHP.
Разрешаю передать заголовки.

Написано более трёх лет назад
bnytiki @bnytiki

Neoline: Сайтов, генерящих контент при помощи JS нынче - полным-полно.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 167 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 166 просмотров
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 4 подписчика
- 22 сент.
- 894 просмотра
5

ответов
Веб-разработка

Простой
Как определить от какого агрегатора пришел webhook?
- 1 подписчик
- 20 сент.
- 139 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Можно ли заменить кликанье мышью по веб-интерфейсу cli-командой?
- 3 подписчика
- 13 сент.
- 947 просмотров
2

ответа
HTML

+4 ещё

Средний
Кривое отображение сайта на iOS-устройствах?
- 2 подписчика
- 13 сент.
- 373 просмотра
1

ответ
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 175 просмотров
3

ответа
Веб-разработка

+1 ещё

Простой
Предупреждение сафари на сайте. Как его убрать?
- 1 подписчик
- 09 сент.
- 182 просмотра
0

ответов
Node.js

+1 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 187 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 108 просмотров
1

ответ
Показать ещё Загружается…

Web-разработчик 1С-Битрикс

Веб-Центр

До 150 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 80 000 до 120 000 ₽

Senior-разработчик React

СмартПро • Москва

от 100 000 ₽

Neoline: Специализированные библиотеки намного удобнее.
Neoline: тебе жалко компьютера? он перегреется?
лишний код - облегчает жизнь.

парзинг сайта - это не такое простое дело как кажется на первый взгляд.
например, очередь обхода URL построить придется, перезапускать попытки при неудаче, не перегружать сервер из опасений бана.... и пр.

это все тебе самому придется решать.
хорошо, если библиотека за тебя уже все сделала.
Neoline: отнюдь.

1. тебе все равно писать эти вещи.
2. чтобы написать хорошо - нужно потратить кучу времени. еще и уметь это надо.
3. другие ребята уже споткнулись о грабли и учли нюансы.
4. если там нужно переходить по ссылкам - оно в 20 строк точно не уложится.
Neoline: при использовании качественных библиотек - это не так.
свой велосипед обходится дороже.
Neoline:

Нет.

Если есть необходимость использовать эмуляторы браузеров - значит содержимое страницы строится через жестокий JavaScript.

И тут уж вам PHP ничем не поможет.
От слова - совсем.
Neoline:
GMail у вас есть?

Спарзите на PHP.
Разрешаю передать заголовки.
Neoline: Сайтов, генерящих контент при помощи JS нынче - полным-полно.

Answer 1 · 2016-11-20 21:48:33

Вы за эту неделю уже 4-й такой.
Но раз вы не умеете пользоваться поиском, то...

scrapy, например, для этого предназначен (чтобы получить информацию с сайтов, но записать в MySQL - это отдельная задача, которую не scrapy решает).
https://scrapy.org/
Но это для Python.

Есть для Go
https://github.com/PuerkitoBio/gocrawl
https://github.com/PuerkitoBio/goquery

Наверняка есть и для PHP нечто подобное.

А еще можно воспользоваться готовыми сервисами:
80legs, Mozenda.
Они по вашему заказу все сграбят, выдадут вам в удобной форме - вы потом запишете из этой формы куда вам надо.
У них есть бесплатные пробные тарифы.

Answer 2 · 2016-11-21 07:00:52

Елена Степанова @Insolita

Отчаянная домохозяйка

guzzle + phpQuery/nokogiri

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2016-11-21 19:17:26

Артём @Llaminator

Прогаю на Dlang

Берёшь python, берёшь xml, смотришь туториалы, готово

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2016-11-24 12:06:15

Я бы сказал, что PHP - не лучшее решение для поставленной задачи

Для начала, нужно посмотреть нет ли у ресурса нормального AJAX-интерфейса, это видно в консоли

Если нет и нужно парсить, то правильный подход, вероятно, на сегодня - это Python + requests + BeautifulSoup (есть альтернативы, но этот точно работает и работает хорошо)

Ставим Python (я предпочитаю 2.7, но это непринципиально)
Ставим requests и BeautifulSoup
Ставим lxml

Далее пишем что-то примерно такое

import requests
from bs4 import BeautifulSoup

page = requests.get('http://www.mysite.com/1').content    # Получаем данные
page = BeautifulSoup(page, 'lxml')    # Приводим данные к красивому виду
parsedData = page.findAll('div', {'class': 'my-data-class'})    # Выбираем теги по атрибутам (для примера взят класс)

Выгрузить данные, если их не очень много, можно, например, в csv

csvfile = open('myfile.csv', 'wb')
writer = csv.writer(csvfile, delimiter=';', quotechar=';', quoting=csv.QUOTE_MINIMAL)
for row in parsedData:
    writer.writerow(row)
csvfile.close()

Еще могут понадобиться RegExp и строковые операции, но это тоже несложно и легко гуглится

Как спарсить страницы сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт