Парсинг данных, какой язык практичней?

Question

PRAIT @PRAIT

Парсинг данных, какой язык практичней?

Приветствую всех ребята.
Постараюсь описать как можно короче и как можно понятнее.
Нужно написать полноценный парсер, который будет собирать информацию с сайтов по указанным юзерами категориям.

Простой пример 1 - Нужно с сайта toster.ru собрать информацию пользователей с ником на первую букву ( А ) сколько вопросов было решено этими юзерами, процент, сколько сообщений они оставили под какими тегами больше всего решенных вопросов и т.д.

Простой пример 2 - Нужно с сайта фриланс собрать среднюю стоимость работы в час php разработчика по гео РФ или Украина. Процент положительных и отрицательных отзывов и т.д.

Собственно вопрос стоит в реализации. На каком языке будет практичнее пилить данный скрипт?

Где то, слышал что подобные затеи хорошо реализуются на ASP.NET собственно вопрос к знающим, так ли это?

Классика PHP так как скрипт будет на сервере я думаю при многократном обращении в секунду будет долго обрабатывать. Допустим парсят ежесекундно 500 человек по ( хххх mb) данным. Небольшая ли нагрузка для PHP как долго он будет справляться с задачей?

Взгляд на Golang - как GO справляется с такими задачами?

Взгляд на node js и java - хотелось бы услышать ваше мнение.

Друзья, прошу не кидать нелестные фразы в мою сторону. Так как раньше такого опыта не было, решил спросить у вас.
Я не совсем понимаю что лучше использовать в данных ситуациях.

Задача: Быстрота, Надежность, Многопоточность, что бы выдерживал большое количество обращений в секунду.
Всем спасибо! :)

Вопрос задан более трёх лет назад
6597 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

OTUS

iOS Developer

12 месяцев

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 6

Комментировать

6 комментариев

PRAIT @PRAIT Автор вопроса

Спасибо, действительно стоит обратить внимание!

Написано более трёх лет назад
Михаил Сисин @JabbaHotep

Зато нагрузка на сайты доноры тоже возрастает в разы :) да и на сервер на котором запускается решение основанное на хедлесс браузере + скорость работы очень низкая. Писать парсеры конечно же будет проще для сайтов, которые работают на JS, однако все будет весьма малоэффективно.

Написано более трёх лет назад
Danil Sapegin @ynblpb_spb

Михаил Сисин, далеко не все сайты, которые парсишь позволяют большую скорость парсинга или предоставляют данные в "открытом виде". Само собой, если это ряд хтмл страничек однотипных, то проще использовать голый curl

Написано более трёх лет назад
Михаил Сисин @JabbaHotep

Danil Sapegin, Дело даже не в скорости, а скорее в этичности. 1 или 2 запроса на ресурс, чтобы забрать данные со страницы стандартным HTTP запросом, даже в случае когда сайт работает полностью на JS, лучше чем несколько десятков, сделанных хедлесс браузером. Дополнительным плюсом является то, что бот в этом случае не виден для аналитики и метрики и поэтому не портит статистику.

Я предпочитаю потерять вначале единицы или десятки минут на разбор работы сайта, зато в долгосрочной перспективе сэкономить на машино-времени. Но это в общем то просто мое мнение :)

Написано более трёх лет назад
Danil Sapegin @ynblpb_spb

Михаил Сисин, Знаете, я тоже придерживаюсь такого мнения, чтобы создать минимум неудобств целевому сайту, но почему-то сталкивался с тем, что надо парсить ВК, Яндекс и прочих подобных, где стоит куча защиты от таких умников типа меня, где весь js обфусцирован, все данные прилетающие с сервера по ajax запросу тоже закодированы и надо потратить ощутимо много времени, чтобы решить задачу :)

В общих простейших случаях я с вами согласен.

Написано более трёх лет назад
Михаил Сисин @JabbaHotep

Danil Sapegin, согласен с Вами, что исключения конечно же есть :)

Написано более трёх лет назад

9 комментариев

PRAIT @PRAIT Автор вопроса

Про ширину канала можно подробнее пожалуйста?
Есть ли варианты как избежать бан? ( Кроме смены ip )

Написано более трёх лет назад
Stalker_RED @Stalker_RED

PRAIT, вот представьте, что вы поддерживаете какой-то средних размеров сайт.
И однажды вы сидите дома вечером, пьете чай. и тут внезапно менеджер звонит, и говорит: какие-то негодяи запрашивают с нашего сервера 100500 страниц в секунду, и все томозит. А-а-а-аа!

Вы конечно же первым делом делаете простейший бан по ip. Но через 20 минут выясняется, что эти редиски со своим кривым парсером умеют ip менять. Интересно, получится ли у них "избежать бана" тупо сменой ip?

Написано более трёх лет назад
Ernest Faizullin @erniesto77

в черный список попадают только ip. Поэтому нет другого способа кроме прокси. ip с которого было более 10 периодических запроса на нормальных сайтах автоматом попадают в черный список. Но баном на автомате пользуются только крутые сайты. Сапожники в основном об этом даже и не думают.

Написано более трёх лет назад
PRAIT @PRAIT Автор вопроса

Stalker_RED, Согласен с вами, но есть масса сервисов по парсингу крупных порталов и работают они прекрасно. Значит тут есть какая то фишка о которой мы не знаем. Или там просто задержка, либо лимит на парс. Как думаете?

Написано более трёх лет назад
Ernest Faizullin @erniesto77

PRAIT, либо в ручную мониторят, либо есть какой-то хитрый метод, о котором ни кому не говорится

Более вероятен первый вариант.

Написано более трёх лет назад
PRAIT @PRAIT Автор вопроса

Ernest Faizullin, Сапожники как правило никому не интересны. Поэтому, пусть отдыхают :)

Написано более трёх лет назад
Stalker_RED @Stalker_RED

PRAIT, конечно ставятся какие-то лимиты. Ну и чем крупнее портал, тем легче ему выдержать лишнюю сотню или тысячу запросов.
Даже если этот крупный портал заподозрит что-то неладное, то он вряд ли выдаст сразу бан. Скорее он выдаст капчу, или даже просто уменьшит скорость отдачи.

В общем, скорее всего вы не упретесь в скорость собственно парсинга. Любой язык сможет парсить настолько быстро, что либо положит "донорский" сайт либо столкнется с банами, капчами и ограничениями скорости.

Написано более трёх лет назад
PRAIT @PRAIT Автор вопроса

Stalker_RED, Есть какие нибудь мысли для быстрого теста на устойчивость?

Написано более трёх лет назад
Stalker_RED @Stalker_RED

PRAIT, устойчивость чего? Определить порог, после которого вас начнут банить можно только экспериментально.

Вы всегда можете взять пару сотен проксей, и парсить через них. В особо тяжелых случаях можно парсить через тор (хотя на некоторых ресурсах его блокируют). Скорость конечно будет довольно низкой. А так - просто настройте себе какие-то разумные лимиты. 10 запросов в минуту, или 300, или может быть пару тысяч, но не все 100500, которые может выжать ваш сервак.

Написано более трёх лет назад

6 комментариев

PRAIT @PRAIT Автор вопроса

Вы что издеваетесь? :D

Написано более трёх лет назад
xmoonlight @xmoonlight

PRAIT, не понял... поясните :D Что не понравилось?

Написано более трёх лет назад
PRAIT @PRAIT Автор вопроса

Вы предлагаете качать такой объём? Это очень долго и ресурсоёмко. При этом, HTTrack действует также от вашего ip и может быть забанена.
Или я чего то не понял?

Написано более трёх лет назад
xmoonlight @xmoonlight

PRAIT, там есть тайм-ауты между запросами, фильтрация лишнего (по расширениям, путям и типам контента) и есть режим прерванной докачки.
Чтобы не быть забаненым - нужно не скрывать IP, а думать не только о себе, но и о том, какую нагрузку своим парсингом Вы даёте на ресурс-донор.
Там также можно выставлять подключение через прокси, как и в PHP и других.
Единственная проблема - это место для сохранения "сырого" контента.
А в плане "долго" - это абсолютно одинаково.
Только всё, что нужно - за Вас уже написали)
Вам - только настроить и скачать.
Ну и распарсить на своей стороне нужные данные.

Про IP:
1.смотря где будете запускать ту версию и качайте (она кросс-платформенная).
2.можете настроить proxy-port на хостинге - это делается очень просто.
Но забанить могут и Ваш IP, и IP сервера. Так что лучше - думать про PROXY.

Написано более трёх лет назад
PRAIT @PRAIT Автор вопроса

xmoonlight, Похоже начинаю понимать.
Получается программа не просто копирует сайт а собирает с него данные?
Но я не пойму каким образом мне внедрить её в сайт? Скорее всего недопонимание из за недосыпа, не посчитайте за глупость.

Написано более трёх лет назад
xmoonlight @xmoonlight

PRAIT, Программа - делает локальную копию сайта. Остальное (парсинг файлов в папке) - делаете Вы.
Фильтры в программе - это только для URI и типов контента (заголовков). Просто она достаточно гибко настраивается, чтобы не качать то, что Вам не понадобится.
Вот почитайте раздел помощи по CLI (интерфейс командной строки).

Написано более трёх лет назад

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 259 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 180 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 254 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 202 просмотра
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 205 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 283 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 131 просмотр
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 223 просмотра
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 570 просмотров
2

ответа
Python

+2 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 2 подписчика
- 13 авг.
- 450 просмотров
1

ответ
Показать ещё Загружается…

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Backend Engineer

Kotify

от 3 000 до 5 000 €

PRAIT, дорогой пользователь, настоятельно рекомендуем еще раз обратить самое пристальное внимание на п. 3.1 регламента работы сервиса (и, в особенности, на его последний абзац).
В противном случае, ваши вопросы будут удаляться по причине тег-спама, а систематические нарушения приведут к блокировке учетной записи.

Answer 1 · 2018-03-26 00:38:42

на любом, котором сможешь.
php пойдет, есть многопоточный curl, много кода в нете, php-fpm работает стабильно.

Answer 2 · 2018-03-26 00:43:23

Мне кажется стоит обратить внимание на javascript движки для парсеров, типа phantomjs и casperjs
С их помощью вытаскивание данных со страницы становится проще в десятки раз
Многопоточность работы с этими приложениями уже реализовывайте на любом языке и складывайте в удобном формате в БД или куда-то еще.

Answer 3 · 2018-03-26 00:50:14

Все равно какой язык вы выберете. Тот, который лучше знаете в данный момент, или тот, который хотите изучить в процессе. Все равно вы упретесь не в скорость парсера, а в ширину канала. Ну или вас забанят за слишком большую нагрузку на сервер.

Answer 4 · 2018-03-26 01:13:28

regex - минимум!
Дальше - любой язык.

Задача: Быстрота, Надежность, Многопоточность, что бы выдерживал большое количество обращений в секунду.

Не DDoS'те ресурсы!!! Уважайте друг друга и избежите бана! Парсите всегда с интервалом и в один поток!

Классика PHP так как скрипт будет на сервере я думаю при многократном обращении в секунду будет долго обрабатывать. Допустим парсят ежесекундно 500 человек по ( хххх mb) данным. Небольшая ли нагрузка для PHP как долго он будет справляться с задачей?

Я бы посоветовал вначале ПОСТЕПЕННО всё скачать, чтобы не напрягать ресурс-донор.
А уже после - спокойно распарсите у себя на сервере.
Попробуйте HTTrack

Answer 5 · 2018-03-26 02:02:49

Go - отличный язык и справляется очень хорошо с многопоточностью. Если планируются высокие нагрузки и конкурентные запуски, то из всего что перечислено - только Go.

Однако для примера 1 и 2 непонятно как вы будете использовать эффективно многопоточность. Определитесь сначала с объемами, сколько запросов будете делать. Как часто датасеты будут обновляться и так далее. После этого можно будет выбирать инструмент.

Answer 6 · 2018-03-26 10:38:47

D - отличный язык и справляется очень хорошо с многопоточностью. Если планируются высокие нагрузки и конкурентные запуски, то из всего что перечислено - только D.

Парсинг данных, какой язык практичней?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт