На чем лучше реализовать многопоточный веб-скрейпер/парсер сайтов?

Question

Andreda @Andreda

На чем лучше реализовать многопоточный веб-скрейпер/парсер сайтов?

НА каком языке программирования и используя какие библиотеки\фреймворки можно написать многопоточный веб-скрейпер/парсер сайтов.

php, nodejs, go, C++ ....

Где по определенному запросу пользователя - необходимо параллельно спарсить со сторонних сайтов-магазинов товары по данному запросу - вглубь сайта не лезть, просто поверхностно на первой странице.

ТО есть пользователь вбивает "джинсы" - сервер запускает до 50 параллельных скриптов или функций, в каждом есть 1-5 http запросов (несколько запросов возможно из-за сложной авторизации на сайте, из-за ввода капчи и тд)/ и другая логика, уникальная для каждого сайта-донора.

И потом информация сбирается со всех потоков и выдается пользователю со всех сайтов.

Информация по ключам будет кэшироваться на некоторое время, но как правило нужно готовиться к высокой нагрузке, когда пользователи будут одновременно искать разные слова\фразы. джинсы,кофта,рубашка и тд.
И сервер, не находя информации в кэше - будет повторно парсить данные со сторонних сайтов в параллельных потоках. То есть и пользователи запрашивают одновременно 50 разных фраз, и серверу необходимо создать по N параллельных функций-парсеров со своей логикой

Вопрос задан более трёх лет назад
1018 просмотров

2 комментария

Подписаться 2 Простой 2 комментария

Пригласить эксперта

Ответы на вопрос 6

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 93 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 203 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 188 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 189 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 230 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 125 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 212 просмотров
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 556 просмотров
2

ответа
Python

+2 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 2 подписчика
- 13 авг.
- 361 просмотр
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 201 просмотр
0

ответов
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Andreda дорогой пользователь, указывайте соответствующие вашему вопросу теги.
Не стоит спамить тегами в надежде, что это увеличит количество просмотров и/или ответов.
Это так не работает и только приведет к удалению ваших вопросов при повторном спаме.

Answer 1 · 2017-11-15 18:37:44

Pavel Shvedov @mmmaaak

go + goquery

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2017-11-15 19:01:46

Выбор языка для подобной задачи сводится к выбору имеющихся готовых библиотек, которые нужно просто скомпоновать. Задача решалась уже сотни раз, ваять свои велосипеды нет смысла. В почти любом языке, применяемом массово для веб-разработки есть готовые библиотеки для решения подобных задач.

Ну и точно не на С++, будет долго, дорого и бессмысленно, это язык для других задач.

Можно еще посоветовать делать том языке, который лучше всего знаком/нравится тому, кто будет непосредственно это программировать. Или, если исполнитель не знает ни одного подходящего под задачу языка - на PHP, просто потому, что будет проще вникнуть.

Answer 3 · 2017-11-16 08:46:53

Evgen @Verz1Lka

Web scraping expert

python + scrapy.org

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2017-11-15 19:15:42

я бы делал не параллельный, а асинхронный и писал бы на python, а информацию сохранял бы в какой-нибудь базе данных, возможно postgres.

Answer 5 · 2017-11-15 19:36:34

Для этого Go подойдёт. Одновременно 50 потоков это очень мало для него. Всё в один канал шлите и отдавайте.

Answer 6 · 2018-01-02 14:45:42

Emil Revencu @Revencu

Python: Multithreading + Requests + LXML
Больше RAM - больше Threads

Ответ написан более трёх лет назад

Комментировать

На чем лучше реализовать многопоточный веб-скрейпер/парсер сайтов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт