Что необходимо знать, чтобы парсить сайты?

Добрый день! Возник вопрос по поводу парсера и того, как достигнуть подобного уровня знании, позволяющего парсить сайты любой сложности. Прошу мне помочь!
Искал информацию в поисковике, но часто попадал на общие фразы, размышления, на каком языке это делать. Единственное, что пока понятно, что парсить можно на любом языке. Поэтому я решил обратиться к вам, я заранее прошу прощения за столь долгое вступление, но я объясняю всё это для того, чтобы не получать в ответ фразы - "Поисковик вам помощь" . Там я уже был... Я прошу вас, как профессионалов, кратко изложить свой ответ. Желательно, если это будет либо
последовательным списком тем, которых нужно пройти!
Сразу скажу, что парсить я хочу на javascript/ Node.js!
  • Вопрос задан
  • 2283 просмотра
Пригласить эксперта
Ответы на вопрос 5
@BATPYIIIKOB
PHP, JS
Действительно... Если хочешь парсить на JS - учи JS :). Не лишним будет освоить Node.js, вот под неё то уже есть готовые библиотеки для парсинга сайтов :)
https://tproger.ru/translations/web-scraping-node-js/
https://slimerjs.org
Ответ написан
zkrvndm
@zkrvndm
Архитектор решений
Чтобы парсить на JavaScript достаточно знать этот самый JavaScript, так как он СПЕЦИАЛЬНО создан, чтобы работать с контентом на сайтах (вот неожиданность).
Ответ написан
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
Есть 2 типа парсинга, DOM и regexp

У каждого типа есть свои преимущества и недостатки.

только мне интересно как вы собираетесь бороться с

Access to fetch at 'https://ya.ru/' from origin 'chrome-search://local-ntp' has been blocked by CORS policy: No 'Access-Control-Allow-Origin' header is present on the requested resource. If an opaque response serves your needs, set the request's mode to 'no-cors' to fetch the resource with CORS disabled.


Или все же Node.js ?
Ответ написан
GreyCrew
@GreyCrew
Full-stack developer
Для того что бы парсить эффективно в первую очередь нужно понимание, как работают сайты.
Учите технологии, протоколы http/https, типы запросов, кроссдоменные запросы (cors), взайимодействие с внутренними окнами, iframe.

Если вы хотите парсить с помощью Javascript, то нужно знание этого языка.
Далее необходимы понимание инструментов парсинга, как сказал один мудрец, для того что бы спарсить сайт ты должен не просто думать как сайт, ты должен стать сайтом.
В общем используйте технологии консольного браузерного движка webkit, так больше шансов, что у вас получится спарсить нужные данные и вы не застряните на какой то заглушке или капче. Для этого подойдет что то типа puppeteer
Ответ написан
@DimaRich_Studio
Хочешь парсить - почитай про парсеры, про теорию компиляторов, про формальные грамматики, посмотри примеры других парсеров
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы