- В 15 годах писал похожий парсер, используя node, fetch и axios, но сейчас часть сайтов возвращает html без таблиц с ценами, почему?
- Для чего нужны selenium, playwright и puppeteer, если я могу через fetch и axios все получить?
Скорее всего проблема в динамическом формировании этих данных на странице. Тут сразу 2 правильных ответа, можете и не можете единовременно:
- Можете - в инструментах разработчика браузера смотрите, с какого адреса приходят данные и затем дергайте данные напрямую, минуя сам сайт, в таком случае можно продолжать использовать fetch.
- Не можете - если вариант выше сложен, то вам нужен инструмент, который сможет выполнять js на странице. fetch/axios возвращают первый ответ сервера, т.е. js на тот момент еще не выполнился на странице, соответственно данные не были подгружены. Вопрос рендера js на странице решают инструменты по типу selenium, playwright и puppeteer.
- Если все же использовать selenium, playwright и puppeteer, что из них лучше на данный момент?
Вначале нужно определить, что понимается под "лучше":
- Можно использовать критерий современности, тогда puppeteer отпадает (playwright написала команда puppeteer).
- Можно использовать критерий производительности, тогда selenium проигрывает playwright сразу по 2 пунктам, по прожорливости и отклику на действия.
- Можно использовать критерий обнаружения анти-бот системами, тогда selenium (с учетом undetected_chromedriver) проигрывает playwright тем, что имеет явную дополнительную задержку в ~100-300мс при выполнении CDP команд, что прям заметно. Playwright такой задержки либо не имеет вообще, либо она в рамках погрешности.
Можно ли их с nodejs использовать?
Selenium написан на java, но так же имеется возможность использования его с nodejs. Playwright вообще написан на ts, все примеры документации и сопутствующие библиотеки с большей вероятность будут писаться под ts по умолчанию.
- Часто вижу о упоминание CDP в контексте парсинга, это зачем и для чего нужно?
CDP (
Chrome DevTools Protocol) грубо говоря - это некие "низкоуровневые" команды для "chromium based" браузеров, который позволяют этим браузером управлять. В playwright так реализованы большинство "высокоуровневых" команд, например: при использовании playwright мы пишем
await locator.getAttribute(name), а playwright использует аналогичную команду из CDP
DOM.getAttributes или
DOM.describeNode.
- Что использовать для отправки сообщений в телегу?
Если речь идет об nodejs, то
Telegraf.