Интересует быстрый парсинг - зашел на сайт, посмотрел на код, минимум кода, скорость важна.
Было бы еще неплохо чтобы инструмент был гибким - то есть парсил бы любые сайты.
Или поделитесь пожалуйста Вашими инструментами, было бы неплохо услышать мнение профи - тех кто зарабатывает этим.
PS язык программирования желателен python, ну или другой тоже подойдет
Библиотеки общего назначения конечно используются, всякие надстройки над курлом или пупитир какой-нибудь, но сам парсинг в большинстве случаев слишком разный для разных источников. Где-то нельзя по тегам отделить текст от разметки, где-то реклама повторяет блоки текста по структуре (а их надо отсечь), где-то стоит клоудфлэйр и надо еще и с запросом что-то мудрить, где-то вообще все строится динамически на вью или реакт и саму страничку парсить абсолютно нет смысла... Короче зоопарк технологий порождает практически бесконечное количество вариаций, так что становится проще сделать что-то руками, чем искать универсальное решение.