@cente

С чего начать написание своего софта(парсера)?

Открыл для себя новую тему для изучения. Хотел бы научиться писать софты, парсеры, чекеры, стиллеры и тд. Для начала мне подкинули идею: парсер товаров сбермегамаркет. Но совсем не знаю с чего начать, какой язык программирования использовать для этого, как будет выглядеть готовый материал и прочее. Горю желанием изучить это, поэтому готов изучать много нудного материала. От вас бы хотел ссылок на полезные материалы и полезных советов. Может у вас уже был подобный опыт?
  • Вопрос задан
  • 1692 просмотра
Решения вопроса 2
NeiroNx
@NeiroNx
Программист
Начать с анализа вывода товаров. Как выводится какие запросы отправляются, какие данные возвращаются. Через консоль отладки браузера.
Язык вообще не важен, важно знать что ты хочешь получить от сайта и какие есть способы это получить.
Ответ написан
@rPman
Написание парсера в первую очередь это реверсинженеринг продукта, данные которого ты собираешь. В каких то случаях это просто (инструментарий браузера, а в каких то потребует декомпиляцию и патчинг на живую и ковыряние с ассемблером (например чтобы интегрировать самоподписанный сертификат в десктопное приложение или отключить его проверку только чтобы собирать данные в своем прокси с целью изучения протокола).

Если речь о браузере, то языки - это javascript, html и css.

Ну и помним про два отличающихся подхода - простой но ресурсоемкий с использованием готового браузера (инжект своего javascript плагином браузера или что то типа selenium) либо сложный но эффективный - симуляция http запросов из своего приложения. Оба подхода на противоположных сторонах, но в конечном счете оба будут использованы, где то один где то другой.

p.s. сообщество полюбило python и javascript (node), я часто использую php, в т.ч. как часть комплекса, так как на питоне и javascript код получается многословнее. Кому то нравится java или c# (использовал когда можно было браузерный компонент легко в свое приложение вставить)
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 5
Zagir-vip
@Zagir-vip
Web dev, Game dev, app dev, Разработчик на Python!
Язык можно использовать любой, но как мне кажется на Python будет удобно писать из-за простоты языка и большого кол.ва библиотек.

Попробуйте погуглить: Python учимся парсить и можно найти годные уроки и документации.
Ответ написан
@rrambo
Ну парсер чекер и стиллер это немного разные виды софта.
начни с анализа какие продукты уже существуют, их особенностей
Может и писать особо ничего не надо, от задачи зависит
Ответ написан
Комментировать
@one2four
От себя добавлю, когда уже научитесь всему, что написали выше, начнется самое интересное, для парсинга больших сайтов(вроде гугла) придется использовать прокси для обхода бана, подделывать user-agent, эмулировать человекоподобные запросы, проходить капчу... и даже тогда, какие-то запросы будут блокироваться. Все это по отдельности есть в интернете
Ответ написан
Комментировать
@Maxpower2k
Когда начал изучать Java, делал парсер цен Сбермаркета: https://github.com/AlexMaxpower/choicemarket
Ответ написан
Комментировать
@marugin
Я для валбериз использовал Node.js и Puppeteer.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы