Добрый день.
Задался целью парсить бук контору, которая написана на java.
Суть в том, что для парсинга, как я уже немного разобрался, нужен будет Selenium, чтобы считывать данные, которые появляются только после клика на статистику матча(в коде сайта я не нашёл, возможно не хватает опыта и знаний в структуре сайтов).
Изначально начал изучать азы С#, но почитав форумы по данной теме, люди советуют лучше писать на Питоне или Java.
Я готов учиться, но информации не так и много в интернете на данную тему.
В данный момент представляю, что такое массивы и как с ними обращаться(в теории), практики большой не имею.
Если есть профи, подскажите, что почитать, изучить, цель-написать самому, код парсинга я не прошу, прошу помочь с литературой, а дальше уже дело техники, буду учить.
Заранее спасибо тем, кто уделит хотя бы минутку моей просьбе.
Кстати ко всему вышеперечисленному подумайте над финансовой стороной вопроса, либо парсите мусор, за недорого, либо стали таким специалистом что обходите антиспам и капчи, но зачем тогда тратить своё время?
Абсолютно не важно на чём писать. Основная ошибка всех новичков.
Важно понимать как работает протокол HTTP/HTTPS, что такое хедеры, куки, понимать аутентификацию, сессии, методы (get, put, update,...), статусы ответов,... Понимать что такое прокси, VPN... и для чего они нужны, как их использовать. Нужно понимать, как работает сервер, как он может защищаться от парсинга.
Изучи модель OSI, из каких слоёв/уровней она состоит
Владимир Коротенко, он просто новее и в первую очередь нацелен на html-парсинг, а не xml. Он быстрее и потребляет меньше памяти + можно подключить испольнение js