Как спарсить определенные pdf документы с сайта, которые содержат нужные слова?
Есть картотека арбитражного суда (kad.arbitr.ru), которая содержит различные открытые документы в pdf.
Нужно спарсить ссылки на документы, в которых присутствуют определенные ключевые слова.
Я еще только изучаю python, так что прошу дать наводку в какую сторону двигаться, что почитать/посмотреть, какие особенности учитывать. Может есть какие-то похожие решения?
Как понимаю сайт картотеки на javascript - будут ли тут какие-то сложности?
После нескольких поисковых запросов вылезает капча - в этом будет какая-то проблема при парсинге?