Парсить это что? когда ты разбираешь конкретный веб сайт под конкретную задачу, ты знаешь что ты ищешь (какую то часть информации на сайте), где она размещена и как ее отличить от не нужной и в каком виде ее сохранить. Т.е. у тебя есть постановка задачи.
Что бы скрипт решал такую задачу, тебе нужно формализовать постановку задачи, т.е. описать задачу таким образом, что бы она была математически строгой, и машиночитаемой.
spoilerОтличным примером можно представить задачу выявления рекламы... если кто то определит, на каждом веб сайте, что является рекламой, определив ее специально созданным языком css selector, и опубликует эти правила на специально тиражируемом публично списке, то приложение 'блокиратор рекламы', использующее эту информацию будет решать задачу, схожую с ней. Но нужно понимать, что это приложение не может работать без толпы людей, которые эти правила создают, т.е. это только часть системы.
Зачастую эта формализация и есть разработки скрипта для парсинга, большей его части (остальная - организация работы, собственно загрузка сайта и сохранение данных, контроль за ошибками и прочее).
p.s. как только мультимодальные ИИ будут способны адекватно понимать содержимое веб сайтов, их можно будет использовать для решения твоей задачи, с постановкой правил на неформальном, человеческом языке, с не 100%-тной вероятностью успеха само собой.
Сейчас от этой низкой вероятности успеха отнимается еще некоторый процент некачественного ИИ в наличии.
Настоятельно рекомендую попробовать поработать с топовыми claude sonnet или openai gtp4o, подсовывая ей html код страницы одновременно со скрином, выделив на нем искомые области и описывая словами задачу построения приложения для выявления нужных элементов (само собой примеров должно быть несколько), поработав так и поняв как косячит современный ИИ в этой задачи, ты начнешь понимать сложность проблемы.
p.p.s. если тебе не поболтать а реальную задачу решать, советую строить парсер на основе веб браузера, собирая только видимые элементы страницы (имеющие текст и настроенные события типа onclick), сохраняя структуру на основе относительного положения (выше/ниже/левее/правее,.. на одном уровне по верхней границе/по левой/по правой/по нижней,.. перекрывает край или полностью входит в...) этой информации на текущий момент достаточно что бы строить очень мощные парсеры, которые справятся даже с теми кто против этого борется, и эту информацию в принципе можно скармливать чисто текстовому ИИ, с большей эффективностью (само собой что бы он смог построить приложение для анализа, а не для анализа самих данных).