У меня достаточно комплексный вопрос.
Делал учебный проект примерно полгода назад. Тема - сервис по доставке, эдакий аналог delivery club/яндекс еды. Понятно, что вообще без претензий на уникальность, функционал, и т.д., просто учебный проект.
Но фишка проекта была в реальной заполненности БД (около 500 заведений, 25000 блюд). Саму БД получал благодаря HTML парсеру на python, с расширениями beautifulsoup и requests, сайта delivery club. В результате работы парсера получал три таблицы - ресторанов, категорий и блюд, информации по минимуму.
Сейчас столкнулся со следующей проблемой - старые ссылки на изображения предприятий и блюд в меню больше неактуальны - ведут в никуда. При повторной попытке запуска парсера, выдаётся ответ с яндекс капчей, которая посылает далеко и надолго (насколько вообще можно понять ответ от парсера).
Прошу совета - что лучше всего делать в данной ситуации? Может быть где-то в сети есть бесплатная аналогичная БД, не обязательно большая, не обязательно подробная, но охватывающая инфу об этих трёх сущностях (заведения, категории, блюда, связанные между собой). Либо же есть простой способ как HTML парсером обойти защиту яндекс капчи? Либо есть аналогичный сервис по Москве, у которого не стоит защита? (У яндекс еды, предварительно такая же защита)
Ради учебного проекта - можно попробовать взять любые картинки на похожую тематику.
(Да хоть через chatgpt+stable diffusion сгенерировать)
В следующий раз будешь знать, что картинки нужно сохранять.
Да и в принципе в учебном проекте не обязательно использовать реальные данные.
А если отвечать на вопрос из заголовка - можешь попробовать спросить напрямую у Яндекса/2гис/деливери - ради учебных проектов они нередко готовы дать доступ к API бесплатно - для них это всё равно легче, чем если ты будешь парсингом заниматься (например я так получал доступ к API Яндекс такси с ценами)