У тебя тут сразу несколько технологий и задач, достаточно сложных и сильно друг от друга отличающихся:
1. сбор данных с сайта
целая вселенная - это и реверсинженеринг сайта, и борьба против автоматизированных сборщиков (в зависимости от того как заморочился с этим владелец сайта)
Настоятельно рекомендую сразу работать с сайтом из браузера, техник много, от простого открытия сайта в обычном браузере с инжектом твоего javascript (например расширение tempermonkey), который будет ходить по сайту, до запуска безголового браузера и управление им из своей программы с помощью
selenium, а там кликать кнопки и собирать данные, отправляя их тебе на сервер или сохраняя в локальной
базе браузера - localStorage/indexeddb/...
2. обработка данных
тесно связана со сбором, данные нужно не просто собрать но и привести к машиночитаемому виду (бывают ситуации когда данные создаются людьми без определенного формата, в этом случае совсем туго), так же это тесно перекликается с технологиями борьбы владельцев сайтов с автоматическими собирателями данных
Совет, вместе с текстовыми данными собирай информацию о расположении, гораздо проще догадываться о назначении данных, если знаешь их относительную позицию.
3. анализ данных и поиск закономерностей плюс визуализация
это не только нейронные сети, алгоритмов тьма, разбираться хотя бы на уровне что это и в каких ситуациях применять, придется... и самое главное результата может и не получиться но узнаешь ты только потом
работа творческая, и готовых решений скорее всего нет (хотя спасибо, за последние лет 10 собран такой пласт библиотек для работы, один
tenserflow и torch чего стоит. Загляни на
weka, это огромный сет библиотек и алгоритмов (java) как источник информации об этих алгоритмах