Как сделать книгу-справочник из HTML-страниц форума вопросов и ответов?
Что дано: тематика, содержание (ориентировочный план книги, структура по подтемам).
Требуется: наполнить содержание из HTML-файлов (файлы: текст и изображения - уже есть локально) так, чтобы получился некий структурированный справочник по самым востребованным и интересным вопросам, расположенных согласно заданной структуры содержания.
При этом, нужно максимально точно в полуавтоматическом режиме, исключить всякие ответы и комментарии, не относящиеся к вопросу.
1. Спросить у гугла конкретный вопрос и составить по первым N-линкам, модель верного ответа - обучить модель на поисковой выдаче.
2. Применить обученную модель к текущему вопросу и найти наиболее подходящий ответ (из всех ответов и коментариев).