Как можно проиндексировать локальные html файлы в базу данных?

Добрый день, подскажите пожалуйста как можно решить задачу.
На сетевом диске имеется папка, с множеством подпапок, внутри которых также множество HTML файлов, другими словами, на диске находятся множество зеркал сайтов.
Задача такая, чтобы пользователям дать возможность не просто просматривать оффлайн зеркала сайтов, но и дать им возможность искать текст по ним.
Т.е. нужно некий сервис функционал со строкой поиска, где пользователь мог бы ввести искомое слово, а это сервис в результате выдал хотя бы просто ссылки на эти html файлы для открытия

Самое тупое что я вижу, это как то спарсить все html файлы (определенные только зоны на уровне DOM, и ссылку на файл) далее поместить этот текст куда нибудь в базу (с тем же полнотекстовым поиском), после чего обыную веб форму, которая будет делать select в базу с фильтром от пользователя и выводить ссылки на найденные результаты файлов (может даже как то кусок найденного текста с подсветкой)

А может даже уже есть какое то готовое решение
  • Вопрос задан
  • 199 просмотров
Решения вопроса 1
dimonchik2013
@dimonchik2013
non progredi est regredi
раз sphinxsearch.com/forum/view.html?id=3867
два https://github.com/Restream/reindexer
ну и так как предлагаешь - три,
в базу вбивай после strip tags например, хотя думаю ложные срабатывания все равно будут

да, четыре - пять - поисковики со спайдерами тоже есть, но там огород
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Откройте питоном и дальше - парсите и сохраняйте куда хотите. Это самое простое.
Ответ написан
Комментировать
2ord
@2ord
Solr, Sphinx search, Apache Tika,...
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы