Как можно проиндексировать локальные html файлы в базу данных?

Добрый день, подскажите пожалуйста как можно решить задачу.
На сетевом диске имеется папка, с множеством подпапок, внутри которых также множество HTML файлов, другими словами, на диске находятся множество зеркал сайтов.
Задача такая, чтобы пользователям дать возможность не просто просматривать оффлайн зеркала сайтов, но и дать им возможность искать текст по ним.
Т.е. нужно некий сервис функционал со строкой поиска, где пользователь мог бы ввести искомое слово, а это сервис в результате выдал хотя бы просто ссылки на эти html файлы для открытия

Самое тупое что я вижу, это как то спарсить все html файлы (определенные только зоны на уровне DOM, и ссылку на файл) далее поместить этот текст куда нибудь в базу (с тем же полнотекстовым поиском), после чего обыную веб форму, которая будет делать select в базу с фильтром от пользователя и выводить ссылки на найденные результаты файлов (может даже как то кусок найденного текста с подсветкой)

А может даже уже есть какое то готовое решение
  • Вопрос задан
  • 198 просмотров
Решения вопроса 1
dimonchik2013
@dimonchik2013
non progredi est regredi
раз sphinxsearch.com/forum/view.html?id=3867
два https://github.com/Restream/reindexer
ну и так как предлагаешь - три,
в базу вбивай после strip tags например, хотя думаю ложные срабатывания все равно будут

да, четыре - пять - поисковики со спайдерами тоже есть, но там огород
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Откройте питоном и дальше - парсите и сохраняйте куда хотите. Это самое простое.
Ответ написан
Комментировать
Solr, Sphinx search, Apache Tika,...
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы