Как можно проиндексировать локальные html файлы в базу данных?
Добрый день, подскажите пожалуйста как можно решить задачу.
На сетевом диске имеется папка, с множеством подпапок, внутри которых также множество HTML файлов, другими словами, на диске находятся множество зеркал сайтов.
Задача такая, чтобы пользователям дать возможность не просто просматривать оффлайн зеркала сайтов, но и дать им возможность искать текст по ним.
Т.е. нужно некий сервис функционал со строкой поиска, где пользователь мог бы ввести искомое слово, а это сервис в результате выдал хотя бы просто ссылки на эти html файлы для открытия
Самое тупое что я вижу, это как то спарсить все html файлы (определенные только зоны на уровне DOM, и ссылку на файл) далее поместить этот текст куда нибудь в базу (с тем же полнотекстовым поиском), после чего обыную веб форму, которая будет делать select в базу с фильтром от пользователя и выводить ссылки на найденные результаты файлов (может даже как то кусок найденного текста с подсветкой)