@easycode
не боюсь задавать глупые вопросы ))

Полнотекстовый поиск на сайте по загруженным файлам формата: Word, Excel, Visio, PDF — как?

Есть сайт на PHP, на который пользователи загружают файлы формата: Word, Excel, Visio, PDF
Необходимо организовать на сайте возможность полнотекстового поиска по содержимому этих загруженных файлов.

Получается нужно Word, Excel, Visio, PDF конвертировать в текст и запихнуть в базу?

Какие решения можно применить? Естественно можно рассмотреть использование каких-нибудь утилит командной строки, только на PHP здесь надежды нет )
  • Вопрос задан
  • 772 просмотра
Пригласить эксперта
Ответы на вопрос 3
@santaatnas
Java, Python, Php
Вы все правильно думаете, парсите pdf, word, excel и тп в текс, пишете в базу, лепите к базе Sphinx или elasticsearch = профит. Средствами пыха все реально сделать, а там можете на любом языке...
Ответ написан
Комментировать
Парсинг документов самостоятельно не стоит писать - есть Apache Tika (Java) - на выходе JSON. Tika раньше был в составе Apache Lucene (поисковый движок).
The Apache Tika™ toolkit detects and extracts metadata and text from over a thousand different file types (such as PPT, XLS, and PDF). All of these file types can be parsed through a single interface, making Tika useful for search engine indexing, content analysis, translation, and much more.


Индексация текста и поиск - Elastic Search (Java), Sphinx Search (C++), как заметил ранее santaatnas, плюс Solr, Apache Lucene.
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы