Задать вопрос
@adun3

Как сделать поиск слов из pdf средствами php?

добрый день!
ситуация такая:
есть сервер, у которого в папке лежать около 100 книжек(без защиты, для свободного скачивания) в формате пдф(на русском).
хочется сделать поиск слов из этих книжек и вывести абзац, название книги, страницу в котором данное слово встречается.
Сам я только начинаю программировать, укажите пожалуйста в сторону каких библиотек или других инструментов копать, сам парсер пдф написать сейчас не смогу.
  • Вопрос задан
  • 3298 просмотров
Подписаться 2 Оценить Комментировать
Решения вопроса 1
KorsaR-ZN
@KorsaR-ZN
Если в PDF лежит текст, то Вам поможет консольная утилита (pdfToText), она может по странично разбить pdf на текстовые файлы, а по ним уже делаете поиск. Если с утилитой возится не хочется есть библиотека для PHP - PDF Parser, тоже умет по страницам считывать и получать текст.

НО есть проблема, большинство PDF книжек сделаны, как картинки в PDF документе, т.е выше перечисленные библиотеки так не умеют, тут нужен иной подход, с помощью них нужно выдрать картинки и произвести распознавание текста.
Для распознавание текста выберите одну из утилит из списка.

Ну как-то так :)
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы