Задать вопрос
@adun3

Как сделать поиск слов из pdf средствами php?

добрый день!
ситуация такая:
есть сервер, у которого в папке лежать около 100 книжек(без защиты, для свободного скачивания) в формате пдф(на русском).
хочется сделать поиск слов из этих книжек и вывести абзац, название книги, страницу в котором данное слово встречается.
Сам я только начинаю программировать, укажите пожалуйста в сторону каких библиотек или других инструментов копать, сам парсер пдф написать сейчас не смогу.
  • Вопрос задан
  • 3324 просмотра
Подписаться 2 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Skillfactory
    Профессия Fullstack веб-разработчик на JavaScript и PHP
    20 месяцев
    Далее
  • Хекслет
    PHP-разработчик
    10 месяцев
    Далее
  • Нетология
    Веб-разработчик с нуля: профессия с выбором специализации
    14 месяцев
    Далее
Решения вопроса 1
KorsaR-ZN
@KorsaR-ZN
Если в PDF лежит текст, то Вам поможет консольная утилита (pdfToText), она может по странично разбить pdf на текстовые файлы, а по ним уже делаете поиск. Если с утилитой возится не хочется есть библиотека для PHP - PDF Parser, тоже умет по страницам считывать и получать текст.

НО есть проблема, большинство PDF книжек сделаны, как картинки в PDF документе, т.е выше перечисленные библиотеки так не умеют, тут нужен иной подход, с помощью них нужно выдрать картинки и произвести распознавание текста.
Для распознавание текста выберите одну из утилит из списка.

Ну как-то так :)
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
FoodSoul Калининград
от 180 000 до 250 000 ₽
IT-Spirit Москва
от 230 000 до 320 000 ₽
от 200 000 до 290 000 ₽