Задать вопрос
@SpeakLive91

Как индексировать содержимое PDF файлов в системе Bitrix?

Добрый день! Облазил весь интернет, но так и не нашёл, как настроить индексацию содержимого, загруженных PDF файлов в системе Bitrix. Хотя поиск по всему сайту ищет по ключу в содержимом статей или новостей, но в самих документах PDF не ищет.
  • Вопрос задан
  • 1206 просмотров
Подписаться 1 Средний Комментировать
Пригласить эксперта
Ответы на вопрос 3
gromdron
@gromdron
Работаю с Bitrix24
Все зависит от того какая именно редакция битрикса.
Например в Битрикс24 есть модуль Интранет, внутри которого (в настройках) есть "ссылки на внешние программы" для индексации содержимого.
За pdf отвечает следующая комманда:
pdftotext "#FILE_PATH#" -enc UTF-8 -nopgbrk -
где #FILE_PATH# - это полный путь к файлу, который нужно проиндексировать.

В теории для Управления сайтом можно написать обработчик создания/редактирования элемента инфоблока, куда заливаете файлы и дописывать в SEARCH_CONTENT / поисковый индекс содержимое файла.
Ответ написан
serginhold
@serginhold
А с фига ли он должен в PDF искать? И Битрикс тут не причем. Новости это данные в базе, текст в PDF это данные в файле. Разные вещи.

Теоретически при загрузке PDF на сайт, можно его читать и добавлять содержимое в базу. И потом уже искать совпадения в базе.
Ответ написан
Комментировать
summoner2015
@summoner2015
Backend всему голова
Из коробки этот поиск по содержимому файлов может работать только если на сервере установлен sphinx и подключён в настройках модуля поиска по сайту. Но я не уверен что он сможет искать по содержимому PDF-файлов. Для этого скорее всего потребуется доработка, вот в этой статье есть некий пример - https://habr.com/post/131089/.

Если сайт работает на bitrixenv, то sphinx устанавливать не нужно, достаточно включить его в настройках сервера и произвести индексацию.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы