Какие есть хорошие библиотеки для считывания текста?
Всем привет.
Мне нужна очень мощная и хорошая библиотека для преобразования текста в строку из doc, docx, pdf файлов. Файлы могут содержать таблицы, картинки, выделение цветом. Библиотека при этом не должна ломаться.
Библиотеки гуглятся на том же стековерфлоу, Вы сами можете проверить их живучесть на гитхабе, а вычищать текст от ненужного можно постобработкой регулярками и str_replace.
Не ясно, что значит "текст в строку")) Текст это не строка?)) Может вы имели в виду картинку в текст? Тогда это OCR. Можно в сторону FineReader посмотреть