Задать вопрос
@malvin

Как получить читаемый русский текст при парсинге PDF c помощью tabula-py?

Виндоус 7 32.
Все русские буквы в сохраненном файле заменены ?????
import tabula


tabula.convert_into(r"C:\Code\Active\kartoteka\misc\ExampleExtract.pdf", r"C:\Code\Active\kartoteka\misc\output.csv", output_format="csv",pages = "all",java_options="-Dfile.encoding=utl-8")

Разработчик рекомендует такое решение -
I got ? character with result on Windows. How can I avoid it?
If the encoding of PDF is UTF-8, you should set chcp 65001 on your terminal before launching a Python process.

chcp 65001


Запустил команду в смд - тот же результат.
  • Вопрос задан
  • 412 просмотров
Подписаться 1 Простой 5 комментариев
Помогут разобраться в теме Все курсы
  • AndroidSprint
    Попробуйте себя в роли разработчика за 10 дней
    1 неделя
    Далее
  • Stepik
    Парсинг на Python для начинающих
    2 недели
    Далее
  • Skillfactory
    Профессия Python-разработчик PRO
    12 месяцев
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы