Как получить читаемый русский текст при парсинге PDF c помощью tabula-py?

Question

malvin @malvin

Как получить читаемый русский текст при парсинге PDF c помощью tabula-py?

Виндоус 7 32.
Все русские буквы в сохраненном файле заменены ?????

import tabula


tabula.convert_into(r"C:\Code\Active\kartoteka\misc\ExampleExtract.pdf", r"C:\Code\Active\kartoteka\misc\output.csv", output_format="csv",pages = "all",java_options="-Dfile.encoding=utl-8")

Разработчик рекомендует такое решение -

I got ? character with result on Windows. How can I avoid it?
If the encoding of PDF is UTF-8, you should set chcp 65001 on your terminal before launching a Python process.

chcp 65001

Запустил команду в смд - тот же результат.

Вопрос задан более трёх лет назад
422 просмотра

5 комментариев

Подписаться 1 Простой 5 комментариев

Moskus @Moskus

А в какой кодировке PDF?

Написано более трёх лет назад
malvin @malvin Автор вопроса

Moskus
Где посмотреть?
Все, что вижу в коде это вот это -
<meta charset="utf-8">

Написано более трёх лет назад
Moskus @Moskus

malvin, в коде чего вы это видите?
Нужно открыть сам PDF и посмотреть на текстовые данные. Потому что, строго говоря, PDF может содержать текст в условной (случайной) кодировке, так как задача формата, в общем случае - хранить не текст, а изображение текста.

Написано более трёх лет назад
malvin @malvin Автор вопроса

@Moskus

Написано более трёх лет назад
Moskus @Moskus

malvin, ну и зачем вам смотреть на HTML, который вы сами сгенерировали? Вам кодировка исходного PDF нужна, чтобы определить, что с ним делать.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность

2 месяца

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Stepik

FullStack Developer and Data Scientist (Python+JS+Data+CookBook)

4 месяца

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 569 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 389 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1095 просмотров
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 421 просмотр
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 512 просмотров
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 546 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 1206 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 869 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 501 просмотр
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб. 2025
- 582 просмотра
4

ответа
Показать ещё Загружается…

Moskus
Где посмотреть?
Все, что вижу в коде это вот это -
<meta charset="utf-8">
malvin, в коде чего вы это видите?
Нужно открыть сам PDF и посмотреть на текстовые данные. Потому что, строго говоря, PDF может содержать текст в условной (случайной) кодировке, так как задача формата, в общем случае - хранить не текст, а изображение текста.
malvin, ну и зачем вам смотреть на HTML, который вы сами сгенерировали? Вам кодировка исходного PDF нужна, чтобы определить, что с ним делать.

Как получить читаемый русский текст при парсинге PDF c помощью tabula-py?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт