Сменить кодировку текста pdf

Question

PoCTo @PoCTo

Сменить кодировку текста pdf

Даны pdf-файл, сделаны latex+dvips+ps2pdf, исходник утеряны или скрыты создателями :)
Если в adobe pdf reader выделить текст и скопировать куда-нибудь, скопируются крякозябры, например "Ñòîõàñòè÷åñêèé".
Вследствие плохой кодировки не работает, например поиск по файлу.
Для некоторых из имеющихся файлов помогает использование foxit вместо adobe для поиска, но хочется, чтобы любой ридер мог читать. Требуется, видимо, изменить кодировку чего-то внутри (или вне?) pdf. Порылся в интернетах, ничего полезного не нашёл, хотя проблема, вроде, не редкая. Посоветуйте какой-нибудь софт или последовательность действий, чтобы это исправить. Операционная система любая.

Вопрос задан более трёх лет назад
232795 просмотров

Комментировать

Подписаться 12 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

9 комментариев

Андрей Шевчук @IIIEB4YK

В моём случае не работает Т__Т (Ubuntu 12.10, GPL Ghostscript 9.06)

Написано более трёх лет назад
romakoks @romakoks

на windows не вышло просто потому что ghostscript не хотел добавляться в path. На ubuntu все прошло гладко.

Написано более трёх лет назад
mrdrkot @mrdrkot

у меня тоже не сработало...

Написано более трёх лет назад
Дмитрий Власов @vlasovde

romakoks: Скачал Ghostscript c "ghostscript.com/download/gsdnld.html". Установил версию x64, Win 8.1. Затем запустил грубо указав полный путь к файлам^ C:\>"C:\Program Files\gs\gs9.19\bin\gswin64.exe" -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER -sOutputFile="C:\test\output.pdf" "C:\test\Input.pdf"

Написано более трёх лет назад
R80 @R80

Дмитрий Власов:
У меня при выполнении данных действий Ghostscript выдаёт ошибку:

Error: /undefined in C:\
Operand stack:

Execution stack:
%interp_exit .runexec2 --nostringval-- --nostringval-- --nostringval-
- 2 %stopped_push --nostringval-- --nostringval-- %loop_continue --n
ostringval-- --nostringval-- false 1 %stopped_push .runexec2 --nostr
ingval-- --nostringval-- --nostringval-- 2 %stopped_push --nostringval
--
Dictionary stack:
--dict:1194/1684(ro)(G)-- --dict:0/20(G)-- --dict:78/200(L)--
Current allocation mode is local
Last OS error: No such file or directory
Current file position is 3

Не подскажете, как решить проблему? Win7 32

Написано более трёх лет назад
PoCTo @PoCTo Автор вопроса

R80: попробуйте слеш в пути к файлу другую сторону развернуть, проверьте, что взяли пути в кавычки, или просто указывайте относительные пути вместо полных. Судя по "Last OS error: No such file or directory", не получилось распознать путь, который вы задали.
Чтобы не мучаться с путями, добавьте в PATH путь к бинарнику gs, тогда будет удобно и коротко, как в моем изначальном решении

Впрочем, через полтора месяца после вопроса это уже может быть и неважно :)

Написано более трёх лет назад
R80 @R80

PoCTo: да нет, почему же, очень важно. Потому как имеющийся документ тянет почти на 300 страниц. Через OCR его заново прогонять просто дикость. Что касается GS, то попробовал сейчас ваши рекомендации относительно слэша и кавычек - всё тщетно. Кавычки стоят. Разворот слэша ничего не меняет. Вот фраза про добавление в PATH путь к бинарнику gs, мне, как полнейшему профану в этом деле, не совсем понятна.
Сейчас я действую по сценарию, описанному у Дмитрия. Я просто копирую его путь C:\>"C:\Program Files\gs\gs9.19\bin\gswin64.exe" -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER -sOutputFile="C:\test\output.pdf" "C:\test\Input.pdf", естественно поместив в указанные папки нужные файлы с указанными наименованиями, и меняю gswin64.exe на gswin32c.exe. Может быть я где-то на этом этапе допускаю некую кощунственную ошибку, которая и является причиной гневных ответов gs в мой адрес? Хотелось бы разобраться.

Написано более трёх лет назад
Leonid Fedotov @iLeonidze

Пытаюсь сконвертировать CP1252 → CP1251, увы, фокус не удался, хотя все верно отработало и новый файл даже создался

Написано более трёх лет назад
MrNobody @MrNobody

Leonid Fedotov, Безусловно уже слегка поздновато, но вдруг пригодится еще кому-нибудь.

Для преобразование текста(без должно форматирования, к сожалению) можно сделать так:
Открыть notepad++, создать новый файл с кодировкой в которой у вас текст(выбрать кодировку в настройках их которой нужно конвертировать), сохранить, скопировать кракозабры(текст из pdf файла cp1252), заменить кодировку на cp1251 в меню.
После этого текст будет читаем и им можно будет воспользоваться.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

3 комментария

PoCTo @PoCTo Автор вопроса

это я тоже понял, воспользовавшись habrahabr.ru/post/147843/ :)
вопрос только в том, как мне вытащить ocr, сконвертить его и вернуть на место, пока лучший придуманный способ — прогнать через finereader и распознать заново, но это совсем уж в лоб

Написано более трёх лет назад
Nickel3000 @Nickel3000

А можно пример файла?

Написано более трёх лет назад
PoCTo @PoCTo Автор вопроса

Удивительно, решение благодаря вам нашлось неожиданно!
Я пытался вырезать страничку из большой pdf-ки с помощью gs, и после вырезания эта страница работала с поиском! Видимо ghostscript сам проставил кодировку где-то.

Написано более трёх лет назад

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 184 просмотра
3

ответа
Кодировка символов

Простой
Почему нет кодировки ISO/IEC 8859-16 на компьютере?
- 1 подписчик
- 22 мая
- 82 просмотра
1

ответ
Браузеры

+1 ещё

Простой
Как вернуть кодировку страниц?
- 1 подписчик
- 09 апр.
- 216 просмотров
2

ответа
VPN

+2 ещё

Простой
Vless-reality не работает с Adobe Firefly и ChatGPT?
- 2 подписчика
- 07 янв.
- 1220 просмотров
3

ответа
Кодировка символов

Простой
Как создать нечитаемые символы?
- 1 подписчик
- более года назад
- 273 просмотра
0

ответов
Кодировка символов

Простой
Неверные символы при копировании?
- 2 подписчика
- более года назад
- 299 просмотров
0

ответов
C++

+1 ещё

Средний
Как это сделать это задание на c++?
- 1 подписчик
- более года назад
- 268 просмотров
0

ответов
Кодировка символов

+1 ещё

Средний
Слетает кодировка Outlook 2019. Как поправить?
- 1 подписчик
- более года назад
- 2191 просмотр
1

ответ
C++

+1 ещё

Средний
Как сравнить char в с++ на пустоту?
- 1 подписчик
- более года назад
- 284 просмотра
1

ответ
Программирование

+4 ещё

Средний
Как увидеть русские символы в обычной строке в отладчике Visual studio?
- 1 подписчик
- более года назад
- 386 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2013-01-11 22:41:08

Нашёл решение для моих случаев:

gs -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER  -sOutputFile=output.pdf input.pdf

После этого у output.pdf невероятным образом появляется верная кодировка.
В Windows исполняемый файл должен называться gsw32c, gswin32c, или тоже gs.

Answer 2 · 2017-08-21 17:59:15

Мне помогает в этом деле следующие. Я из pdf из которого не копируется кириллица, через ctrl+p создаю новую pdf используя принтер Adobe PDF и из новой pdf русский текст копирует.

Answer 3 · 2016-09-21 15:53:41

Я восстановил файл (ТУ из ГОСТ с таблицами и формулами) с той же проблемой (без исходников и с сохранением формата) с помощью https://finereaderonline.com/ - наверное, то же самое можно сделать обычным FineReader'ом. Результат экспортируется в любой текстовый формат.

(понимаю, что некропостинг, но т.к. нормального рабочего ответа по восстановлению без исходников в сети не нашел, то может быть этот вариант будет еще кому-то полезен)

В онлайн-версии распознавание более 11 страниц платное, но я думаю в последующем при подобной проблеме можно и не пожмотиться (ABBYY продают пакеты страниц, не обязательно прогу покупать) ради благой цели. В этот раз мне хватило 10 страниц - я отметил выборочные.

Answer 4 · 2013-01-11 20:54:17

У вас текст в кодировке CP1252 (слово «Стохастический»). Вам нужно вытащить весь текст из pdf, изменить кодировку и снова сохранить в pdf. Форматирование скорее всего потеряется, я не спец. Возможно, как-то можно преобразовать кодировку в каком-либо редакторе pdf.

Answer 5 · 2013-01-11 21:06:36

Если по фразам — то переводить можно в декодере, а чтобы всю книжку — как-то тоже пробовал, ничего так и не получилось.

Answer 6 · 2014-05-14 00:15:37

File\Save as\выбираем формат\жмем справа "Settings"\если выбранный формат предполагает изменение кодировки, выбираем нужное (обычно UTF-8)\жмем Save\Ждем\Радуемся

Сменить кодировку текста pdf

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт