Задать вопрос

Сменить кодировку текста pdf

Даны pdf-файл, сделаны latex+dvips+ps2pdf, исходник утеряны или скрыты создателями :)
Если в adobe pdf reader выделить текст и скопировать куда-нибудь, скопируются крякозябры, например "Ñòîõàñòè÷åñêèé".
Вследствие плохой кодировки не работает, например поиск по файлу.
Для некоторых из имеющихся файлов помогает использование foxit вместо adobe для поиска, но хочется, чтобы любой ридер мог читать. Требуется, видимо, изменить кодировку чего-то внутри (или вне?) pdf. Порылся в интернетах, ничего полезного не нашёл, хотя проблема, вроде, не редкая. Посоветуйте какой-нибудь софт или последовательность действий, чтобы это исправить. Операционная система любая.
  • Вопрос задан
  • 223587 просмотров
Подписаться 12 Средний Комментировать
Решения вопроса 1
PoCTo
@PoCTo Автор вопроса
Нашёл решение для моих случаев:
gs -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER  -sOutputFile=output.pdf input.pdf

После этого у output.pdf невероятным образом появляется верная кодировка.
В Windows исполняемый файл должен называться gsw32c, gswin32c, или тоже gs.
Ответ написан
Пригласить эксперта
Ответы на вопрос 6
@Mehabr
Мне помогает в этом деле следующие. Я из pdf из которого не копируется кириллица, через ctrl+p создаю новую pdf используя принтер Adobe PDF и из новой pdf русский текст копирует.
Ответ написан
loenkoff
@loenkoff
Software Engineer
Я восстановил файл (ТУ из ГОСТ с таблицами и формулами) с той же проблемой (без исходников и с сохранением формата) с помощью https://finereaderonline.com/ - наверное, то же самое можно сделать обычным FineReader'ом. Результат экспортируется в любой текстовый формат.

(понимаю, что некропостинг, но т.к. нормального рабочего ответа по восстановлению без исходников в сети не нашел, то может быть этот вариант будет еще кому-то полезен)

В онлайн-версии распознавание более 11 страниц платное, но я думаю в последующем при подобной проблеме можно и не пожмотиться (ABBYY продают пакеты страниц, не обязательно прогу покупать) ради благой цели. В этот раз мне хватило 10 страниц - я отметил выборочные.
Ответ написан
@Black_and_green
Developer - chigrin.xyz
Нашёл чуть более удобный способ для обывателей с Windows:

Необходимо экспортировать весь файл в PostScript (Encapsulated создаст для каждой страницы файл - нужен обычный). И далее собрать pdf заново.
Я это проделывал используя Acrobat DC и Acrobat Distiller.
Ответ написан
Комментировать
Nickel3000
@Nickel3000
У вас текст в кодировке CP1252 (слово «Стохастический»). Вам нужно вытащить весь текст из pdf, изменить кодировку и снова сохранить в pdf. Форматирование скорее всего потеряется, я не спец. Возможно, как-то можно преобразовать кодировку в каком-либо редакторе pdf.
Ответ написан
nazarpc
@nazarpc
Open Source enthusiast
Если по фразам — то переводить можно в декодере, а чтобы всю книжку — как-то тоже пробовал, ничего так и не получилось.
Ответ написан
Комментировать
@photovideomaster
File\Save as\выбираем формат\жмем справа "Settings"\если выбранный формат предполагает изменение кодировки, выбираем нужное (обычно UTF-8)\жмем Save\Ждем\Радуемся
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы