Как удалить � (знак вопроса в ромбе) из текста?

Question

Алекс Иванов @Protossan

студент

PHP

Как удалить � (знак вопроса в ромбе) из текста?

Как удалить из текста символ битого UTF символа, если этот символ уже таким дали. смена кодировки ничего не дает. str_replace, preg_replace не могу по символу сделать, так как при копировании из текста он меняется на просто квадрат

Вопрос задан более трёх лет назад
6347 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Skillbox

Профессия PHP-разработчик с нуля до PRO

7 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

7 комментариев

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+3 ещё

Средний
Как организовать автоматическую выдачу цифровых товаров после оплаты на чистом PHP?
- 1 подписчик
- 20 апр.
- 180 просмотров
3

ответа
PHP

Простой
Не работает яндекс ссылка прямая?
- 1 подписчик
- 07 апр.
- 193 просмотра
1

ответ
PHP

Простой
Почему слетает сайт при загрузке обработчика?
- 1 подписчик
- 02 апр.
- 216 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Авторизация вконтакте как настроить?
- 2 подписчика
- 26 мар.
- 349 просмотров
1

ответ
PHP

Простой
СТРОКА — где искать ее истоки на сайте?
- 1 подписчик
- 11 мар.
- 374 просмотра
2

ответа
PHP

Простой
Есть ли такая функция сравнения?
- 2 подписчика
- 09 мар.
- 322 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Как быть если ломается сайт, в зависимости от браузера?
- 1 подписчик
- 05 мар.
- 525 просмотров
1

ответ
PHP

Простой
Как отправить файл в Телеграм через OpenServer 6.5.0?
- 1 подписчик
- 02 мар.
- 248 просмотров
1

ответ
PHP

Простой
Почему массив не меняется в цикле foreach?
- 1 подписчик
- 02 мар.
- 381 просмотр
3

ответа
PHP

+3 ещё

Простой
Как запустить дебаг php скрипта, находящегося на удаленной машине, где php установлен в docker?
- 2 подписчика
- 26 февр.
- 261 просмотр
1

ответ
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 15 000 до 250 000 ₽

Программист PHP

Базис-Центр • Коломна

от 70 000 до 250 000 ₽

Fullstack PHP Laravel/VueJS разработчик

Emsoft

До 150 000 ₽

Добрый день.
Дополните вопрос примером текста, кодом, которым Вы получаете этот текст.
Без всего этого можно долго гадать.
slo_nik, текст просто дан в txt файле. Т.е. он уже битый.
Алекс Иванов, пересохраните данные в нужной кодировке. Например при помощи sublimetext
Алекс Иванов, а для этого попробуйте открыть в нужной кодировке.

Answer 1 · 2018-04-02 14:07:08

Для начала изучить текст и определить, а как собственно эти битые символы появились.

Если из-за того, что в некоторых местах текста между байтами символа был вставлен пробел - в таком случае можно просто удалить пробелы, которые располагаются там, где они в utf-8 невозможны (после 11xxxxxx или перед 10xxxxxx в двоичном представлении).

Answer 2 · 2019-05-15 14:56:26

Способ длинноватый, но простой и приемлемый для «почтичайников».
В тексте имеются символы «вопрос в черном ромбе» �. Удалить можно только вручную, по одному. Инструменты «найти» и «заменить» не помогают, они не видят этот символ. Применить макрос или код – не для всех. Вообще этот символ означает, что в исходном тексте были символы, отсутствующие в тексте с текущей кодировкой.
Создаем новый документ ворд, копируем в него символы, можно вместе с небольшим фрагментом текста, так, чтобы в будущем по положению в тексте можно было найти символ, даже если все будет заменено на абракодабру. Удобно повторить несколько символов в начале строки.
Сохраняем текст.
В настройках ворд на вкладке файл-параметры-дополнительно-группа «общие» (внизу) ставим птичку «подтверждать преобразование формата файла при открытии»
Сохраняем текст в txt. При нажатии «сохранить» появится окно «преобразование файла». По умолчанию стоит кодировка виндовс. Справа под окном кодировок будет предупреждение о том, что «текст, выделенный красным невозможно сохранить в выбранной кодировке». Ниже в окне образца, пролистав его увидите красные символы. Слева вверху три варианта кодировки. Ставим точку «Другая». Активируется окно кодировок. Находим кодировку, при которой символы в образце становятся некрасными, но текст читается. Мне помогла кодировка «Китайская упрощенная (GB 18030)». Юникод не помог, т.к. в будущем при замене инструмент «заменить» не увидел некоторых символов этой кодировки. Т.е. в китайской кодировке символы, заменившие � ромб совпали с виндовс (я так понимаю ANSI), а в Юникоде � ромб заменился на символы, часть которых отсутствует в кодировке виндовс. Жмем ОК.
Закрыть.
Открыть с помощью Ворд. При открытии в запросе выбрать обычный текст. Откроется абракодабра.
В абракодабре найти символ (скорее всего группу символов), соответствующие символу � ромб.
Инструментом «заменить» заменить найденные символы на какие-нибудь другие (потом моно будет просто менять).
Сохранить.
Закрыить.
Открыть с помощью ворд, выбрав опять кодировку «Китайская упрощенная (GB 18030)».
Сохранить как docx.
Может можно и проще. Смысл понятен. Проблема в разных символах в разных кодировках. Еще проще написать какой-нибудь код, но это не для массового пользователя.

Answer 3 · 2020-03-25 14:51:55

ruslanyu @ruslanyu

Evernotу ищет такие символы, через заменить вставляете что нужно.

Ответ написан более трёх лет назад

Комментировать

Как удалить � (знак вопроса в ромбе) из текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт