Есть ли корректный способ обрабатывать тексты к кириллицей посредством awk?

Question

zradeg @zradeg

Есть ли корректный способ обрабатывать тексты к кириллицей посредством awk?

Есть два файла: country.csv и president.csv
country.csv имеет два столбца: 1)Название страны; 2) Население
president.csv тоже два столбца: 1)Название страны; 2)Имя ее президента
В качестве разделителя используется точка с запятой.

Надо получить третий файл (или дописать колонку в первый - не суть), где в одной строке будут находиться все три поля: Название страны; Количество населения; Имя президента.
Количество строк в файлах разное, т.е. некоторых стран может не быть как в первом так и во втором файле, т.е. просто отсортировать и затем вслепую присоединить столбец не получится. Необходимо именно по значению первой ячейки первого файла найти строку с этим значением во втором файле и взять значение из второй колонки этой строки.

Пытаюсь сделать это подобным скриптом:

#!/bin/bash
                                                     
while read LINE; do
        C_NAME=$(echo $LINE | cut -d";" -f1)
        awk -v country=$C_NAME -v line=$LINE -F";" '$1 == country {print line";"$2}' president.csv >>result.csv
done < country.csv

И получаю сообщение об ошибке:

awk: cmd. line:1: Албания
awk: cmd. line:1: ^ invalid char '�' in expression

Как выйти из ситуации?

P.S. Забыл упомянуть, что оба файла уже в utf-8!

Вопрос задан более трёх лет назад
469 просмотров

5 комментариев

Подписаться 1 Средний 5 комментариев

Alexey Dmitriev @SignFinder

Вам подсказали путь с конвертацией в 1251, но можно попробовать в начале скрипта сделать export LC_ALL=CP1251 или export LC_ALL="ru_RU.CP1251".
Это конечно валидно, если данные в файлах в 1251 кодировке.

Написано более трёх лет назад
zradeg @zradeg Автор вопроса

Alexey Dmitriev, прошу прощения, забыл упомянуть, что оба файла в utf-8.

Написано более трёх лет назад
Alexey Dmitriev @SignFinder

zradeg, проверьте вашу локаль в консоли (команда locale). Если она RU_ru.UTF-8 и awk поддерживает Unicode - в выводе не должно быть кракозябров. Если локаль другая-смените временно через export LC_ALL="RU_ru.UTF-8".
Ну и попробуйте разные реализации awk - gawk, nawk. В этим двух поддержка Unicode заявлена.

Написано более трёх лет назад
zradeg @zradeg Автор вопроса

Alexey Dmitriev, такая ерунда:
# locale | grep LC_ALL
locale: Cannot set LC_CTYPE to default locale: No such file or directory
locale: Cannot set LC_MESSAGES to default locale: No such file or directory
locale: Cannot set LC_ALL to default locale: No such file or directory
LC_ALL=RU_ru.UTF-8

Написано более трёх лет назад
Alexey Dmitriev @SignFinder

zradeg, проверйте установленные локали через locale -a
ну и https://www.shellhacks.com/ru/linux-define-locale-...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SSH

+1 ещё

Средний
Как исправить невозможность подключиться к серверу по ssh?
- 1 подписчик
- 07 июл.
- 138 просмотров
3

ответа
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 210 просмотров
2

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 916 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 310 просмотров
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 367 просмотров
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 277 просмотров
1

ответ
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 146 просмотров
2

ответа
Linux

+1 ещё

Средний
Рост CLOSE-WAIT и утечки TCP-сокетов в Xray (vless + reality) — что делать?
- 3 подписчика
- 05 июн.
- 1151 просмотр
1

ответ
Linux

+1 ещё

Средний
Редактирование загрузочного меню GRUB?
- 1 подписчик
- 23 мая
- 424 просмотра
3

ответа
Linux

+2 ещё

Сложный
Восстановление таблицы разделов?
- 3 подписчика
- 15 мая
- 552 просмотра
1

ответ
Показать ещё Загружается…

Вам подсказали путь с конвертацией в 1251, но можно попробовать в начале скрипта сделать export LC_ALL=CP1251 или export LC_ALL="ru_RU.CP1251".
Это конечно валидно, если данные в файлах в 1251 кодировке.
Alexey Dmitriev, прошу прощения, забыл упомянуть, что оба файла в utf-8.
zradeg, проверьте вашу локаль в консоли (команда locale). Если она RU_ru.UTF-8 и awk поддерживает Unicode - в выводе не должно быть кракозябров. Если локаль другая-смените временно через export LC_ALL="RU_ru.UTF-8".
Ну и попробуйте разные реализации awk - gawk, nawk. В этим двух поддержка Unicode заявлена.
Alexey Dmitriev, такая ерунда:
# locale | grep LC_ALL
locale: Cannot set LC_CTYPE to default locale: No such file or directory
locale: Cannot set LC_MESSAGES to default locale: No such file or directory
locale: Cannot set LC_ALL to default locale: No such file or directory
LC_ALL=RU_ru.UTF-8
zradeg, проверйте установленные локали через locale -a
ну и https://www.shellhacks.com/ru/linux-define-locale-...

Answer 1 · 2019-09-24 20:23:03

ваш код корректный, затык скорее всего в данных.
если зальете csv куда–нить можно будет глянуть подробнее.

Answer 2 · 2019-09-24 19:46:24

Andrey Dugin @adugin

iconv -f cp1251 -t utf8 president.csv | awk ...

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2019-09-24 23:20:17

vreitech @fzfx

18,5 дм

убедитесь, что ваш csv-файл без BOM.

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2019-09-25 17:08:16

Всему виной была моя невнимательность и... некорректный символ завершения строки! \r\n вместо \n
Прошу прощения и благодарю всех, проявивших интерес к проблеме!

Есть ли корректный способ обрабатывать тексты к кириллицей посредством awk?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт