@FictionBender

Как проверить, есть ли в строке язык, кроме английского?

Всем привет, есть сотни тысяч строк в таблице, обрабатываю ее через pandas. Одним из условий обработки является исключение строк, содержащих что угодно, кроме английского алфавита, цифр, спецсимволов, и, самое страшное, emoji смайликов.
Т.е, если в строке есть иероглифы\кириллица - удаляем ее.
Вопрос:
Какой самый быстрый способ отсеять лишние строки, не сильно потеряв при этом в скорости?
Смайликов ведь огромное количество.
Неужели придется делать whitelist символов (a-z, A-Z, 0-9, и все смайлики)?
  • Вопрос задан
  • 143 просмотра
Пригласить эксперта
Ответы на вопрос 2
Vindicar
@Vindicar
RTFM!
Поищи описание диапазонов юникода, может, получится по кодам символов работать. Но да, при такой формулировке задачи - только whitelist.
Ответ написан
Комментировать
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
FictionBender фильтровать по нациям это уже попахивает измерением черепа. Мой вам совет "беги форест беги"
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы