@FictionBender

Как проверить, есть ли в строке язык, кроме английского?

Всем привет, есть сотни тысяч строк в таблице, обрабатываю ее через pandas. Одним из условий обработки является исключение строк, содержащих что угодно, кроме английского алфавита, цифр, спецсимволов, и, самое страшное, emoji смайликов.
Т.е, если в строке есть иероглифы\кириллица - удаляем ее.
Вопрос:
Какой самый быстрый способ отсеять лишние строки, не сильно потеряв при этом в скорости?
Смайликов ведь огромное количество.
Неужели придется делать whitelist символов (a-z, A-Z, 0-9, и все смайлики)?
  • Вопрос задан
  • 124 просмотра
Пригласить эксперта
Ответы на вопрос 2
Vindicar
@Vindicar
RTFM!
Поищи описание диапазонов юникода, может, получится по кодам символов работать. Но да, при такой формулировке задачи - только whitelist.
Ответ написан
Комментировать
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
FictionBender фильтровать по нациям это уже попахивает измерением черепа. Мой вам совет "беги форест беги"
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы