@serj37

Как удалить регуляркой абракадабру?

Добрый день!
Есть задача по обработке логов. В каждой строке символьные значения из цифр, англ. букв (разный регистр) и спецсимволы. Нужно отделить относительно осмысленный текст от абракадабры (сгенерированного или просто "мусор")
Есть:
moskvichhuev
89028091133
skoda582
za*a541_893z**
rfv%:t27l=bz
Madam_Vanilla
Должно остаться:
moskvichhuev
89028091133
skoda582
Madam_Vanilla
По силам ли такое регулярке
(удалить наборы с несколькими заглавными (либо заглавная не первая и не после пробела)+символы из 3-х наборов символов+букв _рядом_ не более 3-х - это я предположил как мусор или сгенеренное определить)?
  • Вопрос задан
  • 94 просмотра
Пригласить эксперта
Ответы на вопрос 1
dollar
@dollar
Делай добро и бросай его в воду.
Регулярные выражения работают с относительно простыми условиями.
Сформулируйте, что является "абракадаброй", тогда можно будет её фильтровать.
Либо, наоборот, сформулируйте, что является правильным текстом, и только это можно будет оставить, а остальное - мусор, удалить.

Скорее всего, понадобится сложный алгоритм. Что-то типа подсчета количества и разнообразия символов и соотношения разных типов символов. В этом случае регулярные выражения не помогут.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы