Библиотека, которая поможет понять, что «ответы» и «OtBETЫ» — это одно и тоже?

Question

babbert @babbert

Библиотека, которая поможет понять, что «ответы» и «OtBETЫ» — это одно и тоже?

Здравствуйте.
Мне нужно сделать, чтобы программе было понятно, что например "алкаш" = "@лк@ш".
Нужно это для борьбы с рекламой. Алгоритм я уже придумал, но нужно много писать алиасов букв.
Возможно кто-то уже сделал это до меня и есть готовая либа по распознанию такого, чтобы не изобретать велосипед, не подскажите?)

Вопрос задан более трёх лет назад
1137 просмотров

8 комментариев

Подписаться 6 Простой 8 комментариев

# @mindtester

еще нужнее это, для улучшения эффективности "атаки по словарю" на хеши и подобные штуки.
так что тот кто сделал, вряд ли себя (и продукт) пиарить ))

но из любопытства подпишусь )))

Написано более трёх лет назад
babbert @babbert Автор вопроса

#, Вообще, просто люди уже надоели, как не делай фильтр, прорываются гады.
Ушь думал ИИ создать, но я нубяра)

Написано более трёх лет назад
Руфат Нуриев @nrr

нужно использовать библиотеку с машинным обучением, например scikit-learn или NLTK.

Написано более трёх лет назад
babbert @babbert Автор вопроса

Руфат, Для NodeJS такого случайно нет?

Написано более трёх лет назад
# @mindtester

babbert,
1 - https://duckduckgo.com/?q=%D1%81%D0%BB%D0%BE%D0%B2...
2 - https://xakep.ru/2008/04/16/43271/#toc03.6 (Журнал «Хакер»
16.04.2008)

Написано более трёх лет назад
Roman @myjcom

Алгоритм я уже придумал

Слово состоит из букв?
Значит в слове должны быть только буквы, в русском - русские, в английском - английские.
Любые отклонения вызывают подозрения.

Написано более трёх лет назад
Руфат Нуриев @nrr

можно написать скрипт на Питоне с использованием библиотек, а потом вызывать скрипты Питона из NodeJS, вот как здесь описано: https://stackoverflow.com/questions/23450534/how-t...

Написано более трёх лет назад
devalone @devalone

помимо алиасов для букв, можно также использовать поиск похожих слов, т.е. у ответы и ответЬI(мягкий знак и заглавная i) 5 общих букв - значит они похожи

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 7

2 комментария

Комментировать

1 комментарий

15 комментариев

babbert @babbert Автор вопроса

Я знаю, я же написал "нужно много писать алиасов букв" - `а` ещё есть английская, и из разных алфавитов, их очень много. У меня такой алгоритмы по сути и получился в башке.

Написано более трёх лет назад
nrgian @nrgian
babbert,
"нужно много писать алиасов букв" - `а` ещё есть английская, и из разных алфавитов, их очень много.

conv["t"] = "т" conv["@"] = "а" conv["a"] = "а" conv["ἄ"] = "а"

Все это тут прописываете. Там не много - строк 30 с разными буквами, навскидку.
Либа для этого не нужна.

из разных алфавитов

Этих алфавитов не много - всего 3. Кириллица, латиница, греческий.
Вряд ли вы девангари и пр. экзотику сумеете сюда приплести.
Написано более трёх лет назад
babbert @babbert Автор вопроса

nrgian, Понял, согласен. Нужен список алиасов)

Написано более трёх лет назад
Max Payne @YardalGedal

nrgian, babbert, Можно уменьшить массив в три раза, использовав ключи "а"/"б"/"в" со значениями-массивами алиасов.

Написано более трёх лет назад
riot26 @riot26

Max Payne, и тем самым замедлив использование

Написано более трёх лет назад
Max Payne @YardalGedal

riot26, почему же? Количество итераций будет необходимо одинаковое.

Написано более трёх лет назад

riot26 @riot26

Max Payne, не одинаковое, а большее на количество "реальных" букв. Пример на PHP:

<?php
$dic1 = [
    '@' => 'а',
    'ἄ' => 'а',
    'a' => 'а',
    '6' => 'б',
    'b' => 'б',
];

$dic2 = [
    'а' => [
        '@',
        'ἄ',
        'a',
    ],
    'б' => [
        '6',
        'b',
    ],
];

echo 'dic1: ';
$dic1_iterations = 0;
foreach ($dic1 as $from => $to) {
    $dic1_iterations++;
    echo $from;
}
echo ' | iterations: ' . $dic1_iterations;

echo PHP_EOL;

echo 'dic2: ';
$dic2_iterations = 0;
foreach ($dic2 as $to => $from_arr) {
    $dic2_iterations++; // тут лишняя итерация
    foreach ($from_arr as $from) {
        $dic2_iterations++;
        echo $from;
    }
}
echo ' | iterations: ' . $dic2_iterations;

Вывод:

dic1: @ἄa6b | iterations: 5
dic2: @ἄa6b | iterations: 7

Написано более трёх лет назад

Max Payne @YardalGedal

riot26, хм, и действительно.

Написано более трёх лет назад

babbert @babbert Автор вопроса

"aliases": {
        "@`a`Ꭿ`₳`Ǻ`ǻ`α`ά`Ǡ`ẫ`Ắ`ắ`Ằ`ằ`ẳ`Ẵ`ẵ`Ä`ª`ä`Å`À`Á`Â`å`ã`â`à`á`Ã`ᗩ`@`Ⱥ`Ǟ":"а",
        "6`Ҕ`ҕ`Ϭ`ϭ`চ`ঢ়`ƃ`ɓ`":"б"
}

Я так делал

Написано более трёх лет назад

riot26 @riot26

babbert, эффективнее всё же разбить, тем более что доступ по ключу почти моментальный.

Написано более трёх лет назад
Max Payne @YardalGedal

babbert, riot26, в PHP не силён, последний раз имел дело с ним года 4 назад, но может быть в PHP есть подобный на Python функционал с maketrans/translate, если опять же использовать ключи "а"/"б", то будет очень удобно. Может быть на гитхабе уже есть какие-то подобные решения.

Написано более трёх лет назад
dom1n1k @dom1n1k

Просто массивом не обойтись, потому что далеко не обязательно буквы заменяются одна к одной.
Самый элементарный пример: сейчас - щас.

Написано более трёх лет назад
nrgian @nrgian

dom1n1k,
Просто массивом не обойтись, потому что далеко не обязательно буквы заменяются одна к одной.
Самый элементарный пример: сейчас - щас.

Если уж вам нужно именно для таких слов - то это уже словарь на целые слова (даже не на слоги).
Но это другая задача.

У нас то задача про "ceй4@c".

Написано более трёх лет назад
babbert @babbert Автор вопроса

nrgian, как люди изогнуть слово могут, так надо)

Написано более трёх лет назад
babbert @babbert Автор вопроса

dom1n1k, согласен

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 324 просмотра
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 388 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 220 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 281 просмотр
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 427 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 405 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 295 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 252 просмотра
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 235 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 391 просмотр
1

ответ
Показать ещё Загружается…

еще нужнее это, для улучшения эффективности "атаки по словарю" на хеши и подобные штуки.
так что тот кто сделал, вряд ли себя (и продукт) пиарить ))

но из любопытства подпишусь )))
#, Вообще, просто люди уже надоели, как не делай фильтр, прорываются гады.
Ушь думал ИИ создать, но я нубяра)
нужно использовать библиотеку с машинным обучением, например scikit-learn или NLTK.
Руфат, Для NodeJS такого случайно нет?
babbert,
1 - https://duckduckgo.com/?q=%D1%81%D0%BB%D0%BE%D0%B2...
2 - https://xakep.ru/2008/04/16/43271/#toc03.6 (Журнал «Хакер»
16.04.2008)
Алгоритм я уже придумал

Слово состоит из букв?
Значит в слове должны быть только буквы, в русском - русские, в английском - английские.
Любые отклонения вызывают подозрения.
можно написать скрипт на Питоне с использованием библиотек, а потом вызывать скрипты Питона из NodeJS, вот как здесь описано: https://stackoverflow.com/questions/23450534/how-t...
помимо алиасов для букв, можно также использовать поиск похожих слов, т.е. у ответы и ответЬI(мягкий знак и заглавная i) 5 общих букв - значит они похожи

Answer 1 · 2019-05-11 14:08:48

Boris @BorisKorobkov

Этому алгоритму уже более 100 лет: https://ru.wikipedia.org/wiki/Soundex

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2019-05-11 17:45:11

Developer @samodum

Какой вопрос - такой и ответ

"одно и то же" и "одно и тоже" - не одно и то же.

Моя древняя статейка на эту тему
https://m.habr.com/ru/post/86303/

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2019-05-12 00:03:17

Алиасы не помогут решить эту проблему. Есть миллионы способов написать слово алкаш:

ал-каш (с точки зрения русского языка всё в норме, звучит как имя из варкрафта какого-нибудь)
олкаш
алкащ
а.л.к.а.ш
а1lкаш (тут вообще буква "л" из двух символов состоит, так какие алиасы могут быть?)

Answer 4 · 2019-05-11 13:43:21

Алгоритм я уже придумал, но нужно много писать алиасов букв.
Возможно кто-то уже сделал это до меня и есть готовая либа по распознанию такого, чтобы не изобретать велосипед, не подскажите?)

Зачем там либа? Это всего-навсего один-единственный ассоциативный массив.

Типа:

conv["t"] = "т"
conv["@"] = "а"

И удобная обвязка под него, типа:

func MyConv(symbol string) string {
   s:= LowerCase(symbol)

   if v, ok:= conv[s] {
       return v
   } else {
       return s
   }
}

И на этом всё!

Answer 5 · 2019-05-11 15:58:06

в общем случае не решается библиотекой

через Гугл прорываются )) а вы тут изобретаете

но трехподходный метод работает - обычто с той стороны такой же нуб

Answer 6 · 2019-05-12 00:16:14

Алиасы не помогут решить эту проблему. Есть миллионы способов написать слово...

вот тут мы и подходим к версии ИИ:
- надо иметь огромную базу (что реально) краденых паролей, что бы гонять ее по словарям, и учить ИИ (дальше версии для НЕ слабонервных.. или корпораций.. или спецслужб)
- можно тренировать ИИ на визуальное подобие символов в национальных раскладках (допустим a=@ и $=s это универсально, а ч=4 это "по русски".. в=8 .. б=6.. почему нет? ;))) .. о=0 .. ну это во всех языках допустимо..
- можно тренировать ИИ на аудио совпадения. но, это еще мегазатратнее по ресурсам (не обучения, даже исследования (+видеоподобия см пп. выше, думаю, используются на порядки чаще)

ps классический пароль от МС, для обхода старых "строгих" правил, для какого то быстрого теста - P@ssword
улучшенная версия (известная всему миру, хакерскому точно) - P@$$w0rd

.. допустим у вас монитор Panasonic.. немного правил в голове, и шпаргалка всегда под носом - P@na$0ni(
c => (... а че нет то? ;)))
.. или - Pфn@$0ni( .. удачи составителям словарей алиасов ;))
.. для полной картины, допустим Зфт@$0ni( .. и еще раз - удачи! ;)))

Answer 7 · 2019-05-13 10:30:22

Есть вот такой вариант, но он наверное слишком мощный для вас:
https://tech.yandex.ru/speller/

Вот тут интересная статья про трансформацию слов:
https://habr.com/ru/post/270845/
Возможно вам подойдет "Функция оценки похожести пары слов"

Библиотека, которая поможет понять, что «ответы» и «OtBETЫ» — это одно и тоже?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт