Ответы пользователя al_gon по тегу «Алгоритмы»

Задать вопрос

Ответы пользователя по тегу Алгоритмы

Хорошие ресурсы для изучения алгоритмов?

al_gon @al_gon

Алгоритмы: теория и практика.
Алгоритмы и структуры данных

Ответ написан более трёх лет назад

Комментировать

Комментировать

Как осуществить анализ схожести строк и проверить на плагиат?

al_gon @al_gon

https://en.wikipedia.org/wiki/Category:String_simi...
chairnerd.seatgeek.com/fuzzywuzzy-fuzzy-string-mat...

С плагиатом сложнее. Сравние должно идти уже по структуре и смысловому набору.
Но грубое определение плагиата, где меняются слова и в предатотчном предложении его части, similarity measures тоже потянут.

Примитивное и наивное решение на питоне:

def dice_coefficient(a, b):
    a_bigrams = set(a)
    b_bigrams = set(b)
    overlap = len(a_bigrams & b_bigrams)
    return overlap * 2.0/(len(a_bigrams) + len(b_bigrams))

dice_coefficient("2","3")
=> 0.0
   dice_coefficient("2","23")
=> 0.6666666666666666
   dice_coefficient("Как осуществить анализ схожести строк и проверить на плагиат?","плагиат?")
=> 0.5454545454545454
   dice_coefficient("Как осуществить анализ схожести строк и проверить на плагиат?","плагиат dsfsf?")
=> 0.5405405405405406
   dice_coefficient("Как осуществить анализ схожести строк и проверить на плагиат?","плагиат dsfsf? fdedfdfdfgdgh")
=> 0.5
   dice_coefficient("Как осуществить анализ схожести строк и проверить на плагиат?","Как осуществить анализ схожести строк и проверить на плагиат?")
=> 1.0
   dice_coefficient("Как осуществить анализ схожести строк и проверить на плагиат?","Как осуществить?")
=> 0.8
   dice_coefficient("Как осуществить анализ схожести строк и проверить на плагиат","анализ схожести строк и проверить на плагиат?")
=> 0.9090909090909091

P.S.: Только в качестве примера и не рекомендации к использованию именно в таком виде.

Ответ написан более трёх лет назад

Комментировать

Существуют ли уже готовые и достаточно быстрые реализации сравнения слов в VBA?

al_gon @al_gon

Один из вариантов на .NET lucene.Net
здесь https://pavelbelousov.wordpress.com/2011/03/20/%D0...
человек на русском рассказывает что с чем.

Вообще задача для VBA непростая, задача для не VBA.

P.S: я не мастер в VBA, .NET

Ответ написан более трёх лет назад

4 комментария

4 комментария
Какой поисковый движок опознает "икра красная" и "красная икра" как дубликаты?

al_gon @al_gon

н-грамы и коеффециенты.
https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%...

https://toster.ru/answer?answer_id=908115#comments...

https://en.wikibooks.org/wiki/Algorithm_Implementa...

Для тех кому интересно, как это бывает если это отдельный сервис www.findologic.com/ru/features
Они из австрии и на странице много маркетингового "блаблабла". Но есть и интересные моменты.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какой метод кластеризации текстов лучше использовать при большом количестве тематик?

al_gon @al_gon

Вообще здесь называть это лутше классификация текстов, а не кластеризация. Метрика "похожести", а не вероятностная оценка.
Хотя чисто в разговорном языке, я бы тоже сказал вероятность, того что документ относится к этому классу или категории, столько и столько.

Кластеры сначала нужно образовать, а Вы говорите о готовых категориях. Которые скорее обладают готовой помеченной коллекцией.

Вообще Вам сюда https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B4%D...

и если у вас нет начальных категорий совсем, тогда сюда

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1....

Ответ написан более трёх лет назад

6 комментариев

6 комментариев
Не применяется Arrays.sort, в чем проблема?

al_gon @al_gon

Куку!!!
Сначало array, не String.

Ответ написан более трёх лет назад

6 комментариев

6 комментариев
Как реализовать поиск схожести двух строк (названия продуктов)?

al_gon @al_gon

Это тема называется "нечёткий поиск" или "толерантный к ошибкам поиск"или как сказали раннее Fuzzy Search.

Здесь два аспекта: чем искать (технология) и как именно искать (подход, методика).

1) Если у вас мало данных, и они легко помещаются в память то делайте поиск по инвертированному индексу в памяти.
Иначе используйте посковый индекс, напрашивается solr, elasticsearch или чистая lucene .

2) Тюнинг через один из коеффециентов похожести. Я бы посоветовал коэффициент Сёренсена (https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%8D%D... ) или обратная ему мера Дайса. Расстояние Левенштейна, т.к. это редакционное расстояние решает намного медленее.

Основные шаги:

1) Очистка данных и индексация.
2) Поискоивый запрос и ранжирование по релевантности.

Ответ написан более трёх лет назад

Комментировать

Комментировать

Самые активные сегодня

Илья Рупасов
- 7 ответов
- 0 вопросов
Valdemar Smörman
- 2 ответа
- 0 вопросов
vylek
- 2 ответа
- 0 вопросов
Михаил Лялин
- 2 ответа
- 0 вопросов
Василий Банников
- 2 ответа
- 0 вопросов
roskomnazar
- 0 ответов
- 1 вопрос

Хорошие ресурсы для изучения алгоритмов?

Как осуществить анализ схожести строк и проверить на плагиат?

Существуют ли уже готовые и достаточно быстрые реализации сравнения слов в VBA?

Какой поисковый движок опознает "икра красная" и "красная икра" как дубликаты?

Какой метод кластеризации текстов лучше использовать при большом количестве тематик?

Не применяется Arrays.sort, в чем проблема?

Как реализовать поиск схожести двух строк (названия продуктов)?

Войдите на сайт