Задать вопрос

DemonIa @DemonIa

обработка-естественного-языка

Обработка естественного языка

Какой алгоритм лучше использовать для определения схожести строк?

Здравствуйте.
Суть задачи: есть таблица Excel. В столбцах А и В - названия спортивных команд (они не идентичны, но похожи)
Надо проанализировать эти два столбца, и удалить те значения (в одном либо другом столбце), для которого нет пары.

Пример:
столбец A
Манчестер - Аякс
Бундеслига - Неаполи

столбец В
Манчестер (U 17) - Аякс (U 17)
Динамо - Черноморец

В этом случае надо удалить пары "Бундеслига - Неаполи" и "Динамо - Черноморец".

Я вижу тут два варианта - либо сравнивать их как строки через алгоритм Левенштейна, либо разбивать строки по пробелам на элементы массива, и сравнивать их "пересечения" через алгоритм Танимото.

Excel - как пример. Конечная реализация будет либо на PHP либо на NodeJS.

Спасибо.

Вопрос задан более трёх лет назад
88 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 88 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 245 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 136 просмотров
0

ответов
Обработка естественного языка

Средний
Как создать мультипризнаковую мноклассовую модель классификации текстов?
- 4 подписчика
- более года назад
- 1157 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- более года назад
- 111 просмотров
1

ответ
Регулярные выражения

+2 ещё

Простой
Поиск оптимальной регулярки для бинарной классификации строк. Как?
- 1 подписчик
- более года назад
- 210 просмотров
1

ответ
Алгоритмы

+1 ещё

Средний
Какие есть Алгоритмы поиска синонимов?
- 3 подписчика
- более года назад
- 1710 просмотров
3

ответа
Машинное обучение

+1 ещё

Простой
Какой датасет лучше для обучения?
- 2 подписчика
- более года назад
- 194 просмотра
1

ответ
Искусственный интеллект

+2 ещё

Простой
Как исправить ошибку, возникающую при загрузке модели в rust_bert без файла vocab.txt?
- 1 подписчик
- более года назад
- 72 просмотра
1

ответ
Обработка естественного языка

Средний
Почему модель llama предсказывает только один класс?
- 2 подписчика
- более года назад
- 158 просмотров
1

ответ
Показать ещё Загружается…