Как проверить значения массива на схожесть?

Question

Kak_B_CTapou_Cka3ke @Kak_B_CTapou_Cka3ke

PHP

Как проверить значения массива на схожесть?

Предположим, в массиве есть значения, которые сильно похожи, но из-за мелких опечаток являются разными:
Продам клинок демона +6 / Солнцеликий плащ +2 тьма
Продам клинок демона +6, Солнцеликий плащщ +2тьма
Акция! Продам клинок демона +6, Солнцеликий плащ +2тьма

как оставить только одно (любое) значение, например, по некоторому количеству повторяющихся букв или слов?
Как правило расхождения небольшие, скорее всего трёх следующих друг за другом слов будет достаточно.
Спасибо за любую помощь!

Вопрос задан более трёх лет назад
115 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 17 часов назад
- 115 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 398 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 242 просмотра
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 206 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 330 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 294 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 151 просмотр
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 361 просмотр
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 418 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 313 просмотров
3

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Answer 1 · 2020-07-23 19:54:55

Еще одно решение - вычислить расстояние Левенштейна между строками https://www.php.net/manual/ru/function.levenshtein.php

Расстояние Левенштейна - это минимальное количество вставок, замен и удалений символов, необходимое для преобразования str1 в str2. Сложность алгоритма равна O(m*n), где n и m - длины строк str1 и str2 (неплохо по сравнению с similar_text(), имеющей сложность O(max(n,m)**3), но все же довольно много).

echo(levenshtein('abcdefg', 'amcdehg'));
Если расстояние между строками равно 2, значит нужно вставить, заменить или удалить 2 символа, соответственно строки похожи.

Функция для работы с русским языком: https://gist.github.com/shankao/b0d92e15c65852fda481

Пример:

$lines = [
  'Продам клинок демона +6 / Солнцеликий плащ +2 тьма',
  'Продам клинок демона +6, Солнцеликий плащщ +2тьма',
  'Акция! Продам клинок демона +6, Солнцеликий плащ +2тьма',
  'Продам клинок ангела +3, Луноликая куртка +4свет',
  'Продам клинок ангелла +3, Луноликая куртка +4свет',
  'Акция ! Продам клинок ангела +3, Луноликая куртка +4свет',
  'тест акции',
  'проверка демона',
  'проверка ангела',
];

$res = [];
$allSimilar = [];

foreach ($lines as $line) {
    $similarLines = [];

    if(in_array($line, $allSimilar)) {
        continue;
    }

    foreach ($lines as $line1) {
        $lev = mb_levenshtein($line, $line1);
        $maxDistance = (int)(0.2 * max(mb_strlen($line), mb_strlen($line1)));

        if($lev <= $maxDistance) {
            $similarLines[] = $line1;
            $allSimilar[] = $line1;
        }
    }

    $res[$line] = $similarLines;
}

print_r($res);

Похожими считаются фразы, которые отличаются менее чем на 20% их длины.

Answer 2 · 2020-07-23 19:01:58

Можно попробовать сравнивать похожесть строк https://www.php.net/manual/ru/function.similar-text.php, и если % схожести больше n-значения убирать одно из них

Как проверить значения массива на схожесть?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт