Как правильно сравнить массивы и оценить их схожесть?

Question

Алексей @TsSaltan

Как правильно сравнить массивы и оценить их схожесть?

Итак, допустим у нас есть числа, расположенные по кругу:

Если перевести это в массив, получится
$numbers = [1,2,3,4,5,7,2,8];

Но если начать счет с другого элемента

То получится такой массив
$numbers = [2,3,4,5,7,2,8,1];

По сути, круги одинаковые, но полученные массивы разные.
Вопрос 1: Как их правильно сравнивать?

Допустим, эти круги немного отличаются, на пару значений

В данном случае круги с числами похожи на 6/8 = 75%
Вопрос 2: Как определить процент их схожести?

К сожалению, своих мозгов не совсем хватает. Прошу не готовый код, а хотя бы алгоритмы

Вопрос задан более трёх лет назад
10565 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

6 комментариев

Oxoron @Oxoron

Я бы еще ускорил алгоритм, выходя из цикла при совпадении 100%.
И текущий максимум бы сохранял.

Написано более трёх лет назад
nowm @nowm

Oxoron: Да, про 100% — хорошая идея. Тогда сложность будет не O($len^2), а варьироваться от O($len) до O($len^2). И без массива $conformity тоже можно обойтись, да. Ещё, можно и без array_sum($temp) обойтись, кстати.

Я сейчас добавлю вариант. Но он уже немного тяжелее читается. :)

Написано более трёх лет назад
nowm @nowm

В том смысле, что первый вариант лучше иллюстрирует алгоритм, по сравнению со вторым.

Написано более трёх лет назад
Алексей @TsSaltan Автор вопроса

Сергей Ронин: спасибо большое, думаю это то, что нужно, как оказалось, решение относительно не сложное

Написано более трёх лет назад
nowm @nowm

Алексей: Круто. ))

Не думайте, я вымогательством не занимаюсь, но мне очень помогло бы если бы вы мой ответ выбрали решением, раз он оказался тем, что нужно.

Написано более трёх лет назад
Алексей @TsSaltan Автор вопроса

Сергей Ронин: да, конечно, с телефона не была видна кнопка, сейчас сделаю)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 7

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 446 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 246 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2462 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 339 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 183 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 251 просмотр
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-02-06 23:18:23

Если два массива имеют одинаковую длину, можно просто двигать по кругу первый массив и сравнивать его элементы с элементами второго. Потом можно просто выбрать максимальное совпадение и перегнать в проценты. Примерно так:

$arr1 = [1,2,3,4,5,7,2,8];
$arr2 = [2,9,5,5,7,2,8,1];

$len = count($arr1);
$conformity = [];

for($i = 0; $i < $len; $i++) {
	/**
	 * $temp содержит нули в позициях, где числа в двух массивах 
	 * по одному и тому же индексу не равны. Единицы — там, где равны.
	 */
	$temp = array_map(function($x,$y){return intval($x==$y);}, $arr1, $arr2);
	
	// Элементы полученного массива суммируются и добавляются в отчётный массив
	$conformity[] = array_sum($temp);
	
	// Массив прокручивается на одну позицию
	$arr1[] = array_shift($arr1);
}

//С помощью max($conformity) выбирается максимальное совпадение элементов
echo sprintf("Max conformity is %s%%\n", number_format(100*(max($conformity)/$len), 2));

Это конкретно для ситуации, когда длина «колец» одинаковая.

Update: ещё один вариант:

$arr1 = [1,2,3,4,5,7,2,8];
$arr2 = [2,9,5,5,7,2,8,1];

function conformity($arr1, $arr2) {
	$len = count($arr1);
	$max = $curr = 0;
	
	for($i = 0; $i < $len; $i++) {
		array_map(function($x,$y)use(&$curr){$curr += intval($x==$y);}, $arr1, $arr2);
		
		if($curr == $len) {
			return 100;
		}

		$max = $max > $curr ? $max : $curr;
		$curr = 0;
		
		$arr1[] = array_shift($arr1);
	}
	
	return 100*($max/$len);
};

echo sprintf("Max conformity is %s%%\n", number_format(conformity($arr1, $arr2), 2));

Answer 2 · 2015-02-06 21:02:37

По сути, кольца чисел - это периодические фунции. Лучше сравнивать не сами значения, их фурье спектры. Если отбросить фазу комплексного фурье спектра, то спектры таких колец будут схожими, даже если их отсчитывать с разных позиций.

Answer 3 · 2015-02-06 20:51:54

Способов сравнения массивов можно придумать неограниченное количество.

Как правило, перед сравнением выдвигают сначала определенные требования (критерии эквивалентности), а потом уже на этих критериях изобретают сравнение.

Answer 4 · 2015-02-06 21:00:15

Александр Маджугин @Suntechnic

Нужно сформулировать что такое схожесть и сразу станет ясно как сравнивать ;)

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2015-02-07 11:19:41

На самом деле, я тут подумал, и придумал получше Фурье.
Например, если вы говорите, что массивы одинаковы с точностью до поворота, то можно и надо сравнивать их на эквивалентность (я не говорю про процентную схожесть, тут сложнее), то можно интерпретировать их как строчки, и составить такую, например:
S + "$" + T + T,
где S -- один массив, а после разделителя два раза подряд записанный правый массив. Тогда тут достаточно запустить посчиать префикс-функцию с помощью алгоритма Кнута-Морриса-Пратта за линейное время. Если же интересуют схожие куски, то надо копать в сторону суффиксных массивов и деревьев, если хочется линейное время

Answer 6 · 2015-02-06 21:18:15

Правильного способа сравнить два массива с двумя и более элементами не существует в принципе.
Допустимые способы сравнения зависят от вашей предметной области, от того откуда берутся эти самые круги с числами. Какая мощность массивов? Одинаковая ли она? Это набор чисел (множество) или их порядок на круге имеет значение? Числа представлены количественной шкалой (можно проводить математические расчёты) или это качественные значения (математические расчёты невозможны или не имеют логического смысла)?
В качестве меры схожести можно выбрать, например:
1. Количество разных элементов: [1,2,3,4,5,7,2,8] [2,9,5,5,7,2,8,1] - мера равна 2
2. Сумма модулей разности элементов: [1,2,3,4,5,7,2,8] [1,2,3,4,6,7,4,8] - мера равна 3
3. Аналог расстояния Левенштейна: [1,2,3,4,5,7,2,8] [2,3,4,5,7,2,8,1] - мера равна 2

Answer 7 · 2015-02-06 21:09:14

FanatPHP @FanatPHP

Чебуратор тега РНР

я думаю, алгорим diff должен подойти

Ответ написан более трёх лет назад

Комментировать

Answer 8 · 2015-02-06 22:57:42

Существует решение, работающее в худшем случае за O(N*sqrt(N*log(N))), а в типичном - за O(N*log(N)).
Пусть наши массивы - A и B.
Создадим массив Q из 2*N троек, содержащих (элемент массива, индекс в массиве, какой это массив - A или B).
Сортируем по полю "элемент массива".
Заводим массив C длины N, в котором будем считать C[k]=число совпадений при сдвиге на k позиций.
Просматриваем отсортированный массив Q. Для каждого значения X в нём сразу видно, сколько раз и на каких местах X встретился в массивах A и B. Пусть он p раз встретился в A (в позициях a1,a2,...,ap) и q раз - в B (в позициях b1,b2,...,bq). Если p*q < N*log(N), то за p*q операций модифицируем C, увеличивая на 1 все C[(bj-ai) mod N].
В противном случае строим массивы из 0 и 1, содержащие маски вхождения X в A и B, и считаем с помощью быстрого преобразования Фурье их свёртку. Прибавляем её к C.
Наихудший для этого алгоритма случай - когда в массивах примерно sqrt(N/log(N)) различных значений, которые встречаются примерно одинаковое количество раз.

Как правильно сравнить массивы и оценить их схожесть?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт