Имеется множество чисел известно что они возрастают то есть это автоинкремент из баз данных однако каждая из баз имеет свою выделеную область id. Хочу отследить возрастание этого автоинкремента для разных баз раскластеризовать их и увидеть как они возрастают в виде отдельных треков чисел выделеных для баз диапазонов.
Понимаю что нужно кластеризовать на основе растоянния но не совсем уверен насчёт того как класиикатор должен понимать что требуется вывести эту последовательность чисел в новый класс. Понимаю примитив но мозг давно не занимался подобным так что могу тупить.))
Илья Николаевский, Нет пропуски есть они достаточно большие но на порядки меньше чем различия между сабсетами. Вообщем-то верное замечание пропусков как раз таки очень много от того и нужен алгоритм для корректного поиска этих треков. Точки треки не пересекаются между собой это точно но на этом и всё.
Илья Николаевский, Это вывод системы идентификаторов facebook у них система выделения id сообщению/изображению/посту основана на том что разным серверам выданы диапазоны ids и они присваивают их объектам на сколько понимаю по возрастанию без переиспользования. Это порождает проблему того что с разных ip виден не весь объём данных что уже есть в системе была идея восстановить его и на гипотезе того что выделенные диапазоны id достаточно велики и не пересекаются у разных серверов попытайся увидеть всю информацию обращаясь к объектам по их идентификатору.
Andrey_Dolg, Все еще не понятно, у вас эти айдишники с разных серверов вперемешку имеются? И надо разделить на множества которые, скорее всего, принадлежат разным серверам? Приведите пример: входные данные "...", тут нужно вывести вот это и вот это.
Все еще не понятно, у вас эти айдишники с разных серверов вперемешку имеются? И надо разделить на множества которые, скорее всего, принадлежат разным серверам?
Да всё так и в последствии имелась идея идти по этим трекам от разных серверов что бы видеть все новые id в независимости от серверов.
Входных данных по сути нет, имея сет ids и сегментировав эти ids на треки ids для разных серверов думал суметь находить новые id для этих серверов для каждого в отдельности и идти по ним. По сути поиск новых данных и независимость от их системы синхронизации данных между разными базами.