Не понимаю, почему вы спрашиваете Тостер, а не саппорт Яндекса. Видимо, вы хотите чтобы вам тут сказали то, что вы хотите услышать, а потом получить сюрприз от Яндекса.
Изначально прохешировать и объединять данные при одинаковом ключе (быстро, но много памяти и мало запросов в БД)
Обрабатывать записи по одной, каждый раз проверяя в БД, нет ли такой записи уже (медленно, мало памяти, много запросов в БД)
Если это возможно - отсортировать записи, а затем проходить список сверяясь, не совпадает ли запись с предыдущей и делать соответствующие действия (довольно быстро, в зависимости от метода сортировки в начале может потребоваться много памяти или же нет, мало запросов в БД)