Не уверен, что это самый быстрый велосипед, но точно сработает, в случае, если в твоем компе нету 25 гигов памяти:)
загнать в базу (COPY FROM для postgress или LOAD DATA INFILE для мускула) а потом выбрать c DISTINCT.
Таблица во время загрузки данных ессно без индексов должна быть.
UPD: да, distinct тоже сильно грузит, insert ... ignore наверное будет быстрее.