Есть простые способы. Например, пакетно сжимаете все картинки до разрешения, скажем, 3х3 или 5х5 пикселей (в зависимости от количества картинок). Потом выписываете числами сначала пиксели центральные, средние и в последнюю очередь - крайние. Далее конвертируете каждый пиксель из RGB в HSL или HSV, записывая значение каждого канала в отдельное число по каждому каналу. В итоге каждой картинке будет соответствовать три длинных числа, по которым можно сортировать картинки, и они будут похожи по цветовым признакам. Картинки, где три числа одинаковые, можно считать похожими дубликатами. Если написал не достаточно толково, пишите комментарий, я могу разжевать алгоритм схематично.
UPD
Еще вспомнил про
утилиту для сравнивания изображений, входящую в комплект ImageMagick. Даже в закладках сохранился на неё небольшой
гайд. Но, в своё время у меня с ней не заладилось, так как работала слишком медленно а качество предоставляемой магии было не лучше скриптов, которые писал сам. Но, может, все изменилось и стоит попробовать тулзу в действии еще раз...