Tirend: Отсеивать картинки без текста будет нелегко. Просмотрите мой дополненный ответ, данный ранее выше. Из готовых решений стоит обратить внимание на крутую библиотеку OpenCV (CV - Computer Vision, по-русски термин "компьютерное зрение").
Почитайте на тему "Text detection in natural images/scenes". www.mathworks.com/help/vision/examples/automatical... https://github.com/Itseez/opencv_contrib/blob/mast...
В целом, ищите примеры вокруг этой библиотеки. Так вы быстрее всего добьётесь значимых результатов. В дальнейшем вам лучше задавать более точные вопросы.
Tirend: То, о чём вы пишете, называется не распознаванием, а кластеризацией/классификацией изображений (отнесение к той или иной группе).
Что для вас вообще является документом? Белый лист с каким-то текстом? Чертёж? Лист с таблицами и диаграммами?
Вот если взять любые картинки из серии "демотиватор", то и на них можно увидеть текст-надпись. Такое алгоритм должен отсеять или оставить?
Приведите пример картинок, пожалуйста. Достаточно ли определения факта наличия объекта на изображении (да/нет) или нужно определить содержание и свойства объектов на нём? goo.gl/IxuJi1 - всё ли на таком изображении должно быть распознанным?