Tirend: Подумал ещё и появилась идея. Неприятно будет если нужный документ будет отсеян. А вероятность этого случая выше из-за сложности определения что является документом. Исходя из описания задачи, нужно идти от обратного: определять, не является ли изображение реалистичным (похоже на фото по признакам). В худшем случае не сумеем отсеять мусор.
Для фотографии характерно наличие большего количества полутонов в спектре цветности (chromaticity), мне так думается. Остаётся экспериментально подобрать порог срабатывания.
Ринат Бакиев: Шрифты должны быть предварительно установлены в системе. Перекрёстные ссылки должны работать в HTML без JS.
Если вам не подходит HTML, то решайте вопрос с латехом, как подсказали.
Tirend: Отсеивать картинки без текста будет нелегко. Просмотрите мой дополненный ответ, данный ранее выше. Из готовых решений стоит обратить внимание на крутую библиотеку OpenCV (CV - Computer Vision, по-русски термин "компьютерное зрение").
Почитайте на тему "Text detection in natural images/scenes". www.mathworks.com/help/vision/examples/automatical... https://github.com/Itseez/opencv_contrib/blob/mast...
В целом, ищите примеры вокруг этой библиотеки. Так вы быстрее всего добьётесь значимых результатов. В дальнейшем вам лучше задавать более точные вопросы.
Tirend: То, о чём вы пишете, называется не распознаванием, а кластеризацией/классификацией изображений (отнесение к той или иной группе).
Что для вас вообще является документом? Белый лист с каким-то текстом? Чертёж? Лист с таблицами и диаграммами?
Вот если взять любые картинки из серии "демотиватор", то и на них можно увидеть текст-надпись. Такое алгоритм должен отсеять или оставить?
Приведите пример картинок, пожалуйста. Достаточно ли определения факта наличия объекта на изображении (да/нет) или нужно определить содержание и свойства объектов на нём? goo.gl/IxuJi1 - всё ли на таком изображении должно быть распознанным?
Работники корпоративного сектора, использующие Дельфи - бессмертные.
Дельфи мёртв.
Что-то не стыкуется...