Распознавание объектов на изображении есть непростая тема. Нужно не столько уметь программировать, сколько иметь знания в разных областях математики.
На Хабре есть хорошая серия лекций от Яндекса и одна из них посвящена вашей теме:
Анализ изображений и видео. Обнаружение текста на ...
Хотя порой проще определять
наличие объекта, чем морфологию объектов на нём.
Если автор уточнит детали, то можно дать более подробное объяснение.
Добавленонадо просто отбирать картики с текстом и печатями. распознавать текст не надо. не важно даже какой язык. главное отсеить мусор и оставить документы
Поскольку распознавать текст (OCR) не требуется, то это наверно ближе к теме
Поиск изображений по содержанию (CBIR)
Кластеризация изображений без учёта объектов на них должна быть проще задачи распознавания текста.
Почитайте
этот документ в почитайте материал в целом с сайта
courses.graphicon.ru .
В целом, ваша задача сводится к следующему:
- собрать минимальную выборку всяких изображений (для начала штук 50)
- вручную классифицировать что нужно отсеять а что оставить
- алгоритм должен уметь извлекать из изображений вектор (набор) некоторых метрик
- занести полезную составляющую (необходимую для классификации) в "словарь".
- каждое изображение сопоставлять со "словарём" и принимать решение об отсеивании
- прогнать алгоритм на малой базе изображений, проверив слабые места
- улучшить алгоритм и проверить снова на большей выборке