Задача поиска: Нужно установить принадлежность сайта конкретной организации. Но кроме названия ООО и т.п. официальных найти название самого проекта если оно указано на сайте. В стиле наш интернет магазин Рога на копытах, при этом название ООО Чудеса
писать буду сам, проблем с этим пока не возникает, а вот с алгоритмами бывают.
Про hCard - интересный вариант, совсем про него забыл. Но тут как раз не учтет альтернативных названий. ООО одно, а название сайта другое.
Вручную не интересно по причине огромного объема обрабатываемых данных, около 10000 сайтов на одну выборку. На данный момент именно RU сегмент интернет.
Если подписано что это футер, то возможно это и так, а возможно дизайнер решил по другому и в футере контент.
Возможно стоит определять каким-то другим алгоритмом, например проверяя 3-5 страниц для поиска не изменяющихся данных. И уже среди них что-то искать?
Разбор страницы регулярными выражениями предполагает что нам известно что в них написать. Только как определить что это футер или шапка, а не описание другой компании в контексте.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
идут к нему через прокси?