Задать вопрос

Как получить с html страницы название организации, не заходя вручную?

У большинства сайтов в шапке или в футере часто находится их название.

Какой алгоритм можно использовать, чтобы найти повторяющиеся значения и попытаться из них получить данные о названии?

Например, есть адрес

http://habrahabr.ru/

Нужно найти название организации. Вручную алгоритм следующий. Смотрим шапку, смотрим футер, если не находим переходим на страницу контакты или о сайте

Результатом будет названия: Хабрахабр Компания "ТМ"

Как не переходя на сайт вручную получить подобные данные?

Хотелось бы понять алгоритм

  • Вопрос задан
  • 3482 просмотра
Подписаться 3 Оценить 4 комментария
Решение пользователя Андрей Белов К ответам на вопрос (7)

Я бы, наверное, сперва попробовал выделить обвязку страниц. Т. е. взять несколько страниц сайта и определить на них повторяющийся текст. А дальше уже эмпирически подбирать правила для разбора получившегося. Например, часто название компании идет после или перед ©, часто оно упоминается в тайтле, часто перед ним идут слова "компания", "ООО" и т. п.

Ответ написан
Комментировать