Как получить с html страницы название организации, не заходя вручную?

Question

Игорь @leotop

Как получить с html страницы название организации, не заходя вручную?

У большинства сайтов в шапке или в футере часто находится их название.

Какой алгоритм можно использовать, чтобы найти повторяющиеся значения и попытаться из них получить данные о названии?

Например, есть адрес

Нужно найти название организации. Вручную алгоритм следующий. Смотрим шапку, смотрим футер, если не находим переходим на страницу контакты или о сайте

Результатом будет названия: Хабрахабр Компания "ТМ"

Как не переходя на сайт вручную получить подобные данные?

Хотелось бы понять алгоритм

Вопрос задан более трёх лет назад
3502 просмотра

4 комментария

Подписаться 3 Оценить 4 комментария

Игорь @leotop Автор вопроса

То что получили на данный момент: Поиск по названиям тегов Поиск по одинаковым элементам страниц Поиск по названию изображения

Написано более трёх лет назад
Игорь @leotop Автор вопроса

микроразметка hCard

Написано более трёх лет назад
Игорь @leotop Автор вопроса

Задача поиска: Нужно установить принадлежность сайта конкретной организации. Но кроме названия ООО и т.п. официальных найти название самого проекта если оно указано на сайте. В стиле наш интернет магазин Рога на копытах, при этом название ООО Чудеса

Написано более трёх лет назад
Игорь @leotop Автор вопроса

данные whois.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 6

3 комментария

Игорь @leotop Автор вопроса

Разбор страницы регулярными выражениями предполагает что нам известно что в них написать. Только как определить что это футер или шапка, а не описание другой компании в контексте.

Написано более трёх лет назад
Кирилл Фирсов @Isis

@leotop http://habrahabr.ru/company/mailru/blog/200394/

Написано более трёх лет назад
Игорь @leotop Автор вопроса

Как вариант нужно попробовать, после выделения частей текста уже можно попробовать регулярные выражения в сочетании с конечными автоматами.

Написано более трёх лет назад

2 комментария

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 300 просмотров
3

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 2 подписчика
- 30 июн.
- 175 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 408 просмотров
4

ответа
Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 5 подписчиков
- 25 июн.
- 1135 просмотров
6

ответов
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 207 просмотров
1

ответ
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 250 просмотров
3

ответа
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 326 просмотров
3

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 424 просмотра
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 324 просмотра
0

ответов
HTML

+2 ещё

Простой
Как блок уведомлений поднять выше dialog?
- 2 подписчика
- 21 мая
- 197 просмотров
2

ответа
Показать ещё Загружается…

То что получили на данный момент: Поиск по названиям тегов Поиск по одинаковым элементам страниц Поиск по названию изображения
Задача поиска: Нужно установить принадлежность сайта конкретной организации. Но кроме названия ООО и т.п. официальных найти название самого проекта если оно указано на сайте. В стиле наш интернет магазин Рога на копытах, при этом название ООО Чудеса

Answer 1 · 2013-11-14 17:23:37

Я бы, наверное, сперва попробовал выделить обвязку страниц. Т. е. взять несколько страниц сайта и определить на них повторяющийся текст. А дальше уже эмпирически подбирать правила для разбора получившегося. Например, часто название компании идет после или перед ©, часто оно упоминается в тайтле, часто перед ним идут слова "компания", "ООО" и т. п.

Answer 2 · 2013-11-14 10:40:02

Кирилл Фирсов @Isis

Например, с помощью регулярных выражений.

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2013-11-14 10:55:36

Нужно парсить HTML, но только не делай это через регулярные выражения. Каждый раз когда ты парсишь HTML регулярками — в мире умирает один разработчик.

Для Хабра, например футер легко найти, у него логичный id:

<div id="footer">

Дальше ты берешь весь текст из футера и ищешь там название компании и ссылки на страницу "Контакты". 

У других сайтов футер или хедер найти будет тяжелее. Нужно будет проанализировать несколько десятков сайтов и составить список правил, по котором можно будет легко найти в коде страницы блоки с нужными елементами.</div>

Answer 4 · 2013-11-14 11:09:29

Единого алгоритма нет, так как нет единого стандарта описания организаций на сайтах.

Чтобы не переходить вручную нужно переходить программно. Для этого пишутся (или используются универсальные) программы-парсеры.

Если будете писать сами, то алгоритм нужно будет делать многошаговый и многовариантный.

В идеальном мире на идеальных сайтах присутствует микроразметка hCard, из которой можно извлечь название организации и другие данные о ней, заботливо предоставленные хозяевами сайта.

Все остальные варианты лучше сразу обработать вручную, так как их слишком много :)

Answer 5 · 2013-11-14 11:17:16

Так же можно попробовать найти, к примеру img с классом logo и посмотреть у него alt или title. Как дополнительный вариант для проверки пойдет.

Answer 6 · 2013-11-14 15:04:14

Название самого проекта — мета-теги (опять же, если правильно заполнены).

Еще можно посмотреть whois домена — вроде еще не везде закрывают данные владельца.

Answer 7 · 2013-11-14 11:53:45

Вопросов крайне много, ровным счетом как и неопределенности. А если на странице будет несколько названий организаций. Как сформулирована у Вас задача? Вам надо собрать все названия со указанных страниц или Вам надо установить принадлежность сайта к компании?

Как получить с html страницы название организации, не заходя вручную?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт