Получить <title> с удаленной веб-страницы?

Question

KhanTengri @KhanTengri

Java

Получить <title> с удаленной веб-страницы?

В общем пользователь заходит на портал и указывает url.

На стороне сервера мне нужно перейти по указанному url и получить значение тега title.

На сервере у меня tomcat(в общем java) и крутится все это на никсах.

Вопрос: Каким образом это лучше реализовать?

Писать ли на java или использовать какие-то nix-овые команды? (lynx вроде может помочь)

Или, возможно, какой-то сторонний сервис для подобных вещей есть, вроде тех, что предоставляют скриншоты страниц или рассылают email оповещения?

Тут есть два момента:

во-первых, кодировка. В базу все сохраняется в UTF-8, а страницы могут быть самыми разными… и windows-1251 и ISO-8859-1 и даже GB2312. И это значние кодировки еще получить нужно. А оно может быть и в header и/или в meta. А может и вообще не быть, такое тоже бывает.

во-вторых, быстродействие.

Вопрос задан более трёх лет назад
3472 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 6

10 комментариев

Макс Кузнецов @pluseg

UPD запросы делал через обычные сокеты.

Написано более трёх лет назад
KhanTengri @KhanTengri Автор вопроса

>>счас поищу регулярки на всё это…
буду очень признателен

Написано более трёх лет назад
Horse @Horse

1. HTTP работает на TCP.
2. Регулярки работает медленей просто анализа строки и их код хуже читается. не нужно.

Написано более трёх лет назад
Макс Кузнецов @pluseg

Собственно не понял критики. Человек попросил довезти его в определенное место за кратчайшее время. Я предлагаю автомобиль, а вы говорите, что автомобиль не умеет летать, поэтому не нужно.

Написано более трёх лет назад
Макс Кузнецов @pluseg

Возможно, потребуется видоизменение регулярок.
1. Статус ответа:
status = substr(headers, 9, 3);
Код ответа расположен с 9 по 11 символы. Если не изменяет память, достаточно проверять на 200 и 302 коды.
2. Так находил кодировку в заголовках:
"/charset=(.+)[ˆ\ ]*/i"
3. Так — в теле страницы:
"/charset=(windows-1251|utf-8)/i"
Замечу, что я писал только для движков форумов, а они как правило только на этих двух кодировках работают, причем без лишних пробелов.
Вообще у меня закоменчен еще вот этот вариант, более универсальный:
"/<meta[ \r\n\t]{1}[ˆ>]*charset[ˆ=]*=([ˆ \"'>\r\n\t#]+)[ '\"\n\r\t]*[ˆ>]*>/is"
но что-то в нём не работало как надо, по-видимому, не помню что именно.

Написано более трёх лет назад
Horse @Horse

Критика относится только к UDP. По поводу регулярок — просто комментарий (настойчевый), можно игнорить.

Написано более трёх лет назад
Horse @Horse

P.S. то что помогаете — это хорошо, если чем обидел — извеняюсь.

Написано более трёх лет назад
Макс Кузнецов @pluseg

Под UPD подразумевал update первоначального коментария, а не протокол UDP +)

Написано более трёх лет назад
Horse @Horse

Прошу прощения

Написано более трёх лет назад
danfe @danfe

Хороший пример, почему не стоит злоупотреблять сокращениями и пренебрегать знаками препинания. :-)

Написано более трёх лет назад

1 комментарий

4 комментария

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 194 просмотра
2

ответа
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 243 просмотра
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 193 просмотра
2

ответа
Java

+2 ещё

Сложный
Как гарантировано закрыть сокет через ServerSocket?
- 2 подписчика
- 30 апр.
- 182 просмотра
1

ответ
Java

Средний
Как получать ввод с конкретной клавиатуры и мышки, если их несколько?
- 2 подписчика
- 29 апр.
- 163 просмотра
1

ответ
Java

Простой
Как переделать этот SQL запрос на java?
- 1 подписчик
- 13 мар.
- 346 просмотров
1

ответ
Java

+1 ещё

Простой
Почему не запускается собранный в .jar файл Java FX проект?
- 1 подписчик
- 26 февр.
- 226 просмотров
2

ответа
Android

+2 ещё

Простой
Как исправить ошибку при установке плагина AppMetrica в Android Studio?
- 1 подписчик
- 18 янв.
- 226 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 225 просмотров
1

ответ
Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек. 2025
- 356 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2011-06-18 00:26:24

Была необходимость сделать это на PHP. Реализовывал просто:
— запрашиваем через url страницу (в заголовках запроса указываем предпочтение получить ответ в utf-8 — для тех веб-серверов, что отдают в той кодировке, которую запрашиваешь)
— проверяем статус ответа (может вообще этот url не существует)
— смотрим кодировку в заголовках (регулярками)
— смотрим кодировку в meta (регулярками)
— ищем title, конвертируем его значение в определённую кодировку.

p.s^ счас поищу регулярки на всё это…

Answer 2 · 2011-06-18 10:02:24

Под Java есть отличная библиотека которая подойдет для загрузки удаленных страниц — Apache Httpclient.
hc.apache.org/httpcomponents-client-ga/examples.html

Answer 3 · 2011-06-18 01:21:32

Константин @Norraxx

wget?

Ответ написан более трёх лет назад

4 комментария

Answer 4 · 2011-06-18 07:22:42

Лучше всего использовать Curl. Грузить часть кода с ограничением через CURLOPT_WRITEFUNCTION вместе с заголовком. По заголовку проверять ответ от сервера. Пример Curl goo.gl/0EOFQ Пример парсера goo.gl/sFP8t, определение кодировки простой функцией pastebin.com/51p9NUAX

Answer 5 · 2011-07-04 18:32:17

Apache Httpclient + cpdetector (для определения кодировки)
Только он достаточно тяжёлый и ошибается :)
Алгоритм определения кодировки следующий:
1. Из заголовков сервера (Httpclient), если нет, то:
2. Из html (регуляркой вытаскиваете тэг), если нет, то:
3. cpdetector, если нет, то без понятия :)

А вообще задача довольно не тривиальная. И учтите, что получив byte[] массив от Httpclient — не конвертируйте его в String, иначе похерите кодировку :)

Answer 6 · 2011-06-18 10:02:18

mb_convert_encoding (PHP) позволяет автоматически определить исходную кодировку. Проверял только на cp1251/utf8/koi8-r — нормально. Первый параметр — сама строчка. Второй параметр — в какую кодировку. Третий параметр необязательный — из какой кодировки.

php.net/mb_convert_encoding

Получить &lt;title&gt; с удаленной веб-страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт

Получить <title> с удаленной веб-страницы?