Простенькое веб приложение-парсер

Question

No_Time @No_Time

Простенькое веб приложение-парсер

Приветствую. Понадобилось написать приложение, целью которого будет парсинг некого сайта, фасовка его содержимого в бд и раздача этой самой бд при помощи api. Хотелось бы реализовать все на джаве, но если есть идеи лучше и проще, то с радостью прислушаюсь. Основной приоритет данной затеи — скорость и надежность.

Если останавливать выбор на джаве, то хотелось бы элегантное решение, без энт скриптов и огромных xml. С веб-джавой знаком весьма посредственно, буду рад ссылке на хорошей туториал!

Заранее спасибо!

Вопрос задан более трёх лет назад
13899 просмотров

2 комментария

Подписаться 11 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

3 комментария

No_Time @No_Time Автор вопроса

Ок, не подскажите конкретные технологии? В джава либах и различных веб-серверах легко запутаться.

Написано более трёх лет назад
No_Time @No_Time Автор вопроса

Именно в выборе легко запутаться…

Написано более трёх лет назад
Анатолий @taliban

Лично я бы делал на пхп, я его знаю, там есть удобные парсеры xml и html (и вообще их много www.php.net/manual/en/refs.xml.php). Но это не значит что это оптимальный вариант, просто я это знаю, и парсер напишу в худшем случае за день. Ибо изучать ничего не нужно. Опять же плюс в пользу пхп — установка на сервер (сюда еще можно отнести питон/руби, они тоже просты и удобны для этих целей, но всеравно они уходят на второй план по простоте установки). Те же джава/.нет и подобные вещи подойдут лучше для крупных приложений, если вам нужно написать «просто парсер для сайта» то они вам подойдут в данном случае меньше.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 8

2 комментария

Комментировать

1 комментарий

2 комментария

Комментировать

4 комментария

No_Time @No_Time Автор вопроса

хм, до ю спик рашен? Вопрос был не о том как сайтик набросать. А как сделать велосипед-апи к уже существующему сайту.

Написано более трёх лет назад
Snowindy @Snowindy

Я в то же время не телепат, а вы, между прочим, сами про сайт спрашиваете изначально. Поаккуратнее на поворотах здесь, рискуете кармой.

А про велосипед-апи…
Вы хотите в итоге выкачать весь сайт в БД и его раздавать через веб-сервис. Отлично.
Если данные на основном сайте обновляются, вам надо поддерживать актуальность своей базы?
Если так, то есть два решения:
1. Периодически запускать службу, которая выкачает свежую информацию из основного сайта и обновить вашу базу.
2. Периодически запускать службу, которая выкачает свежую информацию из основного сайта и обновить вашу базу.

Веб-сервис пишется за полчаса на Axis2, в реализации веб-сервиса лезем в базу и отдаем что просят.

Написано более трёх лет назад
Snowindy @Snowindy

п. 2. Отказаться от промежуточной базы, все данные брать напрямую с основного сайта, адаптировать их на лету.

Написано более трёх лет назад
No_Time @No_Time Автор вопроса

Спасибо, похоже на то что нужно

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хабр

+1 ещё

Средний
Почему после запроса RSS Хабр перестаёт принимать соединения с IP?
- 1 подписчик
- 11 часов назад
- 70 просмотров
3

ответа
Компьютерные сети

Простой
Лучшая практика монтажа кабеля между этажами?
- 2 подписчика
- 23 часа назад
- 187 просмотров
4

ответа
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 177 просмотров
0

ответов
Компьютерные сети

+1 ещё

Простой
Не могу сделать в программе softether белый список. Где проблема и что не так?
- 1 подписчик
- 09 июл.
- 206 просмотров
1

ответ
Хабр

Простой
Почему Хабр плохо грузится за границей?
- 1 подписчик
- 06 июл.
- 192 просмотра
0

ответов
Компьютерные сети

+2 ещё

Сложный
Почему не проходит интернет через радиомост?
- 1 подписчик
- 04 июл.
- 299 просмотров
1

ответ
Хабр

Простой
Как написать на Хабр статью с критикой и разбором на «несерьёзную» тему, которая тебя волнует и которую не удалят?
- 1 подписчик
- 02 июл.
- 158 просмотров
2

ответа
Компьютерные сети

+3 ещё

Средний
Как настроить нормальную работу UnboundDNS в OPNSense?
- 1 подписчик
- 01 июл.
- 135 просмотров
2

ответа
Компьютерные сети

+3 ещё

Сложный
Почему ASUS RT-BE88U сбрасывает линк WAN до 100 Мбит/с на линии МТС, тогда как TP-Link Archer BE230 на ней же работает на 1 Гбит/с?
- 1 подписчик
- 30 июн.
- 294 просмотра
2

ответа
API

+1 ещё

Сложный
Не работает ключ доступа для работы с botAPI, как до разработчиков достучаться?
- 1 подписчик
- 26 июн.
- 151 просмотр
0

ответов
Показать ещё Загружается…

Почему именно сайта?
Если "раздача этой самой бд при помощи api", то сайт как-раз не нужен. Нужен веб-сервис.

Сайт — для людей.
Веб-сервис — для машин.

Вам для кого в итоге?
Предположим на примере хабра: парсим хабр на сервере, кладем посты и комменты в бд, раздаем это все при помощи рест апи. Юзаем апи, например на айфонах и андройдах — пишем лучший клиент для хабра. Вот так надо=)

Answer 1 · 2012-05-11 16:53:34

Лучше и проще делать на том, что лушче всего знаешь, но если хочется на джаве «потому что хочу ее узнать поближе», то делайте на джаве и не обращайре внимания на другие советы (иначе читай сначала).

Answer 2 · 2012-05-11 18:48:49

Бросайте яву. На PHP парсер пишется в 10 строк: curl_init(), curl_exec(), preg_match_all(), mysql_connect(), mysql_select_db(), mysql_query(). Параметры функций подставьте сами, исходя из условий вашей задачи.

Answer 3 · 2012-05-11 20:06:23

Если вы хотите нормальное решение — это Spring MVC+Web, в качестве ORM — Hibernate, OpenJPA или что-то своё.

Какой именно API вам нужно — ajax, web services? Для первого случая — решение — просто написать контроллер в Spring'e, для второго — Jax WS или что-нибудь подобное.

Администрирование — Spring Secutiry будет скорее всего достаточно, если нет — Apache Shiro можно глянуть.

Веб интерфейс — тут что угодно, начиная от JSP, заканчивая Ext GWT, хотя вам как я понимаю это не нужно.

Ссылки:
Куча туториалов на оф сайте www.springsource.org/tutorials
www.springbyexample.org/

PS Хостинг на Java будет дороже, если конечно у вас нет своего виртуального/выделенного сервера…

Answer 4 · 2012-05-12 12:38:39

Обратите внимание на web-harvest.sourceforge.net/
Это Java приложение со своим небольшим функциональным языком.
Вот как выглядит пример парсинга flickr:

<?xml version="1.0" encoding="UTF-8"?>
 
<config>
    <include path="functions.xml"/>
    
    <var-def name="tags" overwrite="false">art</var-def>
    <var-def name="num" overwrite="false">1</var-def>
    
    <loop index="i" item="url">
        <list>
            <var-def name="imagelinks">    
                <call name="download-multipage-list">
                    <call-param name="pageUrl">
                          <template>http://www.flickr.com/search/?q=${tags}&m=tags</template>
                    </call-param>
                    <call-param name="nextXPath">//a[contains(., 'Next')]/@href</call-param>
                    <call-param name="itemXPath">//img[@class='pc_img']/@src</call-param>
                    <call-param name="maxloops"><template>${num}</template></call-param>
                </call>
            </var-def>
        </list>
        <body>
            <empty>
                <file action="write" path='flickr/${tags.toString().replaceAll(" ", "")}/${i}.jpg' type="binary">
                    <http url='${url.toString().replaceFirst("_m.jpg", ".jpg?v=0")}'/>
                </file>
            </empty>
        </body>
    </loop>
    
</config>

Answer 5 · 2012-05-11 16:53:25

хотелось бы элегантное решение, без энт скриптов и огромных xml

После этого можно было не уточнять

С веб-джавой знаком весьма посредственно

Answer 6 · 2012-05-11 18:19:59

Я всегда парсю с помощью simple html dom parser
Плюсы в том, что нужный элемент выбирается по принципу селекторов в jQuery
Минусы — php. Но т.к. я его знаю лучше всего, для меня это плюс.

Не знаю, пригодиться ли Вам, но надеюсь.

Answer 7 · 2012-05-12 10:25:32

парсить html можно руками тем же саксом, или можете попробовать какую-то из билиотек по ссылке
тут

как написали выше, для работы с базой данных подойдет любой jpa, тот же Hibernate
для rest интерфейса сторонним приложениям попробуйте библиотеку jersey

если вам необходим что-то небольшое, то рекомендую обратить внимание сначала на стандартные вещи, которые все это умеют, а потом уже на отдельные фреймворки

Answer 8 · 2012-05-12 11:14:37

До создания сайта.
1. Создаем структуру базы.
2. Парсим содержимое исходного сайта, используя клинер грязных html-тэгов (нужен при некорректной разметке исходного сайта), записываем в базу.

Создание сайта:
1. Используем фреймворк Grails (довольно простой, без xml-конфигов и т.п., но мощный) для генерации вьюшек, вычитки данных из базы.
2. Сайт деплоится на хостинг, туда же переливается база.

Answer 9 · 2012-05-12 13:08:40

Судя по тегу, вы хотите парсить хабру, личинг это плохо:)
Можете использовать jsoup.org для парсинга сайта, очень удобная библиотека, можно брать элементы по css классам как вариант, как в jquery.
Можете создать просто parser.jar который по крону будет парсить сайт и заносить в базу данные.

Для api без всяких xml конфингов я бы предложил использовать jersey.java.net собсно который будет забирать данные из базы и отдавать их наружу в виде json/xml Всё очень просто, например class Post с мeтодом getID(int id) вы можете замапить на domen.com/post/getid/1 причём отдавать наружу можете как xml так и json смотря какой Content-Type укажет в заголовках потребитель вашего api.

Удачи. Если, что пишите, помогу чем смогу.

Простенькое веб приложение-парсер

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт