Задать вопрос

Vetal Matitskiy @vetalmatitskiy

testing engineer

java

Java

Как програмно пробежать по страницам Wiktionary(Wiki-словарь)?

Доброго дня, уважаемые гуру разработки
пытаюсь вытащить из en.wiktionary.org список нужных слов с использованием движка Jaunt (http://jaunt-api.com)
написал первую версию приложения, которое пробегает часть страниц, но потом падаем с ошибкой
основной алгоритм прост до банальности: захожу на стартовую страницу, вытаскиваю из нее ссылку на следующую страницу, перехожу на следую страницу и так далее.
Не знаю почему, но получаемый линк становится каждый раз все длиннее, и видимо на определенном шаге становятся настолько длинными, что перестают обрабатываться. хотя при ручном проходе по страницам линки имеют нормальную длину.
возможно ли предотвратить разбухание линков?

примеры ссылок которые получается вытащить

next page:en.wiktionary.org/w/index.php?title=Category:Engli...
next page:en.wiktionary.org/w/index.php?title=Category:Engli...
next page:en.wiktionary.org/w/index.php?title=Category:Engli...

сам код при этом имеет вид

import com.jaunt.*;

public class Wiksurfer {

    public static void surfPages() {
        int i = 0;
        UserAgent userAgent = new UserAgent();
        userAgent.settings.autoSaveAsHTML = true;  //change settings to autosave last visited page.
        //System.out.println("SETTINGS:\n" + userAgent.settings);   
        try {

            String href = "http://en.wiktionary.org/wiki/Category:English_uncountable_nouns";

            for (i = 0; i < 20; i++) {
                userAgent.visit(href);
                href = userAgent.doc.findFirst("<a title>next page").getAt("href");

                System.out.println("next page:" + href);
            }
        } catch (JauntException e) {
            System.err.println(e);
        } finally {
            System.out.println("final i" + i);
        }
    }

    public static void main(String[] args) {
        surfPages();
    }

}

Вопрос задан более трёх лет назад
195 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Skillbox

Java-разработчик

8 месяцев

Далее
ProductStar

Профессия: Java-разработчик

9 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек.
- 149 просмотров
1

ответ
Java

+2 ещё

Простой
Как изменить версию транзитивной зависимости в maven?
- 1 подписчик
- 08 дек.
- 79 просмотров
0

ответов
Java

+1 ещё

Средний
Как добавить цепочку сертификатов pkcs12 в java8 для взаимной аутентификации TLS?
- 2 подписчика
- 04 дек.
- 112 просмотров
0

ответов
Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб.
- 100 просмотров
1

ответ
Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт.
- 151 просмотр
1

ответ
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 171 просмотр
2

ответа
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 170 просмотров
1

ответ
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 292 просмотра
3

ответа
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент.
- 119 просмотров
0

ответов
Java

+1 ещё

Средний
Hibernate: Почему запрос с EntityGraph не работает?
- 1 подписчик
- 10 сент.
- 117 просмотров
0

ответов
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

ИТРУМ • Ростов-на-Дону

от 75 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Самое интересное за 24 часа

Где находится убогий telegram?
- 2 подписчика
- 0 ответов
Postgres выдаёт unknown для типа char - в чём ошибка?
- 2 подписчика
- 1 ответ