Сохранить html source code при сборе информации с помощью Apache Nutch?

Доброго времени суток, использую nutch (версия 2.3) для сбора страничек, возникла задача сохранять исходный html и делать оп нему индекс. Может кто подскажет элегантное решение задачи?

Нашел также плагин который позволяет сохранить исходный html, но он написан для nutch 1.х при попытке изменить его под версию 2.х возникает вопрос как добраться до методаты. которая будет записываться в бд.
Код плагина в общем-то 3 строки, вопрос как в новом апи переписать строку

Metadata metadata = parseResult.get(content.getUrl()).getData().getParseMeta();

ParseResult уже нету и достать Metadata фактически не откуда в новом интерфейсе ParseFilter.

Вопрос задан более трёх лет назад
2298 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Crawling

Средний
Почему браузеры и curl дают разные результаты?
- 4 подписчика
- более двух лет назад
- 1223 просмотра
2

ответа
Поисковые системы

+1 ещё

Сложный
Как своровать шины? (Проверить, что на странице есть fetch().json())?
- 1 подписчик
- более трёх лет назад
- 186 просмотров
1

ответ
Python

+2 ещё

Простой
Перестал работать парсер, появляется requests.exceptions.ConnectTimeout, в чем может быть проблема?
- 1 подписчик
- более трёх лет назад
- 595 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Как убрать все после слова регулярным выражением?
- 1 подписчик
- более трёх лет назад
- 477 просмотров
1

ответ
Crawling

+1 ещё

Простой
Как следить за последними новостями в мире хайтек и IT?
- 1 подписчик
- более трёх лет назад
- 236 просмотров
1

ответ
Поисковая оптимизация

+4 ещё

Средний
Софт для мониторинга форумов?
- 2 подписчика
- более трёх лет назад
- 189 просмотров
1

ответ
Crawling

Простой
Почему парсер то работает то нет?
- 1 подписчик
- более трёх лет назад
- 215 просмотров
2

ответа
Google Cloud Platform

+1 ещё

Простой
В каких случаях статус кода HTTP 200 может быть неиндексируемым?
- 1 подписчик
- более трёх лет назад
- 45 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Чем можно скачать страницу сайта кроме wget?
- 1 подписчик
- более трёх лет назад
- 278 просмотров
2

ответа
Crawling

Простой
Есть у кого-то РУ аналог ProxyCrawl с JS рендером?
- 1 подписчик
- более трёх лет назад
- 52 просмотра
0

ответов
Показать ещё Загружается…

Сохранить html source code при сборе информации с помощью Apache Nutch?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт