Задать вопрос
Seldon
@Seldon

Сохранить html source code при сборе информации с помощью Apache Nutch?

Доброго времени суток, использую nutch (версия 2.3) для сбора страничек, возникла задача сохранять исходный html и делать оп нему индекс. Может кто подскажет элегантное решение задачи?

Нашел также плагин который позволяет сохранить исходный html, но он написан для nutch 1.х при попытке изменить его под версию 2.х возникает вопрос как добраться до методаты. которая будет записываться в бд.
Код плагина в общем-то 3 строки, вопрос как в новом апи переписать строку
Metadata metadata = parseResult.get(content.getUrl()).getData().getParseMeta();

ParseResult уже нету и достать Metadata фактически не откуда в новом интерфейсе ParseFilter.
  • Вопрос задан
  • 2293 просмотра
Подписаться 1 Оценить Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы