Seldon
@Seldon

Сохранить html source code при сборе информации с помощью Apache Nutch?

Доброго времени суток, использую nutch (версия 2.3) для сбора страничек, возникла задача сохранять исходный html и делать оп нему индекс. Может кто подскажет элегантное решение задачи?

Нашел также плагин который позволяет сохранить исходный html, но он написан для nutch 1.х при попытке изменить его под версию 2.х возникает вопрос как добраться до методаты. которая будет записываться в бд.
Код плагина в общем-то 3 строки, вопрос как в новом апи переписать строку
Metadata metadata = parseResult.get(content.getUrl()).getData().getParseMeta();

ParseResult уже нету и достать Metadata фактически не откуда в новом интерфейсе ParseFilter.
  • Вопрос задан
  • 2293 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы