Задать вопрос
Seldon
@Seldon

Сохранить html source code при сборе информации с помощью Apache Nutch?

Доброго времени суток, использую nutch (версия 2.3) для сбора страничек, возникла задача сохранять исходный html и делать оп нему индекс. Может кто подскажет элегантное решение задачи?

Нашел также плагин который позволяет сохранить исходный html, но он написан для nutch 1.х при попытке изменить его под версию 2.х возникает вопрос как добраться до методаты. которая будет записываться в бд.
Код плагина в общем-то 3 строки, вопрос как в новом апи переписать строку
Metadata metadata = parseResult.get(content.getUrl()).getData().getParseMeta();

ParseResult уже нету и достать Metadata фактически не откуда в новом интерфейсе ParseFilter.
  • Вопрос задан
  • 2294 просмотра
Подписаться 1 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Инженер по тестированию
    5 месяцев
    Далее
  • Нетология
    Инженер по тестированию
    8 месяцев
    Далее
  • Stepik
    "Поколение Python": курс для начинающих
    1 неделя
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы