Задать вопрос
Seldon
@Seldon

Сохранить html source code при сборе информации с помощью Apache Nutch?

Доброго времени суток, использую nutch (версия 2.3) для сбора страничек, возникла задача сохранять исходный html и делать оп нему индекс. Может кто подскажет элегантное решение задачи?

Нашел также плагин который позволяет сохранить исходный html, но он написан для nutch 1.х при попытке изменить его под версию 2.х возникает вопрос как добраться до методаты. которая будет записываться в бд.
Код плагина в общем-то 3 строки, вопрос как в новом апи переписать строку
Metadata metadata = parseResult.get(content.getUrl()).getData().getParseMeta();

ParseResult уже нету и достать Metadata фактически не откуда в новом интерфейсе ParseFilter.
  • Вопрос задан
  • 2294 просмотра
Подписаться 1 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Нетология
    1С-программист
    10 месяцев
    Далее
  • Skillbox
    Профессия 1C-разработчик
    8 месяцев
    Далее
  • ProductStar
    Профессия: Python-разработчик
    8 месяцев
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы