Как сформировать HTML(dom) данные в матричном виде для машинного обучения?
Вопрос звучит в следующем виде, имеется HTML в виде текста, необходимо превратить его в tensor, а как это сделать ума не приложу. Буду признателен за схему перевода, подсказки и линки.
Задача извлечения типовых блоков сайтов, анонсы новостей, товары из списка итд