Всем привет!
Есть локальный html-файл, который по сути есть список статей, у каждой есть заголовок, дата, тело и ссылка. (В конце вопроса - пример)
Я пользуюсь Node.js, fs, cheerio чтоб заполнить JSON-объект данными из этого html файла.
Как последовательно пройти по файлу и на ходу заполнить JSON следующего вида?
[
{ title: 'abc', date: '10.10.10', body: ' P tags here', href: '' },
{ title: 'abc', date: '10.10.10', body: ' P tags here', href: '' },
{ title: 'abc', date: '10.10.10', body: ' P tags here', href: '' }
]
У самого мысль - присвоить всем тегам ранги, а потом проверить, если ранг по сравнению с прошлым снизился - "создать дочерний элемент", если остался такой же - "добавить в дочерний элемент", если повысился - "создать новую запись". Но до реализации далеко, потому как, сабж - не знаю как даже последовательно пройтись по элементам в файле.
Вот пример куска файла, с двумя записями:
<h1 class="header"><a id="_Toc446404887"></a><a id="_Toc446498856"></a><a id="_Toc473706079"></a>Тест 1</h1>
<h2 class="date"><a id="_Toc446411230"></a><a id="_Toc446404888"></a><a id="_Toc446318335"></a><a id="_Toc446498857"></a><a id="_Toc473706080"></a>10.10.10</h2>
<p>P</p>
<p>tags</p>
<p>here</p>
<a class="source"><a href="test.html">test.html</a></a>
<h1 class="header"><a id="_Toc446404887"></a><a id="_Toc446498856"></a><a id="_Toc473706079"></a>Тест 1</h1>
<h2 class="date"><a id="_Toc446411230"></a><a id="_Toc446404888"></a><a id="_Toc446318335"></a><a id="_Toc446498857"></a><a id="_Toc473706080"></a>10.10.10</h2>
<p>P</p>
<p>tags</p>
<p>here</p>
<a class="source"><a href="test.html">test.html</a></a>
Ещё, как видим - много мусорных тегов. Буду признателен, если подскажете на каком этапе и как их отсеивать.
Вопрос получился объёмный, если можно отослать в какие-то крупные статьи, чтоб я дальше курил - тоже поможет.
Спасибо за уделённое время.