С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Question

darzet @darzet

С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Доброго, Хабражители.
Прошу совета у знающих людей.
У меня следующая проблема.
Есть сотенка однотипных html документов.
Мне надо вытащить из них все содержимое тега
Говоря языком XPAth html/body/text()
и поместить в один текстовый файлик.
Затем в этом файлике сделать десяток автозамен, чтобы
привести форматирование к нужному виду.
к примеру s/<вr>/<вr>\n/

Советуют разное. Изучать Perl или php.
Учить shell.
Подскажите какими средствами подобное делать лучше всего.
Просто не хочется забивать гвозди микроскопом.

Вопрос задан более трёх лет назад
3735 просмотров

2 комментария

Подписаться 5 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 13

Комментировать

5 комментариев

Комментировать

3 комментария

5 комментариев

darzet @darzet Автор вопроса

Да да именно regexpы здесь и нужны. Жаль я perl не особо знаю. Вот если бы был мануальчик по такой же проблемке было бы здорово. Насколько я знаю перл и предназначен для капитальной работы с текстами.

Написано более трёх лет назад
leron @leron

Регулярные выражения не предназначены для разбора html. Для этого существует дофигища разнобразных парсеров.

Ещё раз: html нельзя парсить регулярками.

Написано более трёх лет назад
antivir @antivir

Не надо так категорично. Все эти парсеры сделаны на регулярках :)
Парсеры или регулярки — решать нужно в каждом конкретном случае.

Написано более трёх лет назад
gribozavr @gribozavr

Нормальные парсеры основаны на автоматах с памятью, а не на регулярках.

Написано более трёх лет назад
antivir @antivir

Уважаемый, по-вашему начальный разбор текста происходит… по мановению свыше? :)))))

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 114 просмотров
1

ответ
HTML

+1 ещё

Средний
Скачал плагин image preview в вс коде, чтобы установить иконку сайта. Иконка появилась в браузере, но не появилась слева напротив строки. Почему так?
- 1 подписчик
- 30 сент.
- 139 просмотров
1

ответ
HTML

+1 ещё

Простой
От какой технической характеристики компьютера зависит скорость работы сайта, указанного ниже?
- 1 подписчик
- 24 сент.
- 440 просмотров
2

ответа
HTML

+1 ещё

Простой
Как убрать линии у бейджиков в Markdown?
- 1 подписчик
- 23 сент.
- 192 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Как менять картинки у карточки в списке товаров?
- 4 подписчика
- 22 сент.
- 326 просмотров
1

ответ
HTML

+1 ещё

Средний
Как правильно сочетать теги article, section и заголовки h1-h6?
- 2 подписчика
- 21 сент.
- 232 просмотра
2

ответа
PHP

+1 ещё

Простой
Можно ли писать функции в текст?
- 1 подписчик
- 19 сент.
- 473 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как подключить библиотеку?
- 1 подписчик
- 13 сент.
- 622 просмотра
3

ответа
HTML

+4 ещё

Средний
Кривое отображение сайта на iOS-устройствах?
- 2 подписчика
- 13 сент.
- 410 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как отключить только некоторые input от отправки формы по нажатию enter?
- 1 подписчик
- 10 сент.
- 548 просмотров
1

ответ
Показать ещё Загружается…

Верстальщик / фронтендер для браузерного расширения

DevTeam.Space

от 1 000 до 2 000 $

SEO manager

DigitalHR • Ереван

от 120 000 до 180 000 ₽

Web-разработчик

ЭНДИ Консалтинг

от 40 000 до 40 000 ₽

все текстовое содержимое или вместе с разметкой нужно вытащить?
Вместе с разметкой вытаскиваю.
А затем делаю автозамены так чтобы получилось новое нужное мне форматирование.

Answer 1 · 2011-07-22 20:25:47

m08pvv @m08pvv

Зависит от сложности страничек — может можно и простым grep'ом обойтись.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2011-07-22 20:40:41

ComodoHacker @ComodoHacker

Примерчик бы.
Я в таких случаях использую awk или sed.

Ответ написан более трёх лет назад

5 комментариев

Answer 3 · 2011-07-23 06:51:22

Регэкспы, XML… не ибите мозги. BeautifulSoup решает это проблему на ура. Парсит любой, даже самый битый HTML.

Answer 4 · 2011-07-22 20:23:24

Rafael Osipov @Rafael

С помощью HTML-парсеров на java.

Вот, к примеру, пара из них:

HTMLParser
Jericho HTML Parser

Ответ написан более трёх лет назад

3 комментария

Answer 5 · 2011-07-22 21:34:58

Если без парсеров и страницы не очень сложные, то можно это реализовать на каком-нибудь языке, поддерживающим регулярные выражения. Это Perl, Python, PHP и прочие… Я лично люблю Perl… Правда пользуюсь больше PHP)))

Answer 6 · 2011-07-22 21:43:39

ComputerPers @ComputerPers

Мне кажется DOM дерево самое то. Проще всего его на джаве реализовать.

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2011-07-23 00:56:01

хм… lxml.de/lxmlhtml.html

from lxml import html
import os

with open("../results.txt", "w") as f:
    for fname in os.listdir('./'):
        tree=html.parse(fname)
        body_content=tree.xpath("//body")[0] 
        all_body_text=body_content.text_content() #только текст из всех descendant-or-self
        body_content_with_markup=body_content.tostring(body_content) #текст и разметка descendant-or-self
        result=some_processing("какой-либо из предыдущих результатов") # какие-то доп. замены и манипуляции
        f.write(result) # запихиваем все в один файл

Но если более конкретно скажете что нужно извлечь и какие трансформации нужно проделать — напишу более подробно. Может и на XSLT будет проще, если автозамены касаются в основном тегов.

Если на баше — то есть xmllint, который позволяет в том числе и xpath запросы выполнять
xmllint --html --xpath //body

Регулярки ни в коем случае не используйте ибо stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

Answer 8 · 2011-07-23 10:51:50

Sed поучите или perl. По крайней мере не приобретете бесполезных знаний, которые будут не нужны после решения конкретно этой задачи.

Answer 9 · 2011-07-23 11:23:06

Setti @Setti

querypath

Ответ написан более трёх лет назад

Комментировать

Answer 10 · 2011-07-23 12:28:07

Зачем для такой задачи чего-то учить. Закажите на фрилансе, там вам накатают прогу за 10 баксов.

Answer 11 · 2011-07-23 16:11:13

Мне кажется, что базовым знанием для работы с массивами текста являются регулярные выражения (см. книги Дж.Фридла). А дальше идут инструменты, которые позволяют более или менее удобно работать с рекэкспами. Под Win мой герой — это мегакомбайн PowerGrep!

А если учить ничего не хочется, можно объединить все файлы в один «copy *.html alltext.txt» и далее мучить его в текстовых редакторах и сортировать в Excel.

Answer 12 · 2011-07-24 12:57:59

python s
scrapy.org

Там даже есть возможность посмотреть, как работают демон, через веб морду :)

Answer 13 · 2011-07-24 13:46:34

Ваша задача называется веб харвестинг.
Есть специальное, очень хорошее средство для этого: web-harvest.sourceforge.net/
На сайте есть примеры для решения типовых ( похожих на Вашу ) задач.

С помощью чего можно вытащить из сотни html документов содержимое определенных тегов и поместить в один текстовый документ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт