Как распарсить html-файл на несколько файлов?

Question

sazhyk @sazhyk

Как распарсить html-файл на несколько файлов?

Помогите разобраться с парсингом статичной html'ки.
Есть файлик, довольно необычный, и, с точки зрения стандартов, с кучей нарушений. Но не об этом сейчас.

Собственно файлик

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict/EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html lang="en">
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <title>Parse Me</title>
    </head>
    <body>
        <div id="my_id">
            <!-- Something -->
        </div>
        <div id="my_id">
            <!-- Something -->
        </div>
        <!-- Много <div id="my_id">  -->
        <div id="my_id">
            <!-- Something -->
        </div>
    </body>
</html>

Необходимо из этого файла достать все

<div id="my_id">
    <!-- Something -->
</div>

и уже из них создать новые отдельные файлы html.

Вроде таких

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict/EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html lang="en">
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <title>Parse Me</title>
    </head>
    <body>
        <div id="my_id">
            <!-- Something -->
        </div>
    </body>
</html>

Ранее с парсингом никогда не сталкивался. Покурил гугла, пошукал на тостере... Пишут вроде LXML неплох в этом деле. Но его документация как-то не очень мне понятна. Помогите хоть советом, хоть делом - всему буду рад.

Вопрос задан более трёх лет назад
403 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

8 комментариев

sazhyk @sazhyk Автор вопроса

Вообще bs4 тут считается зашкваром
почему, если не секрет?

Написано более трёх лет назад
qlkvg @qlkvg

sazhyk, медленный, результат выполнения не всегда очевидный (например если не находит что-то, то возвращает None, а не кидает исключение), вроде как не всегда правильно разбирает дерево, хотя я с таким ни разу не сталкивался. Мне его синтаксис нравится больше, чем голый lxml+xpath.

Написано более трёх лет назад
Дмитрий @LazyTalent

sazhyk, они просто не умеют его готовить. И бс4 это не парсер, а интерфейс для парсеров: хочешь используй в нем lxml, хочешь html5lib, хочешь еще что-нибудь.

Написано более трёх лет назад

sazhyk @sazhyk Автор вопроса

qlkvg предложенное вами решение работает с одним НО. Я не указал в вопросе (не думал, что это имеет значение), но в документе есть стили в теге <head>

Вот так

template = """
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict/EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html lang="en">
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <title>Parse Me</title>
        <style type="text/css">
            #rs {width: 100%;height: 150px;background-color: green;margin-bottom: 15px}
        </style>
    </head>
    <body>
        {}
    </body>
</html>
"""

При работе скрипта получаю ошибку

Traceback (most recent call last):
  File "slice.py", line 72, in <module>
    print(template.format(div))
KeyError: 'width'

Если удалить стили - то всё работает.

Написано более трёх лет назад

qlkvg @qlkvg

ну добавьте вторые фигурные скобки для стилей или строку форматируйте по другому, делов то
https://stackoverflow.com/questions/5466451/how-ca...

Написано более трёх лет назад
sazhyk @sazhyk Автор вопроса

qlkvg, немного не догнал. Как мне теперь эти самые файлы сохранить?

Написано более трёх лет назад
sazhyk @sazhyk Автор вопроса

qlkvg, всё, разобрался

Написано более трёх лет назад
sazhyk @sazhyk Автор вопроса
qlkvg, ещё один подвопросик. Можно как-то не указывать весь template, а брать его из файла в переменную? Вроде того
spoiler
head = """ <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict/EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html lang="en"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>Parse Me</title> </head> <body> """

fooler = """ </body> </html> """

template = head + '{}' + footer
Не очень понимаю, как "склеивать" "многострочные комментарии". Соответственно head и footer брать из файла. Просто скрипт очень громоздкий получается. Спасибо.
Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 101 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 163 просмотра
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 373 просмотра
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 214 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 142 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 139 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 252 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 527 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 253 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Я вроде понимаю, что надо получить список этих элементов, а потом в цикле из них собрать новый документ.

Answer 1 · 2017-10-16 09:14:08

Вообще bs4 тут считается зашкваром, но я его все равно люблю.

spoiler

from bs4 import BeautifulSoup

src = """
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict/EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html lang="en">
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <title>Parse Me</title>
    </head>
    <body>
        <div id="my_id">
            <!-- Something -->
        </div>
        <div id="my_id">
            <!-- Something -->
        </div>
        <!-- Много <div id="my_id">  -->
        <div id="my_id">
            <!-- Something -->
        </div>
    </body>
</html>
"""

template = """
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict/EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html lang="en">
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <title>Parse Me</title>
    </head>
    <body>
        {}
    </body>
</html>
"""

bs = BeautifulSoup(src)
divs = bs.find_all("div", {"id": "my_id"})
for div in divs:
	print(template.format(div))

Как распарсить html-файл на несколько файлов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт