PythonGrab — Как извлечь отдельные части текста и заменить html-теги на свои?

Question

Ivan2121 @Ivan2121

Python

PythonGrab — Как извлечь отдельные части текста и заменить html-теги на свои?

Дано, пишу парсер на grab:

Текст в html-коде страницы:

<div class=“inner” id=“msg_3218830”><div class=“quoteheader”><div class=“topslice_quote”><a href="http://www.forum.ru/forum/index.php/topic,129548.msg3218815.html#msg3218815“>Цитата: Nikitos_B от <strong>Сегодня</strong> в 01:04:06</a></div></div><blockquote class=”bbc_standard_quote“>Сразу скажу-в микроконтроллерах не силен <img src=”http://www.forum/forum/Smileys/kolobok/angry.gif“ alt=”&gt;&#58;&#40;“ title=”Angry“ class=”smiley“ /><br />&nbsp;И нужно ли, главное? <img src=”http://www.astronomy.ru/forum/Smileys/kolobok/smiley.gif“ alt=”&#58;&#41;“ title=”Smiley“ class=”smiley“ /><br /></blockquote><div class=”quotefooter“><div class=”botslice_quote“></div></div>Не нужно.</div>

1. Нужно извлечь отдельно

<blockquote class=”bbc_standard_quote“>Сразу скажу-в микроконтроллерах не силен <img src=”http://www.forum.ru/forum/Smileys/kolobok/angry.gif“ alt=”&gt;&#58;&#40;“ title=”Angry“ class=”smiley“ /><br />&nbsp;И нужно ли, главное? <img src=”http://www.forum.ru/forum/Smileys/kolobok/smiley.gif“ alt=”&#58;&#41;“ title=”Smiley“ class=”smiley“ /><br /></blockquote>

2. И отдельно извлечь: </div>Не нужно.</div>

3. Лишний код удалить и произвести замену кода в извлеченных частях:

<blockquote class=”bbc_standard_quote“> на [quote]
</blockquote> на [/quote]
<img src=” на [img]
“ alt=” на [/img]

4. В итоге должно получится так:
[quote]Сразу скажу-в микроконтроллерах не силен
[img]http://www.forum.ru/forum/Smileys/kolobok/angry.gi... нужно ли, главное? [img]http://www.forum.ru/forum/Smileys/kolobok/smiley.g...
Не нужно.

Подскажите пожалуйста, как это сделать грамотно, потому что у меня пока получается только так:

“Сразу скажу-в микроконтроллерах не силенИ нужно ли, главное?”

Тобишь голый текст получается без вставки/замены своего текста(тегов).

Вопрос задан более трёх лет назад
579 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- вчера
- 120 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- вчера
- 85 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 82 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 91 просмотр
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 230 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 268 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 170 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 149 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 270 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 156 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2015-04-07 15:21:11

Грамонто парсинг трудно делать, а особенно преобразование текста. Лучшим способом решить вашу задачу является перевести HTML-код в древовидный список и заменить img ихними url'ами. Но инструмента для этого я не нашел.

Поэтому сделать поел другим путем:

получил данные из blockquote;
перевел полученный html-код в markdown;
и заменил ссылки на изображения в бб-код;

Для этого нужно две библиотеки: selection и html2text (обе ставятся из PyPI).

Собственно, решение такое:

from selection import XpathSelector
from lxml.html import fromstring

import re
import html2text

if __name__ == '__main__':
    html_code = '<div class="inner" id="msg_3218830"><div class="quoteheader"><div class="topslice_quote"><a href="http://www.forum.ru/forum/index.php/topic,129548.msg3218815.html#msg3218815">Цитата: Nikitos_B от <strong>Сегодня</strong> в 01:04:06</a></div></div><blockquote class="bbc_standard_quote">Сразу скажу-в микроконтроллерах не силен <img src="http://www.forum/forum/Smileys/kolobok/angry.gif" alt="&gt;&#58;&#40;" title="Angry" class="smiley" /><br />&nbsp;И нужно ли, главное? <img src="http://www.astronomy.ru/forum/Smileys/kolobok/smiley.gif" alt="&#58;&#41;" title="Smiley" class="smiley" /><br /></blockquote><div class="quotefooter"><div class="botslice_quote"></div></div>Не нужно.</div>'
    sel = sel = XpathSelector(fromstring(html_code))

    quote = sel.select('//blockquote')

    quote_html = quote.html()
    quote_html = quote_html.replace('<blockquote class="bbc_standard_quote">', '[quote]')
    quote_html = quote_html.replace('</blockquote>', '[/quote]')

    quote_html = re.sub('!\[(.*)\]\((.*)\)', lambda m: '[img]' + m.group(2) + '[/img]',
                        html2text.html2text(quote_html))

    end_text = re.sub('(.*)<\/div>(.*)<\/div>', lambda m: m.group(2), html_code)

    final_text = quote_html.strip() + '\n' + end_text

    print(final_text)

PythonGrab — Как извлечь отдельные части текста и заменить html-теги на свои?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт