Как найти количество вхождений слова в тексте веб-страницы с помощью Python 3?

Question

Denis9999 @Denis9999

Python

Как найти количество вхождений слова в тексте веб-страницы с помощью Python 3?

Задача описана в вопросе. Час ищу в интернете что да как, но такое ощущение что продвижения никакого. Подскажите, какие функции использовать, наведите так сказать на путь истинный))

Вопрос задан более трёх лет назад
1131 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

3 комментария

nirvimel @nirvimel
А проблема в том, что вы недооцениваете сложность задачи. Прежде чем что-то искать на странице, надо сначала из нее извлечь текст без разметки, а для этого придется полностью ее распарсить, а потом собрать все текстовые элементы обратно в единый текст.

А ваш
text.count(word)<code> пересчитает все теги, атрибуты, комментарии, скрипты и стили.
Написано более трёх лет назад
Павел Каратеев @Lancelote

nirvimel: я просто не тороплюсь её усложнять. К слову, есть готовая велосипедка на эту тему: https://pypi.python.org/pypi/html2text

Написано более трёх лет назад
nirvimel @nirvimel

Павел Каратеев: Полезная велосипедка, но в данной задаче не сильно поможет, потому что не чистит текст, а меняет одну разметку на другую.

P.S.: Как же шикарно я запорол разметку выше.

Написано более трёх лет назад

3 комментария

abcd0x00 @abcd0x00

слегка адаптирована и упрощена

Что-то слишком мудрёно. Код можно сократить раза в два.

Написано более трёх лет назад
nirvimel @nirvimel

abcd0x00: Будьте любезны, подскажите как ее можно сократить в два раза при условии что:
1. И node.text, и node.tail могут содержать значения None;
2. Каждый фрагмент должен быть очищен через .strip() от пробелов по краям, чтобы не получить более одного подряд идущего пробела на стыках фрагментов.
3. Пустые строки не должны попадать на вход join, чтобы не получить более одного подряд идущего пробела на стыках фрагментов.

Написано более трёх лет назад

abcd0x00 @abcd0x00

nirvimel:

>>> import lxml.html
>>> import re
>>> import collections
>>> 
>>> text = """
... <a>
...   abc
...   abc
...   <b>
...     def
... 
...     def
...   </b>
...   ghi ghi
... </a>
... """
>>> 
>>> doc = lxml.html.fromstring(text)
>>> lst = doc.xpath(r'.//text()')
>>> 
>>> pat = re.compile(r'\b\S+\b')
>>> words = sum(map(pat.findall, lst), [])
>>> 
>>> counted = collections.Counter(words)
>>> counted
Counter({'def': 2, 'abc': 2, 'ghi': 2})
>>>

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Есть ли кд на отправку подарков от имени бота?
- 1 подписчик
- 10 часов назад
- 41 просмотр
0

ответов
Python

+2 ещё

Простой
Как сделать символьные вычислениями в питоне для поиска стационарных точек системы диффуров?
- 1 подписчик
- 16 июл.
- 167 просмотров
0

ответов
Python

+2 ещё

Простой
Telegram бот с модулем PortalsAPI, при запуске curl_cffi выдает ошибку curl: (77) что делать?
- 1 подписчик
- 15 июл.
- 182 просмотра
1

ответ
Python

Средний
Маппинг криптовалютных пар на криптобиржах?
- 1 подписчик
- 14 июл.
- 133 просмотра
1

ответ
Python

+1 ещё

Средний
Почему при QR-логине в Telethon logout закрывает обе сессии?
- 1 подписчик
- 14 июл.
- 67 просмотров
0

ответов
Python

+1 ещё

Простой
Как тренировать Yolo, размер датасета, итоговый loss?
- 2 подписчика
- 13 июл.
- 965 просмотров
2

ответа
Python

Простой
Как сделать скачивание файла с github релиза на python?
- 1 подписчик
- 12 июл.
- 102 просмотра
0

ответов
Python

+1 ещё

Простой
Panda3D. Не могу найти причину ошибки glxGraphicsPipe (1 aux display modules not yet loaded.) в чем она?
- 1 подписчик
- 11 июл.
- 45 просмотров
0

ответов
Python

+1 ещё

Средний
Как генерировать качественные изображения в stable diffusion используя python?
- 2 подписчика
- 05 июл.
- 419 просмотров
0

ответов
Python

+1 ещё

Простой
Какова временная сложность del[pos:] для списка в Python?
- 1 подписчик
- 04 июл.
- 235 просмотров
1

ответ
Показать ещё Загружается…

Python разработчик

Bell Integrator • Москва

Python разработчик

Bell Integrator • Москва

Python разработчик

Bell Integrator • Москва

Answer 1 · 2015-12-21 10:20:47

Павел Каратеев @Lancelote

Django developer

А в чем проблема то собственно? Ну хотя бы так:
text.count(word)

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2015-12-21 13:51:00

from collections import Counter
import re

from lxml.html import fromstring
from lxml.html.clean import Cleaner
import requests


def extract_text(node):
    """
    Extract text without markup from node
    """

    def extract_text_gen(node):
        if node.text:
            yield node.text.strip()
        for child in node.iterchildren():
            yield from extract_text_gen(child)
            if child.tail:
                yield child.tail.strip()

    return ' '.join((s for s in extract_text_gen(node) if s))


def count_words(text):
    return Counter((s for s in re.split(r'\s', text) if s))


html = requests.get('https://toster.ru/q/276749').content.decode('utf-8')
root = fromstring(html)
Cleaner()(root)
text = extract_text(root.body)
words_count = count_words(extract_text(root))

print('\n'.join(('"%s": %i' % (word, count) for word, count in words_count.most_common())))

Функция extract_text взята из одного моего проекта, слегка адаптирована и упрощена.

Как найти количество вхождений слова в тексте веб-страницы с помощью Python 3?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт