$text = 'Добрый день.Вопрос про сам процесс парсинга страницы, а не ее получение (с помощью curl или любого другого инструмента).
Есть некая страница (HTML-документ) и список ключевых слов. Необходимо получить количество вхождений каждого слова на странице. Мне пришло в голову только генерировать регулярку (что-то вроде (слово1|слово2|слово3)), а потом считать простым перебором количество вхождений.
Какие есть более изящные решения? Реализовывать предполагаю на PHP или nodejs.';
preg_match_all('/слово|документ/ui', $text, $matches, PREG_PATTERN_ORDER);
print_r($matches);
Array
(
[0] => Array
(
[0] => документ
[1] => слово
[2] => слово
[3] => слово
)
)
>>> words = ['a', 'b', 'c', 'a', 'b', 'b']
>>>
>>> d = {}
>>> for i in words:
... if i in d:
... d[i] += 1
... else:
... d[i] = 1
...
>>> print(d)
{'b': 3, 'c': 1, 'a': 2}
>>>