Алгоритм парсинга страниц по списку ключевых слов?

Question

Валентин @gephaest

PHP, Yii2, Laravel

Алгоритм парсинга страниц по списку ключевых слов?

Добрый день.Вопрос про сам процесс парсинга страницы, а не ее получение (с помощью curl или любого другого инструмента).
Есть некая страница (HTML-документ) и список ключевых слов. Необходимо получить количество вхождений каждого слова на странице. Мне пришло в голову только генерировать регулярку (что-то вроде (слово1|слово2|слово3)), а потом считать простым перебором количество вхождений.
Какие есть более изящные решения? Реализовывать предполагаю на PHP или nodejs.

Вопрос задан более трёх лет назад
745 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

4 комментария

Валентин @gephaest Автор вопроса

я тоже самое описал в вопросе, что тут нового?

Написано более трёх лет назад
Дмитрий Ким @kimono

Валентин: получается вы ищете в закромах php какую-то функцию super_parser_mega_counter($text, $words) возвращающую массив [$word1 => $count1, $word2 => $count2]? Нет такой, к сожалению.

Написано более трёх лет назад
Валентин @gephaest Автор вопроса

Дмитрий Ким: получается я ищу эффективный алгоритм для решения поставленной задачи, перечитайте заголовок топика внимательнее.

Написано более трёх лет назад
Дмитрий Ким @kimono

Валентин: тогда не знаю, какой алгоритм будет эффективнее одной регулярки.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 160 просмотров
2

ответа
Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 1114 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 653 просмотра
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 759 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 690 просмотров
2

ответа
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1480 просмотров
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 736 просмотров
4

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 328 просмотров
0

ответов
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 887 просмотров
9

ответов
Программирование

Простой
Олимпиадное программирование — с чего начать?
- 1 подписчик
- 18 апр.
- 611 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-10-06 14:05:15

переборы, переборчики, простите мама так жизнь меня воспитала, по пхпэшным понятиям блатным.
откуда такая любовь у пхпшников всё через переборы реализовывать?
когда у вас ключевиков за несколько тысяч перевалит, вы часами будете ждать результаты ваших переборов, тем более на пхп).
более изящные решение - использовать суффиксные деревья.

Answer 2 · 2015-10-06 14:04:53

sandbox.onlinephpfunctions.com/code/37932fd36ced8e...

$text = 'Добрый день.Вопрос про сам процесс парсинга страницы, а не ее получение (с помощью curl или любого другого инструмента).
Есть некая страница (HTML-документ) и список ключевых слов. Необходимо получить количество вхождений каждого слова на странице. Мне пришло в голову только генерировать регулярку (что-то вроде (слово1|слово2|слово3)), а потом считать простым перебором количество вхождений. 
Какие есть более изящные решения? Реализовывать предполагаю на PHP или nodejs.';

preg_match_all('/слово|документ/ui', $text, $matches, PREG_PATTERN_ORDER);

print_r($matches);

Array
(
    [0] => Array
        (
            [0] => документ
            [1] => слово
            [2] => слово
            [3] => слово
        )
)

Answer 3 · 2015-10-07 02:49:41

Нагруженное множество надо сделать.
Потом просто получаешь последовательность всех слов страницы, проходишь по ним, сравнивая с шаблоном, и инкрементируешь счётчик во множестве для соответствующего ключа.

Вот тебе иллюстрация на питоне

>>> words = ['a', 'b', 'c', 'a', 'b', 'b']
>>> 
>>> d = {}
>>> for i in words:
...     if i in d:
...         d[i] += 1
...     else:
...         d[i] = 1
... 
>>> print(d)
{'b': 3, 'c': 1, 'a': 2}
>>>

Алгоритм парсинга страниц по списку ключевых слов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт