Задать вопрос

Дмитрий Ким

Web developer

234

вклад
68

вопросов
407

ответов
39%

решений

Ответы пользователя по тегу Программирование

На чем писать программу под Windows?

Дмитрий Ким @kimono
Web developer

Переписать chromium.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Где найти готовые шаблоны баз данных?

Дмитрий Ким @kimono
Web developer

От проекта к проекту количество таблиц отличается, количество полей отличается, типы полей отличаются, длина полей отличается, названия полей отличаются, значения полей отличаются. Может и нет никаких шаблонов?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Научиться парсингу - с чего начать?

Дмитрий Ким @kimono
Web developer

В самом парсинге нет ничего сложного - берете несколько кусков чужого кода (например несколько однотипных страниц HTML с товаром или новостями), определяете то что вам нужно вытащить, далее смотрите какие-то закономерности, вложенности, признаки и т.д. Определяете - всегда ли это работает или нет. Пишете шаблон (или шаблоны в циклах), потом проверяете тестами - лучше онлайн (например https://regex101.com/ ), чтобы можно было сразу видеть результат.
Другое дело как быть со "спарсенными" данными - стоит им доверять полностью или нет. Что делать с данными, если что-то пошло не так.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Алгоритм парсинга страниц по списку ключевых слов?

Дмитрий Ким @kimono

Web developer

sandbox.onlinephpfunctions.com/code/37932fd36ced8e...

$text = 'Добрый день.Вопрос про сам процесс парсинга страницы, а не ее получение (с помощью curl или любого другого инструмента).
Есть некая страница (HTML-документ) и список ключевых слов. Необходимо получить количество вхождений каждого слова на странице. Мне пришло в голову только генерировать регулярку (что-то вроде (слово1|слово2|слово3)), а потом считать простым перебором количество вхождений. 
Какие есть более изящные решения? Реализовывать предполагаю на PHP или nodejs.';

preg_match_all('/слово|документ/ui', $text, $matches, PREG_PATTERN_ORDER);

print_r($matches);

Array
(
    [0] => Array
        (
            [0] => документ
            [1] => слово
            [2] => слово
            [3] => слово
        )
)

Ответ написан более трёх лет назад

4 комментария

Как не учитывать регистр формата изображения?

Дмитрий Ким @kimono
Web developer

$src = mb_strtolower($src);

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Самые активные сегодня

Svyazist_PKI
- 4 ответа
- 0 вопросов
Лев
- 3 ответа
- 0 вопросов
Кот Абсолютный
- 3 ответа
- 0 вопросов
Drno
- 2 ответа
- 0 вопросов
VoidVolker
- 2 ответа
- 0 вопросов
Daemon23RUS
- 2 ответа
- 0 вопросов

На чем писать программу под Windows?

Где найти готовые шаблоны баз данных?

Научиться парсингу - с чего начать?

Алгоритм парсинга страниц по списку ключевых слов?

Как не учитывать регистр формата изображения?

Войдите на сайт