Пользователь пока ничего не рассказал о себе

Достижения

Наибольший вклад в теги

Все теги (23)

MySQL
- 2 ответа
- 0 вопросов
2 Вклад в тег
Книги
- 2 ответа
- 0 вопросов
1 Вклад в тег
Программирование
- 2 ответа
- 0 вопросов
1 Вклад в тег
Анализ web-трафика
- 2 ответа
- 0 вопросов
0 Вклад в тег
Информационная безопасность
- 1 ответ
- 0 вопросов
0 Вклад в тег
Алгоритмы
- 4 ответа
- 0 вопросов
0 Вклад в тег

Лучшие ответы пользователя

Все ответы (18)

Поиск статьи в БД и вычет % схожести

sergeypid @sergeypid

Для приблизительного сравнения текстов есть такой способ: составить нулевую матрицу 30х30, координаты матрицы — буквы алфавита. Пробегаемся по тексту и считаем, сколько раз в текста встречались последовательные пары букв. Например, если видим подряд буквы А и Б, прибавляем 1 к элементу [0, 1] матрицы. Потом нормируем — делим все элементы матрицы на общее число букв в тексте. В результате получится хэш-матрица, ее запоминаем для каждой статьи в БД.

Для проверяемой статьи строим такую же матрицу и вычитаем ее из хэш-матрицы каждой статьи в БД. Считаем сумму квадратов получившихся элементов. Исследуем на 20-40 типовых статьях и выводим пороговое значение. Для коротких текстов (порядка 100-500 букв) хорошо работало, попробуйте на ваших статьях!

В теории это имеет отношение к марковским цепям, n-граммам (2 граммам :)

Ответ написан более трёх лет назад

4 комментария

4 комментария
Что человек должен прочитать ?

sergeypid @sergeypid

Станислав Лем «Сумма технологии» заменяет краткий курс физики и полное собрание всей фантастики. Филосня конечно, но качественная. После этой книги уже не обязательно смотреть Матрицу или например читать Шекли — все идеи отдаленного будущего человечества уже там изложены и разложены по полочкам.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как бороться с клеветой и черным пиаром в интернете?

sergeypid @sergeypid

Попробуйте на основании ФЗ 152 о защите персональных данных удалить персональные данные с этого сайта.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Требуется совет по организации бюджетной автоматизированной системы сбора показаний счетчиков через телефон?

sergeypid @sergeypid

Asterisk, однозначно!

Ответ написан более трёх лет назад

Комментировать

Комментировать
Си в качестве «первого» языка

sergeypid @sergeypid

По-моему, очень правильно. Чистый С очень близок к аппаратуре процессора, и изучение этого языка поможет правильно поставить мозги программиста, если он хочет разрабатывать высокопроизводительные программы, использующие все ресурсы компа. Кроме того, программирование на Objective C без знания С невозможно, кроме случаев простых приложений, которые можно и на HTML сгавнять.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Лучшие вопросы пользователя

Все вопросы (2)

MongoDB
MongoDB для агрегации данных
- 3 подписчика
- более трёх лет назад
- 6239 просмотров
3

ответа
JavaScript

+2 ещё
Библиотеку спрайтовой графики на javascript?
- 3 подписчика
- более трёх лет назад
- 3001 просмотр
1

ответ

Войдите на сайт