Как сделать умный фильтр текста по смыслу?

Question

Максим @MaxStrate

Как сделать умный фильтр текста по смыслу?

Задача:
- Есть парсер (на PHP) постов ВК по теме сдачи квартир. Надо определить - написал текст Агент или Собственник.

Как решена задача на данный момент (топорно):
- С помощью масок из стоп-слов. Находится в тексте стоп-слово (прим: агентство) - значит агент.

В чем проблема:
- Естественно такой подход очень топорный и иногда неправильно фильтрует посты.

Вопрос:
- Где найти информацию с примерами по реализации подобных скриптов? Мне просто хотя бы концепцию понять как это сделать максимально практично.

Пока думаю запилить такую тему: скрипт будет искать не только стоп-слова, но и слова определяющие Собственника. Также всем этим маскам хочу присвоить свои баллы. Т.е. ищем все стоп-слова (они минусуют общий балл текста), ищем все слова определяющие собственника (они плюсуют общий балл текста), и по набранным баллам определяем на сколько пост относится к собственнику жилья.

Самому ничего нарыть не получилось в инете. Заранее спасибо за любую информацию по этой теме!

Вопрос задан более трёх лет назад
962 просмотра

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Skillbox

PHP-разработчик. Базовый уровень

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 6

1 комментарий

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 224 просмотра
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 230 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 212 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 217 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 145 просмотров
1

ответ
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт.
- 249 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 548 просмотров
2

ответа
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 207 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 249 просмотров
3

ответа
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 267 просмотров
3

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP | WordPress

Globaldrive

от 150 000 ₽

Answer 1 · 2017-03-09 02:18:36

Идея анализа слов хороша, но добавь к ней анализ страницы. У агента будет точно не одна объява о продаже на стене своей страницы, значит он точно не твой таргет, тогда и минусуй.

Answer 2 · 2017-03-09 02:18:53

entermix @entermix

Возможно поможет Расстояние Левенштейна?

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2017-03-09 02:33:53

1) Просматриваете сотню объявлений
2) Анализируете каждое и выясняете, что именно помогло вам определить тип объявления и качество
3) Пишете скрипт, который анализирует нужные детали
4) Тестируете скрипт на паре сотен разных объявлений. Смотрите как именно бот анализирует данные, следите за каждым этапом и дорабатываете алгоритм

Это про общий подход к созданию таких штук.

Answer 4 · 2017-03-09 05:32:31

Его и по телефону не всегда отличишь, если агент косит под собственника.

Для ручной фильтрации использую:
- анализ телефона, как правило у агенств множество квартир. А у собственника 90% одна объява, 10% могут быть объявления 2-3 квартир + могут попадаться объявы по продаже мелких вещей.
- анализ картинки: агенствам лень заморачиваться и картинки могут идти на несколько объяв, но увы парсить гугл это долго.
- общий фон текста + интуиция. Вот тут машина пока бессильна, хотя можете попробовать анализом нескольких тысяч текстов выявить закономерности через сервисы типа https://habrahabr.ru/post/243705/

PS: в современном мире агенства - это зло в виде лишнего посредника с огромными запросами и минимальной функцией свести 2х людей без малейших проверок кто эти люди.

Answer 5 · 2017-03-09 14:57:14

1) Токенизация и лемматизация текста
2) Bag of words или TF/IDF векторизация
3) Доп.фичи про уникальность телефона / адреса.
4) Простая линейная модель поверх этих векторов.

Тому, кто хоть раз работал с такими задачами, дел на 1-2 вечера.

Answer 6 · 2017-03-16 08:51:30

Похоже, вам нужно смотреть в сторону машинного обучения. В двух словах здесь не опишешь, рекомендую почитать материалы на эту тему. Но я бы пошел таким путем:

1) Для каждого объявления создал набор признаков. Можно начать с того, что у вас уже есть (судя по описанию и ответам на комментарии). На "мешок слов", наверное, не стоит сходу вестись. Там будет много шума. Потребуется уменьшение размерности признакового пространства. Подозреваю, что на старте можно ограничиться индикатором вхождения в текст слов-маркеров. Список таких слов можно сделать и ручками. И еще. Думаю будут очень важны признаки связанные с вхождение контактов в несколько объявлений.

2) Для обучения модели потребуется выборка объявлений в которых точно известно кто его разместил. Это самое важное место. И самое сложное. Подозреваю, что выборка будет маленькая, в таком случае это наложит ограничения на выбор модели (будете работать с теми же деревьями и бустингом над ними).

3) Обучающую выборку надо будет предварительно обработать: категориальные признаки (всякие идентификаторы, категории, темы) заменить на наборы бинарных (one hot encoding), числовые - нормировать, выборку сбалансировать.

4) Выбираете метрику по которой будите оценивать качество работы алгоритма (точность, полнота, F-мера или ROC-AUC или еще что-то). Это отдельная большая тема и выбор будет зависеть от вашей бизнес-модели.

5) Собираете несколько моделей, выбираете наиболее перспективные. А потом подбираете гипер-параметры в этих моделях. Возможно, захотите комбинировать несколько моделей, но тут нужно быть осторожным с производительностью и переобучением.

6) Прикручиваете полученную модель к своему сервису.

7) Находите новые признаки, обучающие данные, идеи и улучшаете модель. Здесь предела совершенству нет ))

А то что есть у вас сейчас, скорее всего без потерь можно будет описать обычным деревом решений. Так что хуже стать не должно.

Как сделать умный фильтр текста по смыслу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт