Как написать нейросеть способную распознать улицы на которых ведутся работы через NLP?

Question

Marakase @Marakase

Как написать нейросеть способную распознать улицы на которых ведутся работы через NLP?

Мне нужно написать нейросеть которая способна распознать абзац в тексте в котором идет речь о улицах на которых ведутся работы.

В этой задаче нейросети необходимо распознать смысл текста (Текста представлены на РУССКОМ языке) и найти в нем, именно те улицы на которых ведутся работы, а не все улицы из текста. Использование распознавания именованных сущностей (Natasha, Spacy) в данной задаче не подходит т.к. В тексте могут находится улицы не обозначающие место работы.

P.S. Я понимаю, что у нейросети есть вероятность не обнаружения нужных мне данных. Не нужно про это писать

1 вопрос: Есть ли примеры схожих работ по моему запросу?
2 вопрос: Поделитесь ссылками(?), знаниями(?), статьями(?) для более глубокого изучения моего запроса.
3 вопрос: Какую готовую модель на русском языке можно дообучить для моей задачи?
4 вопрос: Есть ли уже готовые DataSet-ы которые могут подойти для моей задачи?

Вопрос задан более года назад
135 просмотров

4 комментария

Подписаться 1 Сложный 4 комментария

Модератор @TosterModerator

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4

Написано более года назад
Модератор @TosterModerator

На вопрос «как сделать» отвечает документация и поиск в интернет.

Тут отвечают на вопросы «почему я сделал, как в документации, а оно не работает. Поискал в интернет, вот запросы, в ответах не нашел. Что я делаю не так?»

Покажите, как вы пробовали решить проблему, приведите код попытки (пусть неудачной), опишите, как запускали, что ожидали и что получилось.
За готовыми решениями - на фриланс. В текущем виде это не вопрос, а задание. Нарушен п.5.12 Регламента.

Написано более года назад
Marakase @Marakase Автор вопроса

Модератор, хорошо, спасибо, я исправлю это чуть позже

Написано более года назад
mayton2019 @mayton2019

Marakase, можешь привести пример такого текста и пример того что ты хочешь выбрать?

Написано более года назад

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Простой
Как улучшить OCR-парсер билетов на основе Tesseract.js?
- 2 подписчика
- 08 мая
- 1901 просмотр
2

ответа
Нейронные сети

+1 ещё

Простой
Какая нейросеть умеет в дизайн?
- 1 подписчик
- 04 мая
- 130 просмотров
2

ответа
Python

+1 ещё

Средний
В Coqui TTS есть поддержка русского языка для озвучки текста?
- 1 подписчик
- 04 мая
- 88 просмотров
1

ответ
Нейронные сети

Средний
В процессе работы нейросетевых моделей насколько активно идёт процесс обмена данными по PCIe с видеокартой?
- 1 подписчик
- 02 мая
- 67 просмотров
2

ответа
Электроника

+1 ещё

Простой
Какие нейронки или программы смогут восстанови эл. схему по фото платы?
- 4 подписчика
- 30 апр.
- 854 просмотра
3

ответа
Android Studio

+1 ещё

Средний
Возможно ли в android studio сделать что то подобное как grad-cam в python?
- 1 подписчик
- 28 апр.
- 67 просмотров
0

ответов
Нейронные сети

Простой
Есть ли нейросеть, с функционалом аналогичным программному комплексу Revit?
- 1 подписчик
- 27 апр.
- 84 просмотра
1

ответ
Python

+1 ещё

Простой
Почему Python не изменяет переменные в цикле?
- 2 подписчика
- 27 апр.
- 947 просмотров
0

ответов
Нейронные сети

Простой
Какая нейронка лучше заменяет лица?
- 1 подписчик
- 27 апр.
- 132 просмотра
2

ответа
Нейронные сети

+1 ещё

Средний
Как автоматически создавать большие отчёты из множества docx файлов?
- 2 подписчика
- 18 апр.
- 436 просмотров
4

ответа
Показать ещё Загружается…

Инженер эксплуатации сети/Начинающий специалист

beeline • Владивосток

от 70 000 ₽

Content Marketing Specialist

MS Dev

от 1 000 до 2 000 $

Аналитик 1С

SM Lab • Москва

от 200 000 ₽

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4
На вопрос «как сделать» отвечает документация и поиск в интернет.

Тут отвечают на вопросы «почему я сделал, как в документации, а оно не работает. Поискал в интернет, вот запросы, в ответах не нашел. Что я делаю не так?»

Покажите, как вы пробовали решить проблему, приведите код попытки (пусть неудачной), опишите, как запускали, что ожидали и что получилось.
За готовыми решениями - на фриланс. В текущем виде это не вопрос, а задание. Нарушен п.5.12 Регламента.
Модератор, хорошо, спасибо, я исправлю это чуть позже
Marakase, можешь привести пример такого текста и пример того что ты хочешь выбрать?

Answer 1 · 2023-07-03 20:09:50

У тебя ошибка в терминах - работой с текстами занимаются языковые модели, а 'распознавание текста' это работа с изображением или звуком с целью преобразования его в текст.

С нуля этим заниматься будет очень сложно, нужны большие датасеты, причем большие - это порядка сотен миллионов или миллиардов токенов, причем размеры моделей могут быть не слишком большими. До эпохи трансформеров алгоритмы работы с текстом 'не понимали смысла'.

Лучшее что сейчас есть готовое это LLM на основе трансформера (GPT). Предобученных моделей огромное количество, из открытых и более менее рабочих - opt (не доступна нормальная 175b и кажется только английский) и bloomz (мультиязыковая, смотри таблицу разных размеров) но они значительно слабее chatgpt35 и никто не приблизился к chatgpt4. По ссылкам подробное описание, там есть информация как использовать примеры. К сожалению работа с языковыми моделями требует очень дорогое оборудование, а на процессоре они работают в сотни раз медленнее (код так написан, он оптимизирован для gpu).

Что значит слабее - это значит хоть знаний в этим модели влито огромное количество, но воспользоваться ими можно будет качественно только после fine tuning - дообучения на своих данных (примеры вопрос - ответ например, но не обязательно), главное тут то что количество данных для этого может быть очень маленьким (тысячи или даже сотни примеров). Есть алгоритмы peft - которые вместо тюнинга самой модели, работают с весами токенов запроса, это не вносит новых знаний в модель но увеличивает качество ответа (этим пользуются во время проведения бенчмарков сравнения моделей, например prompt tuning), я слышал что для этих алгоритмов количество примеров может быть еще меньше - десятки.

p.s. llama одна из лучших 'доступных' моделей (мультиязычная от 30b) но использование ее без разрешения facebook нелегально, и ее можно даже не дообучать (но рекомендуется добавлять в запрос хотя бы один-два примера, сколько позволит мизерный размер контекста в 2к токенов), с ее качеством можно буквально анализировать смысл текста простыми вопросами.

llama.cpp - код по запуску (не обучению) gpt моделей, не только llama, на процессоре (есть слабая поддержка gpu) оптимизированно на столько хорошо, что медленее дорогих сборок с gpu в десяток раз (а десктопные могут работать сравнимо с топовыми cpu), например llama30b обрабатывает 250мс на токен запроса и 500мс на генерацию (65b - 1100мс на генерацию).

Из недостатков - слабая логика и плохая детекция конца ответа (может уйти в генерацию мусорного текста), требует определять логику завершения генерации 'снаружи', например часто достаточно выставить финишным текстом ### (управляющие символы, часто встречаются в галюцинациях и могут использоваться для оформления запроса)

Answer 2 · 2023-07-03 10:14:59

по-моему, достаточно векторной близости безо всяких нейросетей
ну или обучить корпус кивордам, говорящим о ремонте, их будет штук 20 (если не 5) для официоза, и 200 для простой речи

к слову, в новомодных GTP в основе все она же, родимая
хорошо видно по казусам
просто корпус огромный и тут уже предобучение решает

Как написать нейросеть способную распознать улицы на которых ведутся работы через NLP?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт