Что прочитать или как разобраться(грубо говоря с чего начать)?

Question

holllop @holllop

Нейронные сети

Что прочитать или как разобраться(грубо говоря с чего начать)?

Я хочу найти литературу или другие источники, чтобы я мог ответить на вопросы:
1) Как нейросети ищут взаимосвязь между словами (и ищут ли вообще)?
2) Как большие языковые модели дают слову числовое значение, чтобы это был параметр (я не уверен в вопросе, я знаю, что большие языковые модели превращают любой текст в набор параметров, для обычных языковых моделей их, по-моему, получается 300. Я вот хочу понять, на основе чего или за счёт чего нейросеть превращает текст в набор параметров).

Вопрос задан 05 дек. 2024
160 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 2

4 комментария

rPman @rPman

Взаимосвязь между словами - это механизм внимания (attention), это квадратная матрица, где столбцы/строки это токены контекстного окна (8к контекст значит матрица 8к на 8к), и такая таблица будет на каждом слое трансформера (там каждый слой несколько матриц и разных преобразований, к мримеру у младшей llama их 40), где значение каждой ячейки это сила взаимного влияния токена/смысла (с каждым слоем осмысленность элемента контекста становится глубже и непонятнее) относительно позиции к другому... матрица безумно огромная, ее по всякому разряжают (она почти полностью нулями заполнена) и оптимизируют, обучая маленькую а потом дообучая после увеличения контекста (ума не приложу как это происходит)

Написано 05 дек. 2024
Vitsliputsli @Vitsliputsli

Если совсем ничего не понятно, то следует начать с алгоритма k-ближайших соседей. Ну и не забывать, что это по прежнему черный ящик.

Написано 05 дек. 2024
Максим Припадчев @Maksim_64

Vitsliputsli,
1. При чем здесь ближайшие соседи и особенности создания эмбедингов.

2. Черными ящиками нейронные сети называют, потому что это не интерпретируемые модели. Например если моя модель простая линейная то моя формула y = ах+b б где выученные парметр a - имеет прекрасную бизнес интерпретацию понятную школьнику. А вот в случае с нейронынми сетями выученные знания модели это матрица весов, где например позицию w[2,1] не каким образом не связать с ответом нейроной сети, это просто один из коэффициентов трансформации входа в желаемый вывод, и не более того.

3. Не пиши ерунды под моими ответами.

Написано 05 дек. 2024
Vitsliputsli @Vitsliputsli

Максим Припадчев,

При чем здесь ближайшие соседи и особенности создания эмбедингов...
Не пиши ерунды под моими ответами

Ни при чем.
Испугался и убежал, чтобы не затмевать свет идущий от солнце...ого.

Написано 06 дек. 2024

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 89 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 83 просмотра
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 166 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 288 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 42 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 66 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 229 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 174 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2024-12-05 14:20:47

Ищи все что связанно с transformers (архитектура deep learning).

Взаимосвязь между словами это их тема и именно она позволила создать LLM, это именно, тогда был прорыв.

Связь между словами именуется контекст. До трансформеров было например так это дополнительно зависит от архитектурного решения, что считать токеном: слово, предложение и т.д. То есть например 'Мама мыла раму', 'Мне нужно новую раму на велосипед', или что-нибудь из подвортни 'Керя ты в раму въехал'. слово 'раму' будет иметь один и тот же эмбеддинг. Так было раньше.

Трансформеры это революция они процессируют токен паралельно, и на каждом своем слое потенциально возможно обновления эмбединга слова 'раму', как и других слов. Тем самым они начали понимать контекст, иными словами эмбеддинги базируется на контексте, а не на слове.

В общем это ответ на оба вопроса. Гугли читай статьи изучай и пробуй transformers.

Answer 2 · 2025-01-15 21:29:44

Вам нужно смотреть статьи и материалы примерно с 2016 по 2021 года. Увы, но после "бума нейросетей" информационный фон полностью и безвозвратно засорил весь интеренет, и поиск толковой информации нужно проводить не в поисковиках, а в профильных лентах, а в тч архивных, авторов-инженеров.

Напрмер по вашем вопросу можно откопать отличную и подходящую статью у Deep Mind (одни из первых исследователей трансформеров) https://research.google/blog/transformer-a-novel-n... думаю, что это как раз то, что вы искали.

Что прочитать или как разобраться(грубо говоря с чего начать)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт