Ответы пользователя mayton2019 по тегу «Нейронные сети»

Как автоматически создавать большие отчёты из множества docx файлов?

mayton2019 @mayton2019

Bigdata Engineer

В общем задача типичная, у компании за год из разных отделов прилетает по 100+ отчётов с разным содержанием, в конце года необходимо создать один большой отчёт о всей проделанной работе на 300+ страниц, делали это вручную, но сейчас решили автоматизировать процесс, возник вопрос - как это реализовать?

Для нейронных сетей не свойственен "детерминизм". Тоесть дважды поставленная одна
и та-же задача для НС будет иметь 2 разных результата. Это свойство НС очень важно
например если вы их путаете с Lisp/Prolog и прочими экспертными системами которые
внутри себя действительно содержали if-else логику а НС так не работает. Она - "шумит".
Она завист от random генератора и этот генератор является ее базовым свойством.
Его принципиально нельзя отключить даже при 0 температуре алгоритмов НС.

Но если у вас есть программисты которые в состоянии написать парсер 100+ документов
с использованием НС и протестировав его доказать что результат правильный - то это
будет более верная стратегия. Подумайте в эту сторону.

Ответ написан 18 апр.

Комментировать

Возможно ли точно вычислить степень влияния ИИ в книгах и кино?

mayton2019 @mayton2019

Bigdata Engineer

Я тоже думал над этим вопросом.

Я думаю что можно оценить влияние ИИ на текст как близость текста к учебному датасету.
И чем ближе ответ ИИ к учебке - тем с большей вероятностью он создан ИИ.

И чем дальше - тем он более нестандартный и очеловеченный

Как видите, для ответа на вопрос вам придется потрудиться. Как минимум собрать всю библиотеку Гуттенберга,
всю Британскую Энциклопедию, Фейсбук, Stackover e.t.c. :)

Ответ написан 06 янв.

1 комментарий

Транскрибирующие все что есть - программы и нейросети — есть ли такие?

mayton2019 @mayton2019

Bigdata Engineer

Лучше параллельно все записывать в аудио. Диктор может шепелявить, гундосить или бубнеть
и там ни одна нейросеть не поймет потому что она не в контексте.

А вы, как слушатель - в контексте. Вы - знаете что ожидать от невразумительного мычания.
Поэтому НС идут своим чередом. Но аудио придется тоже хранить.

Ответ написан более года назад

4 комментария

Какие есть решения на 2024 год для определения дубликата изображений на PHP?

mayton2019 @mayton2019

Bigdata Engineer

Вот хорошая статья в хабре была https://habr.com/en/articles/120562/

И вроде алгоритм не сложный.

Ответ написан более года назад

7 комментариев

Какая лучше нейросеть подходит под поиск нужных частей (подходящей части звонка)?

mayton2019 @mayton2019

Bigdata Engineer

1 коммутатор прислал часть А 8600100 Б 8700100 длительность 50сек время вызова 2024-08-03 12:51:00
2 коммутатор прислал часть А 8600100 Б 8700100 длительность 49сек время вызова 2024-08-03 12:51:00
3 коммутатор прислал часть А 8600100 Б 8700100 длительность 50сек время вызова 2024-08-03 12:51:01

Данная постановка для нейросетей выглядит достаточно ... натянутой что-ли.
Обычно НС мы внедряем тогда, когда у нас нет возможности описать логику на if-else.
В твоем-же случае если вектор параметров представить как { x1, x2, x3, x4 }, то
нам достаточно проверить что параметры x3, x4 попадают в окрестность некого времени "эпсилон"
(равной 1 секунда например) и после этого задача сведения трех записей в одну группу решается элементарно.

Для более обобщенных случаев почитай про метод кластеризации (машинное обучение ) https://ru.wikipedia.org/wiki/%D0%9A%D0%BB%D0%B0%D...

Но он в свою очередь потребует для твоих векторов { x1,x2,x3,x4 } ввести некую меру дистанции
чтобы понимать насколько далеко один вектор убежал от другого (и не только по длительности звонка
но и возможно по номеру А и Б).

Это все сложные методы и я все таки повторю что лучше твою задачу решить простым способом
если твой преподватель конечно не требует таких извращений.

Ответ написан более года назад

1 комментарий

Нейронные сети - как правильно подсчитать производную функции?

mayton2019 @mayton2019

Bigdata Engineer

Первое замечание по картинкам. Ты видишь какой у тебя масштаб по OX, и по OY ? Там 10-кратная разница
в цене деления. Как ты в таких условиях можешь адекватно оценить величину производной на графике?

Ответ написан более года назад

Комментировать

Питон,нейросеть, алгоритм выхода из лабиринта?

mayton2019 @mayton2019

Bigdata Engineer

Автор ищет функцию следующего вида.

def (pointA : point, pointB : point, figures : list) -> list

На вход приходит например точка А. Это где мы стоим. И точка Б - это выход из лабиринта.
Это впрочем мое видение задачи. Можно и изменить. И список фигур (полигоны) третьим
аргументом. И результат - список координат - траектория движения. Как выбежать из лабиринта.
Если решения не существует (например мы огородили точку А кольцом камней) то функция
должна вернуть например None.

В классическом варианте движение из точки А в точку Б в лабиринте реализуется на клеточном
поле алгоримом Волны или Волновым алгоримом.
https://habr.com/en/search/?target_type=posts&orde...]

Для нашего случая, поверхность надо покрыть сеткой в любым достаточно грубым разрешением
чтоб просто задача была решена. Это прозаично и работает.

По поводу нейросетей. Тема модная и не сходит с топ обсуждений.

Я предлагаю вместо нейросетевого решения обсудить кейсы когда решения не существует
а НС об этом не знает или не умеет такое детектировать. Если мы будем подмахивать нейросети
и подсовывать ей заведомо легкие решение (нет сплошной стены из фигур вокруг точки А например).
то это решение будет туфтой. И также туфтой будет нейросеть сколь бы умно она не выглядела.

Почему я решил пойти от негативного кейса? Мне кажется это - вопрос интересный и дискуссионный.
Это как доказательство теоремы. В случае алгоритма волны - это возможно. Если волна заполнила
все пространство вокруг А и не достигла Б - значит решения нет.

Кроме нейросетей есть еще комбинирование рандомных решений с улучшениями (генетические
алгоритмы). С точки зрения лабиртнта это выглядит как построение большого количества
случайных путей из точки А в точку Б с отбором тех путей которые
- которые короче другие
- которые не пересекают края фигур

Для генетики признаком невозможности найти решение будет скорее всего количество эпох
после которых мы так и не получили маршрут от А до Б без наезда на зеленые фигурки.

Ответ написан более года назад

Комментировать

Существуют ли нейросети для воксельных 3D-объектов?

mayton2019 @mayton2019

Bigdata Engineer

Давным давно, когда еще не было такого огульного использования нейросетей, как сегодня,
я читал про преобразование Радона. Оно позволяет по одной проекции восстановить
больше измерений наблюдаемого объекта. Например как в томографе.

Но для того чтоб восстановление было точным - надо много раз поворачивать камеру и снимать
наблюдаемый объект с разных углов.

В класическом варианте Радон описан как одномерная функция y=f(x) но для твоего варианта
надо просто дать больше измерений на вход (фоток). И камеру крутить тебе надо не
по кругу как в томографе а со всех всевозможных углов по Эйлеру. На выходе будут вещественные
вокселы. (они будут все завсечены но с разной интенсивностью). Какие-то сильнее и какие-то слабее.
И если прогнать их через трешолд то получится вполне себе точная 3Д модель.

Ответ написан более года назад

2 комментария

Как сделать нечёткую кластеризацию текстов?

mayton2019 @mayton2019

Bigdata Engineer

Тебе нужно во первых поставить задачу в терминологии векторов (VectorDb, spark.mlib, pandas).
По сути надо сделать top 3 максимально близких жанровых вектора к текстовому описанию игры.

SELECT 
 distance(v_genre, v_game) as dist, genre, game 
FROM
 genres, games
.....
 (select top 3 by dist for each game)

Ответ написан более года назад

Комментировать

Где хранится информация и откуда её берет нейросеть для ответа?

mayton2019 @mayton2019

Bigdata Engineer

В самой нейросети. Нейросеть - это и есть память. Она конечно загадочным образом сочетает
в себе и память и процессинг но в этом вся идея.

Ответ написан более года назад

Комментировать

Какие простые, "бытовые" задачи подходят для изучения машинного обучения?

mayton2019 @mayton2019

Bigdata Engineer

Машинное обучение (ML) это над-множество задач типа классификация, регрессия, кластеризация
и детектирование аномалий. В последнее время очень часто идет подмена понятий и вместо ML
задач все время подсовывают нейронные сети, хотя они закрывают некое под-множество этих
же задач.

Вы совершенно правильно ставите вопрос говоря

Но зачем мне инструмент машинное обучение если я и сам могу сравнить все исходные массивы, и найти тот, что совпадает?

В этом есть инженерная мысль - решать задачи подходящим инструментом. И если ВАША задача решается
методами базовой линейной алгебры (скалярное произведение векторов)
или мат-статистики то и решайте ее так как удобно.

Сама по себе идея например применять нейронные сети не плоха, но с точки зрения экономического расчета
может быть полностью провальной ведь для хорошей НС - вам надо купить хостинг у гугла с процессорами
тензоров например. А зачем это делать если вы и так решаете вашу задачу просто линейной логикой
(набором if-else)?

Ответ написан более года назад

3 комментария

Как изменить текст в звук оффлайн?

mayton2019 @mayton2019

Bigdata Engineer

espeak

Ответ написан более года назад

Комментировать

Как найти дубликаты новостей, полученных из разных источников?

mayton2019 @mayton2019

Bigdata Engineer

Так-же как и в индексировании документов. Строится некое векторное представление документа.
И потом похожие векторы - указывают на одинаковые (99.9%) документы. Методик векторизации
много. В основном это токенизация слов и свертывание их к хешу.

Ответ написан более года назад

2 комментария

Как преобразовать текст (эмбеддинги) в вектор фиксированной длинны?

mayton2019 @mayton2019

Bigdata Engineer

Посмотри как в Spark/Databricks работает HashingTF https://spark.apache.org/docs/3.5.0/ml-features.ht...

И еще посмотри ссылки от Feature Hashing https://en.wikipedia.org/wiki/Feature_hashing

Ответ написан более года назад

2 комментария

Есть ли свободные нейросети улучшающие качество звука?

mayton2019 @mayton2019

Bigdata Engineer

Начни с обычных фильтров. Когда поймешь какой фильтр работает и дает эффект - то тогда сможешь оценить
качество работы нейросетей. В противном случае получается что нейросеть что-то там сделала а как
сделала - непонятно. В большинстве случаев людям достаточно убрать шум или фон или звукового сопровождения.

Ответ написан более года назад

Комментировать

Какая библиотека быстрее- tensorflow,pytoch,keras,matlab?

mayton2019 @mayton2019

Bigdata Engineer

Matlab - это старое десктопное приложение. Оно создавалось для работы на конкретной рабочей станции
(десктоп) и скорее всего не сможет использовать ресурсы облака или кластера. По оставшимся
библиотекам tensorflow,pytoch,keras я не знаю. Я-бы почитал их стек технологий. Возможно они совместно
используют общие библиотеки и тогда вопрос надо переформулировать или свести к общим зависимостям.

Но в целом когда говорят о скорости - вопрос звучит обычно так - параллелится ли в облаке алгоритм и
параллелятся ли данные. Если да - то только ваш кошелек ограничивает скорость.

Ответ написан более двух лет назад

6 комментариев

Нейросеть без библиотек. Как можно реализовать?

mayton2019 @mayton2019

Bigdata Engineer

Если сфокусироваться на решении задач про созданию простой двухслойной нейросети то тебе
нужна матрица и вектор и операции над ними. И активационная функция. И функция обучения.

Вот это все

neuron
layer
network

я-бы на твоем месте не делал. Это уже архитектура и интеграция. Если развивать проект дальше.

И ты должен сам себе ответить на вопрос - что ты хочешь изучать. ООП или нейросети.
Нейросети это тяжелая тема. Там много экспериметов. Много разочарований. Много работ
дата-инжениринга по сбору и фильтрации входных данных. И этого всего настолько много
что для ООП там уже сил не остается. Тоесть твоя декомпозиция задачи на 3 класса на старте
тебе ничего пока не дает. Но обязывает тебя очень многому.

Я-бы предложил делать прототип в олипиадном стиле.

По поводу примерв. На гитхабе я находил много туториалов и пробных нейросетей на сях
созданных в рамках обучения. Я искать их не будут. Я думаю ты сам найдешь.

Ответ написан более двух лет назад

2 комментария

Возможно ли сделать нейросеть, предсказывающую рост и падение криптовалюты?

mayton2019 @mayton2019

Bigdata Engineer

Скорее нельзя. Мы не можем учесть влияние "черных лебедей". Войны. Торговые санкции. Конфликты.
И всякие локальные события например биржи Binance. Или какие-то мутки у разработчиков протокола
криптовалют. Или баги в самом протоколе. Настроение в обществе. Мода. Слухи. Паника.

Тоесть глядя на курсы валют мы видим не все факторы а только часть. И такое предсказание получается
неточным.

Ответ написан более двух лет назад

1 комментарий

Как присвоить мусорным описаниям книг дефолтную рубрику в датасете?

mayton2019 @mayton2019

Bigdata Engineer

Непонятна проблема. Ты пишешь

а есть такие по которым точно нельзя

Ну если нельзя точно - тогда делай нечетко. Ввведи метрику близости. Пускай это будет дистанция
по Левенштейну или по bi-gram, tri-gram. И раскладывай книжки по дистанции.

Вообще я-бы ввел рубрику "Прочее" и спокойно бы туда положил весь остаток.

Это знаешь как в зоологии. Когда открыли Австралию и узнали что среди животных есть утконос
- то пришлось всю классификацию зверей переделать. И ни у кого не было желания
впихивать бедного утконоса к утками или к барсукам.

Ответ написан более двух лет назад

Комментировать

Как борются с взломом нейросетей?

mayton2019 @mayton2019

Bigdata Engineer

Существует только один способ улучшать работу нейросетей - продолжить обучение на новых данных.

Сам термин взлом здесь не применим. НС оперируют нечеткой логикой поэтому никакого взлома
нет. Есть просто детерминированное поведение выхода в зависимости от входа.

Ответ написан более двух лет назад

Комментировать

Войдите на сайт