• Как нейросети обрабатывают текстовую информацию?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Тут щас в ответах наговорят миллион банальностей общего плана. Конечно нейросеть не работает
    со словами. Она их просто не знает. Но она работает с входами и выходами вещественного типа.
    Какую дать ИНТЕРПРЕТАЦИЮ входу и выходу - задача разработчика НС. Можем входом считать
    букву. Можем фонему или слог. Можем - слово. Или лемматизированное слово. Или целую фразу
    или фрагмент AST. Или целый абзац текста. Все зависит от задачи.

    В последние 10 лет НС сильно рванули вперед. В особенности в части архитектур. Благо мощности догнали. Например свёрточные сети. Которые узнают картинки. Им надо просто большое число параллельно работающих ядер, которые разбирают на слои одну и ту-же картинку. Скорее всего мощности догнали и сети обработки
    естесвтенного языка.

    По поводу обработки языка, что у нас есть. У нас есть как минимум ChatGPT. У нас есть Co-Pilot.
    Надо почитать что о них пишут сами разработчики. Из каких частей и из каких архитектур они построены.

    Там будет элемент ноу-хау. Иначе они-бы так громко не выстрелили.
    Ответ написан
    Комментировать
  • Как нейросети обрабатывают текстовую информацию?

    Maksim_64
    @Maksim_64
    Data Analyst
    Вы правы каждое слово кодируется. Существует огромное количество методов кодирования для NLP (Natural Language Processing). Основной метод кодирования это представления слова в виде вектора где самая важная часть (что делает NLP возможным) при создании такого вектора слова которые используются в схожих контекстах имеют схожее но не одинаковое векторное представление. Векторная схожесть может быть подсчитана разными способами ну например Евклидово расстояние. В таком случае например вы будете иметь уникальный вектор для каждого слова где вектора с близкими Евклидовыми расстояниями будут означать слова которые используются в схожих контекстах. Что касается формата данных которые получит нейронная сеть, то каждый вектор трансформируется где каждое число трансформируется в число 0 до 1. Существует опять таки несколько техник. самая простая формула (x - min(X)) /(max(X) - min(X)), где x это каждый элемент вектора, ну и соответственно min(X) - минимальный элемент вектора max(X) максимальный элемент вектора. подобная трансформация применяется к каждому элементу каждого вектора. Это примитивный пример, для понимания идеи. Данный вопрос глубокий различные техники кодирования могут быть очень сложны и существуют не мало разных подходов для решения подобных задач. Что касается двоичного входа для нейронных сетей то ответ нет. Нейронные сети могут в том числе получать двоичные значения, но не ограничены этим, также они могут получать дискретные (целые) или числа с плавающей запятой.
    Ответ написан
    Комментировать
  • Как нейросети обрабатывают текстовую информацию?

    Слова исходного текста можно представить через "one-hot encoding" – одномерный вектор, где только 1 бит для данного слова – включён. Сколько всего в тексте уникальных слов, такой длины векторы.
    пример
    [ 1, 0, 0, 0, 0 ] Как
    [ 0, 1, 0, 0, 0 ] нейросети
    [ 0, 0, 1, 0, 0 ] обрабатывают
    [ 0, 0, 0, 1, 0 ] текстовую
    [ 0, 0, 0, 0, 1 ] информацию

    Далее возможны преобразования слов в многомерные векторы так, что слова со сходными смыслами оказываются рядом. Или вектор от "кошка" к "котёнок" оказывается параллелен и той же длины, что от "собака" к "щенок". Это называется "word embedding". Один из способов их построения называется "Word2Vec".
    Ответ написан
    Комментировать
  • Сетевые соединения?

    ProgrammerForever
    @ProgrammerForever
    Учитель, автоэлектрик, программист, музыкант
    Это два зарезервированных стандартных адреса.
    default route(:: = 0.0.0.0) и loopback (::1 = 127.0.0.1)
    Ответ написан
    2 комментария
  • Почему Doom портируют куда только можно?

    GavriKos
    @GavriKos Куратор тега Разработка игр
    Ну во первых на половину устройств его не портировали. На том же тесте на беременность его просто показали - т.е. экран теста использовался, а вычисления шли на обычном компе.
    Если еще чуть глубже погуглите - то есть статьи и про архитектуру дума. Да, там очень много интересных решений. Но по факту можно так же портировать и квейк, и вольфенштейна, и мб даже халфу с софтверным рендером. Просто дум стал в этом плане красной тряпкой для быка. Не знаю, как фраза "съешь еще этих булочек", как фото девушки для обработки изображений и т.д.
    Ответ написан
    Комментировать
  • Почему Doom портируют куда только можно?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Doom - это была одна из первых игр где была реализована в полной мере техника BSP (Binary-Space-Partition). Это позволяло в реальном времени очень быстро сортировать и рендерить полигоны без привлечения Z-Buffer. (Рендеринг был чисто прогарммный. На то время еще не было ускорителей 3Д графики и видеокарточка умела только отображать память на экран. ) Игра не была по настоящему трехмерной. А только рализовывала 1 этаж. Рендерить надо было только пол и потолок. Для каждой точки где стоял персонаж. И наклонных горизонтальных поверхностей в ней не было как раз по этой причине. Ее называли 2.5-мерной игрой. Было также много идей оптимизации вычислений. Например вместо вещественных чисел - целые 32х битные с fixed point.

    В скобках замечу что это был 1993 год и на дворе было царство Intel 286/386. Это были машины с тактовой частотой меньше ваших телефонов (Pentium только только релизнулся и еще ни у кого не был). И трехмерный Doom был прорывом. На моем тогда еще 386SX от подтормаживал но играть было можно. И со звуком для SoundBlaster. И конечно это было лучше чем Wolfenstein.

    Аналогичное было реализовано в Duke Nukem 3d. Но Дюк был менее популярен ИМХО. Были и масса других 3д игр в жанке RPG но они были не такие динамичные. Походовые в основном.

    Вобщем сегодня если вы гейм-дев то вам желательно хотя-бы ознакомиться с техниками оптимизации которые были в Doom. Можно почитать и про Quake но это просто развитие идеи BSP деревьев для полного 3D с 5 или 6 степенями свободы. Еще можно почитать про реализацию игры Esctatica. Там не на полигонах а на шариках или эллипсах реализована игровая графика. Тоже интересно.

    UPD: Заменил MMORPG на RPG.
    Ответ написан
    6 комментариев
  • Почему так популярны телеграм боты?

    trapwalker
    @trapwalker
    Программист, энтузиаст
    Ботов писать относительно просто, порог вхождения минимальный по сравнению с программированием под iOS и андроид, да и проще написания десктопных приложений с GUI, а в использовании боты проще, чем утилиты командной строки.
    Зато в результате может получиться довольно функцинальная штука. Легко настроить многоэтапную диалоговую коммуникацию с пользователем, получить для обработки изображения и фото, возвращать ссылки на скачивание результатов.

    Так вооот! Из-за этого невысокого порога вхождения развелось куча "курсов" программирования для чайников, которые первым упражнением, полезность которого удается легко показать ученикам, выбирают написание бота.
    И так у этих коуч-питонистов легко всё получается (ещё бы, надо де продать курс с первого бесплатного занятия), что у незадачливых школьников появляется неиллюзорная вера в себя и они бегут повторять увиденное на ютубе, а потом, когда, конечно же, то-то идёт не так как показано в видосе, они бегут сюда спрашивать как всё надо сделать, чтобы работало.

    В общем все хотят всё и сразу, и чтоб легко, бесплано и не надо было учиться.
    Ответ написан
    Комментировать
  • Как можно улучшить модерирование?

    0xD34F
    @0xD34F
    Через форму обратной связи изложить администрации свои гениальные идеи (нет, это не насмешка, не сарказм - там такой пункт есть в выпадающем списке "тема"). Дальше надеяться, что администрация вас услышит, согласиться с услышанным и укажет модераторам на необходимость смены поведенческих паттернов.
    Ответ написан
    2 комментария
  • Есть ли простой аналог btfs для windows?

    @rPman
    Для начала майкрософт болт забили на продвинутые возможности, а те крохи что они делают - делают только в серверных ревизиях, огородившись высокими ценами.

    В теории есть возможность попробовать реанимировать проект типа такого https://winfsp.dev (это полный аналог fuse через который реализован btfs) и написать свой модуль, воспользовавшись исходниками для linux,.. сложность я думаю понимаешь?

    Ну и конечно, я если честно удивлен что у тебя в принципе btfs работает, стабильность решения должна быть ниже плинтуса.

    p.s. плеер понимающий все протоколы, включая http, для windows - media player classic
    еще есть mpv, он даже youtube и куча других сайтов понимает
    Ответ написан
    Комментировать
  • Как поставить Linux на смартфон?

    vabka
    @vabka
    Токсичный шарпист
    Дистр общего назначения типа дебиана, нативно, и с поддержкой всей периферии - точно нет.

    Железо у телефонов сильно специфичное и требует кучи проприетарных драйверов, которых как правило нет в ядре.
    На телефонах даже нет EFI, по тому загрузить даже что-то минимальное типа busybox очень нелегко (
    https://github.com/aligator/init-linux-beside-android
    )

    В теории можно запускать полноценный Linux внутри android:
    https://medium.com/@quantvc/running-debian-on-andr...

    Я бы оставил эту затею и взял бы лучше какой-нибудь одноплатник
    Ответ написан
    9 комментариев
  • Как массово исправить ошибки в файлах?

    firedragon
    @firedragon
    Не джун-мидл-сеньор, а трус-балбес-бывалый.
    Как то так, правда
    CheckSpellingAndPrint.ps1
    $word = New-Object -comobject word.application
    $word.visible = $true
    $path = "c:\fso\*"
    $files = Get-ChildItem -Path $path -Include *.doc
    foreach($file in $files)
    { 
    $file.fullname
     $doc = $word.documents.open($file.fullname)
     $doc.checkSpelling()
     $doc.checkGrammar()
     $doc.save()
    # закомментируйте что бы не выводило на печать
     $doc.printOut()
     $doc.close()
    }
     $word.quit()
    Ответ написан
    Комментировать
  • Как защитить сайт от копии-подделки с рекламой?

    я бы написал в google, была похожая ситуация, они оперативно выкинули подделку из органического поиска, думаю и забанить в рекламе тоже могут, если он там рекламируется.
    Ответ написан
    2 комментария
  • Как получить ссылку на полную картинку с гугла encrypted-tbn0.gstatic.com/images?

    Grinvind
    @Grinvind
    Помогаю увеличивать трафик с поисковых систем
    Поискать в Яндексе/Гугле дубликаты.
    По вашей ссылке никак.
    Ответ написан
    Комментировать
  • Как вы решаете проблему циклических импортов?

    orders и payments должны лежать внутри одной модели.
    Если кода много, то можете вынести эти структуры в отдельный пакет, посвященный только внутренним структурам данных, это и будет та самая одна модель.
    пакет structures: типы orders и payments
    пакет orders: импортирует structures
    пакет payments: импортирует structures

    А в целом, в го связанность кода (и кольцевые импорты вместе с ней) принято разрушать через использование интерфейсов.
    У вас в идеале должны быть пакеты с моделями, в которых должны лежать внутренние типы данных и объявлены интерфейсы к внешним источникам типа баз данных, итд.
    Внутри пакета базы данных у вас должны импортиться структуры данных из модели и производиться конверсия сырых данных в структуры модели. А сама база данных в модели объявлена через интерфейс, поэтому пакет базы не приходится импортить.
    Такая схема дает еще плюсы, что легко тестить модель, подменяя базу моками.
    Ответ написан
    Комментировать
  • Какой менеджер базы данных для MS SQL выбрать?

    vabka
    @vabka
    Токсичный шарпист
    Datagrip
    Ответ написан
    Комментировать
  • Регулярные письма с темой Report Domain - как избавиться?

    suffix_ixbt
    @suffix_ixbt
    https://www.babai.ru/
    1. Вам приходят отчёты dmarc на ту почту что указана в rua соотвествующей вашей записи в dns.

    2. Делать так чтобы письма не приходили ни в коем случае не надо, можете просто сменить ящик почты где Вам будет удобно их принимать.

    3. Отчёты нужно периодически смотреть. Есть куча онлайн конвертилок из этого машинного вида в человекочитаемый формат.
    Ответ написан
    4 комментария
  • Как настроить логирование Django + Celery с помощью RotatingFileHandler?

    @Sazoks Автор вопроса
    Я нашел ответ на свой вопрос!

    В общем, все дело в том, что когда мы прописываем строчку
    os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'company.settings')
    в celery.py, процесс celery-воркера получает модуль logging (который является singleton'ом) со всеми настройками django и LOGGING из settings.py. Поэтому процесс django и celery-воркера имеют общие настройки logging (celery только еще своего добавляет). Из-за этого они захватывают файлы логов друга друга. Так вот собственно решение. Все дело в том, что windows запрещает переименовывать файлы (при ротации логов), если файл занят другим процессом, а линукс - нет :) Так что все настройки логирования celery можно спокойно прописывать в settings.py, но если запускать это дело под linux'ом.

    Чем это может быть опасно

    В моем случае у меня для каждого процесса свои файлы логов, что логично и правильно. Однако один процесс может удалить/переименовать файл, который использует в это время другой процесс. Другой процесс об этом не узнает и могут быть большие проблемы. Но если процессы работают только со своими файлами, не трогая другие, то проблем не будет.
    Ответ написан
    Комментировать
  • На кого идти учиться, если хочешь создавать беспилотные автомобили?

    sergey-gornostaev
    @sergey-gornostaev
    Седой и строгий
    На математика.
    Ответ написан
    Комментировать
  • Как занять домен первым?

    @TheBigBear
    СтарОдмины мы
    Даже не пытайся
    Боты за такими освобождающимися доменами следят
    Я как-то ради прикола решил один ненужный домен так с одного на другой договор в NICе перехватить
    Сидел в обоих договорах одновременно. Только домен освободился - сразу пытался зарегистрировать в другом договоре. Фиг вам! Домен уже кем-то зарегистрировался и на следующий день висел новый сайт с надписью "Этот домен возможно продается. Связь с владельцем ЗДЕСЬ"
    Ответ написан
    6 комментариев