Задать вопрос
  • Стоимость трафика у AWS S3?

    @rPman
    requester pays bucket
    за чтение и запись таких будет платить клиент (соответственно анонимный доступ невозможен)
    Ответ написан
    Комментировать
  • Какой сервис озвучки самый естественный по вашему мнению?

    @rPman
    <на правах шутки>
    openai gpt4o
    Мне кажется на текущий момент это лучшая технология, которую можно приспособить для озвучки, иначе вложиться в обучение своих голосовых моделей (много текстов профессиональный диктор должен наговаривать). На грани зловещей долины, или уже вышла за нее, голос живой, да русский не идеален.

    api пока нет, доступа у всех пока нет, только 6 голосов но в некоторых пределах можно 'настраивать' их стиль, стоит 20$ в месяц, лимиты на объемы текстов в минуту, управление на естественном языке.

    p.s. у openai есть api и сервисы по распознованию и синтезу речи, потестируй их, возможно они окажутся достаточно качественными
    Ответ написан
    Комментировать
  • Как через openvpn linux клиента иметь доступ во всю подсеть?

    @rPman
    Делаешь тип сетевого подключения, создаваемого openvpn, tap (настраивается на сервере в конфиг файле строчка "dev tap").

    Отключаешь все dhcp и вообще настройки ip адрес, достаточно комментировать строки ifconfig, server-bridge и push route.
    spoiler
    можно и с ним но у меня когда то давно win7 странно глючил, являясь сервером (к нему подключался удаленный клиент), причем не регулярно, он выдавал ip адрес сетевому устройству которое часть сетевого моста, и сеть переставала работать пока в проводнике, в списке сетевых устройств, не нажать f5, как так можно было проглючить я хз, но глюк был

    Объединяешь виртуальное tap устройство на сервере и на клиенте с сетевым адаптером, который подключен к локальной сети соответственно на стороне сервера и на стороне клиента (если на клиенте нет сети то не надо).

    И да, это работает в обе стороны, т.е. так можно дать доступ к локальной сети клиента пользователям локальной сети сервера.

    В результате, после поднятия openvpn подключения, клиентский компьютер будет подключен в удаленную локальную сеть, точно так же как это бы произошло, если бы он был подключен физически к ней (по ethernet или wifi), и если роутер а точнее dhcp сервер не запрещает этого, то клиентской машине будет выдан ip адрес из удаленной локальной сети и все будет работать. ip адрес можно выдать вручную, если адрес не будет конфликтовать с ip адресами этой сети (иначе можно нарушить ее работу). Осторожно с двумя одновременно работающими dhcp серверами в сетях сервера и клиента, если желаешь объеденить их в одну, они могут конфликтовать и машинам выдавать ip адреса из своих диапазонов, и если они будут пересекаться, будут глюки. К сожалению нет красивого решения, как разграничить доступ к dhcp в разных подсетях, нужно ставить нормальный фаервол на обоих машинах (не уверен, сможет ли фаервол напрямую влиять на пакеты в сетевом мосту,. как минимум на windows нет).

    Умные маршрутизаторы в локальной сети могут ограничить пакеты от устройств с 'неправильным' mac адресом, т.е. админстратор удаленной сети может запретить такое подключение. Не очень изучал, до какой степени эта защита работает, так как mac адрес можно изменить на клиенте.
    Ответ написан
  • Как запустить программу без прав администратора?

    @rPman
    Пароль локального администратора меняется каждый день и давать его пользователю категорически нельзя. Создание других локальных администраторов тоже запрещено.
    критичные для решения твоей задачи, скорее всего красивого решения при таких ограничениях не найти.

    Если бы можно было создать дополнительного пользователя с постоянным паролем либо вместе со сменой пароля администратора, вручную менялся бы пароль у задачи в task scheduler, то достаточно было бы создать задачу в диспетчере задач, прописать что она требует повышение привилегий и указать, нужен ли доступ к консоли пользователя, если это gui.

    Некрасивое решение - запускаешь свое приложение как service, не как task, есть готовое приложение srvany.exe. Службы запускаются под заданным пользователем, без запроса логина пароля. Недостаток - служба не имеет доступа к консоли пользователя (так было во времена win7 может изменилось, проверяй), таким образом можно запускать только консольные приложения, вывод которых скрыт.
    Ответ написан
    1 комментарий
  • Как работает языковые модели и нейроны?

    @rPman
    Так как никто не ответил, коротко:
    1. Как реализуема память у языковых моделей и как ее реализовать?
    над реализацией памяти языковых моделей бьются ученые, 'бьются пожарные, бьется милиция,..' пока безуспешно, лучшее что придумали с практической точки зрения, используя instruct модели, добавляют в беседу (контекст) нужные факты в каком-либо виде каким либо способом (это основа методологии RAG, гугли). Потребует обучение дополнительной модели на создание индекса, создание не простой модели базы данных (например делают древовидную базу отношений знаний)... в общем все что позволит каким то способом выбирать из всей базы данных только те знания что нужны, и уже тут проблема, как разделить имеющиеся знания на куски.
    Если говорить про языковую модель и только про нее, знания она получает исключительно из обучающих данных, и этого недостаточно, что бы модель могла эти данные эффективно использовать, тюнат с помощью reinforced learning human feedback, собирая высококачественные датасеты вопросов и оценки качества ответов модели (хорошо плохо), с каждым шагом повышения качество модели, люди, размечающие данные, должны быть все более разносторонними специалистами... и речь идет не о той крохе, которую ты хочешь добавить в датасет, а о повторном тюнинге по всем знаниям из обучающих данных. В общем это очень дорогой процесс, сравнимый с созданием языковой модели (речь о десятках миллиолнов баксов)
    2. Как «вбить» языковой модели «личность»? А именно ее имя и стиль речи. А также правила.
    Личность языковой модели настраивают стартовым (системным) промптом и finetuning, это дообучение модели на своих данных (не сильно большом количестве), ты можешь попросить как быть гениальным физиком математиком так смешным тупицей с дефектами речи, это сработает если знание об этом уже было в обучающих данных. Это не добавление данных и знаний, а определение формата или стиля общения. Например можно скормить чат как датасет и попросить сетку продолжить общение, она будет имитировать участников.
    3. Как преобразовать текст чтобы входящие нейроны поняли запрос?
    ключевые слова - используют токенизер, алгоритм, который на основании базы текстов, настраивает словам или их частям (токенам) вектор чисел, определяющих буквально их смысло, расстояние (там могут использовать не только евклидовое как метрику) между похожими по смыслу словами будет быть ближе чем между далекими.
    Собственно все контекстное окно токенов преобразуется в рядом стоящие вектора по каждому токену, и это и есть входы нейронной сети... То же самое происходит с аудио и как я понимаю видео, оно токенизируется неким алгоритмом (качество которого очень важно, алгоритмы есть, гугли), превращаясь в вектора, описывающие смысловую единицу, и уже их набор идет как вход. И да, выход gpt это один символ - точнее таблица вероятностей, какой выбрать токен следующим (количество выходов - количество токенов)
    4. Как дать ИИ возможность к действию? К примеру воспользоваться API.
    Модели, тюненные как instruct, могут воспринимать инструкции на естественном языке, с примерами api, описанием их работы и прочее... чем лучше модель тем лучше будет результат, с gpt4 например это работает просто отлично, собственно многие сети обучают сначала на программиста (использую github как датасет) и сети уже понимаю формальные языки программирования, форматы данных, то же json/csv и т.п. и могут использовать их в запросах и ответах, если попросишь
    5. Нужно ли быть гением математических наук чтобы написать такую модель?
    Нужно быть гением в разработке ИИ чтобы разрабатывать ИИ. Не зря топовые компании мира как пылесосом прошлись по рынку и собрали букально всех до кого могли дотянуться. Если ты не крутился какое то время в нейронных сетях, то пока не наверстаешь упущенное, соваться в самый пик и мейнстрим технологий будет сложно. Одной математики тут точно недостаточно. Да и формально, это нужно тем кто пишет низкоуровневые методы, типа разработка той же библиотеки transformer (которую пилит гугл), а вот пользователям этого нужно просто понимать базовые основы математики и тервера, не нужно прям очень туда углубляться, в матанализе например можно бесконечно плавать и ни капли не коснуться чего то связанного с нейронками.
    6. Каким образом нейроны выводят нормальный ответ?
    Никто не знает. Но,если экстраполировать, используя как пример алгоритмы распознавания и классификации изображений, то построенная нейронная сеть, состоящая из нескольких слоев, на первых слоях буквально в весах содержит куски изображений в виде примитивов - градиенты, линии, кривые,.. на втором слое более сложно - фигуры, на третьем появляются более высокие понятия типа шерстинки, усы, носы, и т.п. и так каждый следующий слой нейронной сети содержит все более усложняющуюся модель данных, но чем глубже заглядываешь тем сложнее понять что есть что. Собственно в новостях мелькают различные исследования в этом направлении, то там поняли что вот этот нейрон конкретной сетки если его подергать, вот то то происходит, и 100500 страниц описания как этот нейрон обнаружить, то тут типа нашли способ заставить сетку забыть данные исключительно файнтюном и особым подбором обучающих данных и т.п. в общем народ работает, но что то мне говорит чтобы эти знания получать нужно иметь на руках приличные вычислительные мощности (именно они делают нейронки дорогими) а с мелкими сетками каши не сваришь, они не способны на что то вразумительное
    7. Как совместить 2 в 1? А точнее языковую модель и ии для распознания изображений.
    создать токенизер сразу на мультимодальные данные, собрать качественный датасет, содержащий и то и другое, собрать мощностей побольше (на пару порядков наверное чем для просто текстового ИИ) и т.п. гугли, открытые мультимодальные сетки есть и от фейсбук, и от китайцев (qwen) ну может openai какие публикации выдала...
    8. Какие именно правила обработки информации для обучения есть? (К примеру что нужно отсекать).
    ХБЗ. Главное что дало принципиальную возможность обучить современный ИИ на базе gpt - это когда перестали пытаться создать качественный и вылизанный датасет знаний, а скормили нейронке как можно больше мусора, т.е. вместо качества, взяли количеством (на пару порядков больше чем это имело бы смысл), добавив так же абсурдно много слоев и весов, затратив абсурдно больше вычислительных ресурсов, внезапно получили результат.

    Да, ИИ создали случайно, первоначально transformer загадывался как переводчик с языка на другой язык, а потом стали щупать, а он как орешки стал щелкать задачи обработки текста, классификации и т.п. а затем обнаружили что генерация бреда оказалась не такой уж и бредовой, в попытке найти закономерности в тоннах мусора, нейронная сеть сумела построить внутри себя модель интеллекта и знаний, криво, косо, глючно (через невероятно странный механизм, где добавление вероятностного механизма, т.е. буквально вместо нужной следующей буквы добавляют вероятность выбрать не самую лучшую, но это почему то улучшает итоговое качество а не ухудшает) у исследователей получилось эти знания от туда вытаскивать.
    Ответ написан
    Комментировать
  • Что за неизвестное занятое пространство в WinDirStat?

    @rPman
    В общем есть два случая, когда windirstat не должен быть способен посчитать место:
    * недостаточно прав (решается запуском под администратором с повышением привилегий)
    * shadow copy, режим теневых копий, смотреть в консоли с помощью утилиты
    vssadmin list shadowstorage
    vssadmin list shadows

    * еще есть момент, случайно так не получится, у ntfs файлов могут быть расширенные атрибуты, они могут занимать место но для получения их списка нужны специализированные утилиты, первое что нагуглилось, не проверял. На сколько я знаю если знаешь имя то можно открыть файл file_name:extended_attribute_name я так слышал вирусы себя прятали (можно сохранить так exe файл и запустить его) на практике этим мало кто пользуется официально и большого объема там не хранится
    Ответ написан
    Комментировать
  • Почему скорость работы асинхронного кода снижается?

    @rPman
    Скажи, о каких скоростях идет до и после повышения количества доменов?
    Что показывает нагрузка на процессор (асинхронный код использует в основном только одно ядро).

    Добавь подсчет количества запросов в секунду на каком то разумном интервале (например 1..10сек), по коду это просто переменная, которую увеличиваешь на 1 с каждым запросом и сбрасываешь, если остаток от деления текущего времени в timestamp на интервал в секундах изменилось, с последнего вывода, ну и выводишь значение переменной, поделив на этот же интервал.

    И главный вопрос, а с чего ты взял что сайт ifconfig.me будет отвечать тебе с бесконечной скоростью? Почти наверняка ты упираешься в какие то лимиты и тебе понижают количество запросов в секунду, через некоторое время лимит сбрасывается и твои тесты с малым количеством запросов работают быстрее.
    Ответ написан
  • Как и где легче создать свой шаблонный образ linux?

    @rPman
    Создавать qcow2 образ нужно локально на своей машине с помощью того же qemu, первоначальное создание пустого с помощью qemu-img.

    Создать образ - это установить linux внутри виртуальной машины. linux не сильно привязывает установку к железу, как это делает windows, поэтому нет никакой разницы, с помощью чего была создана установка, пусть и с помощью virtualbox.

    После настройки OS в любимой тобой виртуальной машине, ее образ можно сконвертировать с помощью того же qemu-img (он понимает наверное все существующие форматы) а так же, как вариант, сделать резервную копию любым инструментом создания резервных копий ОС, например clonezilla, изнутри виртуальной машины, полученный файл подсунуть уже qemu и создав в нем пустую виртуалку - восстановить.

    Интерфейс qemu для linux - libvirt, но если тебе однократно, то нет никакой необходимости в этом, достаточно разобраться в простых ключах коммандной строки.

    p.s. выбирай ту же архитектуру что использует провайдер vps, обычно это amd64 (x86_64), но возможны разные ситуации, вплоть до arm
    Ответ написан
    2 комментария
  • Как стримить изображение с видеокамеры, подключенной по HDMI к ПК на телевизоры в локальной сети?

    @rPman
    видеокамеры, подключенной по HDMI к ПК
    такое подключение возможно только при наличии карты видеозахвата с соответствующим входом (либо hdmi либо dvi-d, т.е. цифровой). Выбор карт определяется ее возможностями, usb карты не позволят брать несжатый поток, а дешевые не позволят адекватно настраивать качество сжатия. pci-e карты расширения по ценам начинаются от 7т.р.

    Софт - ffmpeg или vlc если нужен gui, позволяют запускать трансляции с карты видеозахвата или вести запись с перекодированием (если хватит мощности железа), кстати с ограниченной поддержкой gpu ускорения.
    Ответ написан
    1 комментарий
  • Подсчитывается ли интернет-трафик самой системой linux?

    @rPman
    Чтобы не устанавливать дополнительно приложений, просто прочитай файл /proc/net/dev, его читать достаточно удобно и глазами, и программно
    Ответ написан
  • Как создать хранилище с raid 1?

    @rPman
    raid бывают разные, под разные задачи. И да, резервировать данные можно и без raid, например простым копированием.

    Первое что нужно помнить, единственное от чего защищает raid1/3/5/6 - это от одного класса поломок оконечных устройств (в твоем случае жестких дисков) но не защитит от поломки контролера (или материнской платы) проблем с софтом или кривых рук пользователя (нажавшим удалить все).

    Для защиты от большинства проблем нужны инкрементальные бакапы с ограниченным доступом (т.е. к бакапам должен быть доступ только на чтение, кроме единственного приложения - которое делает эти бакапы).

    Теперь как - не важно, постоянно включен у тебя массив или эпизодически, делать его можно одинаково. Либо с помощью аппаратного контроллера (или целого nas или устройства в компютер raid controller), либо с помощью програмной настройки ОС

    В windows это можно сделать в свойства мой компьютер - управление компьютером - управление дисками - создать динамические тома (при их инициализации или конвертировать), можно делать сразу на основе целого диска или разделах (на разных дисках разделы должны быть одинакового размера). К сожалению майкрософт сильно ограничивает создание таких дисков, если они подключены по usb, т.е. это возможно и должно работать но почти наверняка штатно из gui создать не получится... но есть консольная gparted.

    В linux есть mdadm либо специализированные файловые системы типа btrfs или zfs.

    При отключении дисков raid массива, и последующем их включении через какое то время, сам массив может автоматически не включиться, но активация его это пара кликов мыши там же где его создавал.

    p.s. постоянное включение/выключение hdd вредит ему сильнее чем постоянная работа.
    Ответ написан
    2 комментария
  • Как правильно документировать разрастающуюся БД?

    @rPman
    Описывай все
    Очень хороший тон писать самодокументируемый код, среды разработки и всякие doxygen для обычных языков программирования, и хоть как то описывай базу данных, комментарии, правильное именование и само собой документация. Недостаточно сказать что вот тут лежат записи таких то объектов, опиши их отношения, количественные и не только ограничения, порядок участия в бизнеспроцессах и т.п.
    Ответ написан
    4 комментария
  • Как максимально сжать файлы в архиве?

    @rPman
    Уже сжатые изображения можно уменьшить только за счет понижения качества.

    Но есть надежда на нейронные сети (например сверточные или похожей архитектуры), особенно если изображения группировать по сходству и стилистики (например отдельно природа, отдельно портреты, отдельно космоснимки, отдельно снимки в микроскоп...) и для каждой группы обучать свою нейронную сеть (формально это произойдет само с одной сеткой, но такая может оказаться больше и обучаться будет дольше).
    spoiler
    Особенно хорошо это будет работать с видео (точно помню на хабре статью, где экспериментаторы сжимали видео до 20кб на кадр, получилось крипово но идея стоящая). На этом принципе кажется nvidia делает видеоэнкодер для видеочатов, со сверхнизким битрейтом (буквально пара килобайт/сек + полная передача первого кадра).


    Готовый код выуживать у исследователей, ссылок гуглится тьма но что то мне говорит в них разбираться сложно и долго
    Ответ написан
    Комментировать
  • Как найти букву, которая не является частью слова?

    @rPman
    т.е. слева и справа от буквы должен быть пробел, либо знак препинания, либо начало, либо конец строки? В такой формулировке сам поймешь как сделать?

    p.s. еще есть \b - граница слова, любая буква \w тогда регулярка /\b\w\b/
    Ответ написан
    5 комментариев
  • Как получать динамические значения из таблицы Excel через php?

    @rPman
    excel таблица залитая на google docs

    минимум 100 запросов в секунду

    скорее всего нельзя, либо это будет стоить много денег (у гугла есть тарифы на высокую нагрузку). Это просто очень не подходящий инструмент под твою задачу.

    Если убрать из списка google, то можно самостоятельно хостить headless excel (майкрософтовский офис, приложение на чем угодно, работа с activex из того же .asp) либо libreoffice, вот пример на питоне но идею я надеюсь ты понял...

    и да 100 запросов в секунду потребует от тебя уже пул серверов, так как штатно скорее всего это будет работать несколько медленнее, но пока не попробуешь не узнаешь.
    Ответ написан
    Комментировать
  • Как сделать просмотр ютуба при выключенном экране смартфона на js?

    @rPman
    firefox, приватная вкладка, вид для ПК, оригинальный youtube работает при заблокированном устройстве (иногда требуется сменить вкладку на другую перед блокировкой, закономерности не выявил).

    К сожалению видео будет загружаться и отображаться даже при заблокированном экране (т.е. будет тратиться энергия и сетевой трафик), потому что сайт, открытый в приватном окне, не знает что его заблокировали

    ну и https://wiki.mozilla.org/Mobile/GeckoView
    Ответ написан
    Комментировать
  • VPN на исходящем траффике в VPS?

    @rPman
    При наличии клиента под ОС, используемую на vpn это возможно
    Но нужно помнить что бездарности, да даже начиная с opera и google chrome, запутали народ, называя обычные прокси - vpn.

    Нужно четко понимать что за технология стоит в основе используемого vpn. Например, если для подключения провайдер vpn тебе представляет .ovpn файл, значит это openvpn, он прекрасно работает как служба на сервере как клиент и как сервер. Просто подсовываешь ему этот конфиг файл, у меня так два vpn подключения подключались с одной машины (она как сервер) за nat к двум другим (а это клиентские машины, выключались), полученные подключения объединялись в сетевой мост, т.е. все три машины получали свою локальную сеть.
    Ответ написан
    Комментировать
  • Каждые 10 сек. сайт должен получать цены с 11 бирж, но этих бирж станет больше, как распределять нагрузку?

    @rPman
    10секунд * сотни бирж - с этим справится любой асинхронный движок работы с http... если нет, меняй инструмент.

    У тебя скорее всего проблема не в загрузке, а в организации запуска процессов. Настрой таймауты, по умолчанию они большие. Отслеживай зависшие процессы или лучше всего настрой штатным php.ini длительность выполнения скрипта.

    У тебя должен быть четкий алгоритм получения следующей ссылки на загрузку, например сохраняй в базе время последнего запроса к бирже, и соответственно запрашивай N серверов, с наибольшим временем с последнего запроса со статусом - требуется загрузка,.. так же отслеживай зависшие биржи, те кто слишком давно не выдавал корректного ответа можно переводить в замедленный режим опросов (менять условие, например не чаще раз в час, пока состояние - 'не было ответа').

    Очень мало какие биржи позволят делать часто запросы, обычно там лимиты. И если тебе нужно мало валютных пар, это подойдет, но для бОльшего количества валютных пар часто для каждой нужно делать отдельный запрос, и получается что для биржи ихз будет десятки-сотни, получается значительная задержка по сбору информации для каждой конкретной валюты. Для бирж, у которых есть потоковые протоколы (для криптовалютных обычно на websocket) советую для них реализовать загрузку на нем. Форматы там у каждой биржи свои но зато оперативность получения информации - максимальная. Не нужно тратить своих ресурсов на анализ данных, не нужно долбить биржу постоянными запросами, ты получаешь информацию в тот момент, как событие произошло на бирже. Только таким способом к примеру можно собирать стаканы лимитных ордеров со всей биржи (на топовых биржах это гигабайты json в сутки).
    Ответ написан
    Комментировать
  • Флешки на 128гб работают везде?

    @rPman
    Если телек на linux и версии новее 2.6 кажется (это до 2010 года), то проблем с флешками с аппаратной точки зрения не должно быть (нет там вроде никаких проблем). Я читал что народ не мог завести в win98/me флешки при наличи usb контроллера но там речь шла про отсутствие драйверов. Важно - какая файловая система.

    Linux ext3 без проблем может быть создан на 32-терабайтных дисках.

    А вот у fat32 есть проблемы, начинаются с 64гб. gui windows уже не даст, нужно в командной строке форматировать (или это уже тоже запретили). Формально при использовании кластера в 32кб можно делать том 2тб. Такие диски могут не читаться в устройствах не на основе linux (например были плееры с прошивкой не на linux, лежит у меня такой куплен в 2005-ом кажется).

    exFAT не рекомендую использовать, старые плееры его точно не поймут. Если бы майкрософт не делала патент на свою fs ей была бы вера (так как ранее они стригли миллиарды с производителей за использование fat32 с длинными именами) поэтому производители дешевых железок тупо забивают на него и правильно делают.
    Ответ написан
  • Почему отказались от оператора GoTo в высокоуровневых языках?

    @rPman
    'Как хорошо' что в php остался goto, использовал его пару раз в жизни, для экстренного выхода из вложенных циклов. Это наверное единственный случай, где его использование оправдано и синтаксически и с точки зрения производительности.

    В других случаях читать код с goto отвратительно сложно. И да, можно придумать кучу случаев, когда для оптимизации, чтобы не городить переменные состояний и не вставлять миллионы лишних if-ов, можно подумать что goto полезен, но все равно, такой код потом мало кто поймет.

    p.s. тут народ простые switch case с пропуском break боится, типа путаются,..
    причина всего этого упрощения очень проста - людям хочется решать задачу с наименьшими усилиями, а за понижение производительности заплатим железом и энергией... пока не упремся в потолок, это будет продолжаться естественным образом
    Ответ написан
    Комментировать