• Как написать нейросеть способную генерировать текст?

    @rPman
    Ты как будто отсутствовал последний год и пропустил бум ChatGPT. Этот алгоритм нейронных сетей (Generative Pre-trained Transformer) был разработан в 2017-ом 'гуглом' и 'доведен до ума' публично в OpenAI (их chatgpt4 сейчас самый продвинутый универсальный генератор текста, проявляющий признаки интеллекта).

    С помощью этого алгоритма твоя задача решается максимально эффективно (она буквально становится решаемой, до этого решения не было, были только смешные потуги).

    На текущий момент самая крутая из доступных нейронных сетей (доступные предобученные веса сети), которую можно доучивать под свою задачу или даже пользоваться как есть, - это фейсбуковская llama2 (бесплатная, с очень либеральной лицензией, позволяющая коммерческое использование), ее можно запускать на процессоре на десктопной машине с меньше 64гб ram (скорость от 1токен в секунду, слово это 1-7 токенов) с помощью llama.cpp или на машине с GPU, суммарной емкостью vram от 80Gb (я не нашел точные минимальные требования, квантизация 8бит доступна в штатном коде llama а 4-битную тоже можно но я не уверен какие проекты уже поддерживают llama2).

    Так как речь идет не о просто генераторе текста, а о генераторе, который понимает обычную речь (собственно использование gpt и состоит в исследовании способов составления запросов с целью получить наилучший желаемый результат) как инструкции к действию, твоя задача может быть решена вообще без программирования.

    p.s. самостоятельная разработка (сбор обучающих данных и обучение) с нуля подобного проекта невероятно дорогая, слабые версии имеют оценку стоимости обучения (при наличии специалистов, которые уже стали на вес золота) в десятки миллионов баксов только на оборудование (тоже дефицитное, так как используется в основном кластеры на основе оборудования nvidia, которые монополисты в ИИ и рисуют 10х стоимость не моргнув глазом а еще искусственно не расширяют производство чипов при наличии высокого спроса)

    Но если взять уже обученную сетку (веса) собрать небольшой датасет текстов под свою задачу, то тюнинг будет достаточно дешевым, вот еще со старой llama так делали
    Ответ написан
    1 комментарий
  • Парсинг Википедия на PHP. Как убрать лишнее?

    ipatiev
    @ipatiev
    Потомок старинного рода Ипатьевых-Колотитьевых
    Надо попробовать еще раз с Media Wiki API.
    У всех получается - и у вас получится.

    Парсить "в лоб" сайт, у которого есть API - это идиотизм и забивание гвоздей микроскопом.
    Ответ написан
    6 комментариев
  • На чем сейчас (локально) принято хранить долговременные данные (бэкапы)?

    CityCat4
    @CityCat4
    //COPY01 EXEC PGM=IEBGENER
    Ярославище, не поверишь, но ленточка до сих пор остается наиболее дешевым и обьемным хранилищем. В этом отношении с 1990 года ничего не изменилось, разве только магнитофоны стали намного меньше :)
    Плюсы у них как всегда - долговечность 15-30 лет и фантастическая дешевизна на гиг обьема хранения. И можно картридж спрятать в сейф, поставить печать и посадить солдата с винтовкой :)
    Ответ написан
    2 комментария
  • На чем сейчас (локально) принято хранить долговременные данные (бэкапы)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Лет 10 назад можно было на барахолках купить стриммеры HP. А кассет было много на предприятиях. Некоторые впоследствии на радиорынках продавались еще в нераспечатанном виде. Производитель лент гарантировал что-то вроде 15 лет хранения информации (при условиях правильной температуры и влажности). Это - самые длительные сроки что я видел. Размер касеты у них кажется был 20-40Гб.

    Еще Verbatim продвигал какие-то особо прочные DVD+R диски с алмазным покрытием. А по объему кажется это были 4.7G Надо посмотреть я не помню точно. Вобщем надо искать + еще покупать пищущее устройство.
    А сейчас даже ноуты продают уже без DVD привода.

    Я у себя дома храню на двух HDD дисках серии WD-Green. Конечно непонятно что делать если от времени сгорает
    контроллер но вроде как 2 сразу в один день не должны сгореть.
    Ответ написан
    2 комментария
  • Какой облачный хостинг взять для пет проекта?

    saboteur_kiev
    @saboteur_kiev
    software engineer
    Я думаю, проще взять виртуалку в каком-нить hetzner/digitalocean

    Облачные сервисы больше заточены на предоставление различных saas/paas и хороши для быстрого/автоматического масштабирования различных сервисов.
    И мне кажется, что для маленьких вещей минимальная плата там выше чем, скажем, минимальная виртуалка у более "стандартных" хостеров, где нужно будет руками поставить докер, настроить и запустить.
    Ответ написан
    Комментировать
  • Как обойти все исполнения программы?

    maaGames
    @maaGames
    Погроммирую программы
    Мьютексы, семафоры, критические секции. То есть добавь объекты синхронизации, чтобы гарантировать, что объекты изменяются упорядоченно и только одним потоком в единицу времени.
    Ответ написан
    4 комментария
  • Какую структуру репозиториев выбрать в проекте?

    VoidVolker
    @VoidVolker
    Dark side eye. А у нас печеньки! А у вас?
    • Бэк
    • Фронт
    • Мобилка
    • Либа проекта 1
    • Либа проекта ...
    • Либа проекта N

    Фронт так же можно сделать поддеревом/подмодулем бэка. Зачем выносить общий код в отдельные репозитории? Дык декомпозиция же. Удобнее работать с кучкой маленьких, законченных и более-менее автономными модулями/пакетами, чем размазывать одинаковый код по куче разных репозиториев и потом гадать что новее, старее, совместимее, оптимальнее и прочее. Да, можно сделать один общий репозиторий и держать там миллион разных модулей и прочего (ну или один большой и толстый). А потом копать кротовые норы с красными глазами в этой горе непонятно чего в поисках ошибок и нужного кода.
    Ответ написан
    Комментировать
  • Куда положить dump.sql для автоподнятия БД с нужного дампа Docker?

    @Senture Автор вопроса
    Разобрался.

    Вот мой код:
    version: "2.15.1"
    
    services:
      postgres:
        image: postgres:13.3
        environment:
          POSTGRES_DB: "username"
          POSTGRES_USER: "username"
          POSTGRES_PASSWORD: "username"
          PGDATA: "/var/lib/postgresql/data/pgdata"
        volumes:
          - ./Initer:/docker-entrypoint-initdb.d
          - usr-data:/var/lib/postgresql/data
        ports:
          - "5437:5432"
    
    volumes:
      usr-data:


    В этом случае, нужно создать директорию Initer в корне (где лежит docker-compose.yml) и в нее положить необходимый dump.sql и все работает.

    Важно!: Если папку не создать, она появится автоматически после docker-compose up. Но будет естественно пустой, и даже если сделать down, в папку положить дамп, и поднять приложение (docker-compose up) бэкап уже не накатится, т.к. БД уже была проинициализирована ранее и никакие изменения к ней применяться не будут.

    Прошу прощения за такие глупые вопросы :D
    Ответ написан
    6 комментариев
  • Есть ли универсальный модуль Python для работы с разными базами данных (mysql, postgresql, ...)?

    shurshur
    @shurshur
    Сисадмин, просто сисадмин...
    sqlalchemy вполне можно использовать как абстрактный интерфейс к базам данных, просто передавая в него строковые запросы без ORM.
    Ответ написан
    1 комментарий
  • Есть ли в мире легкая [крипто] платежная система для хобби-проектов?

    mihavxc
    @mihavxc
    Если проект ориентирован на РФ, то регистрируйтесь как саможанятный. Все крайне просто и никаких отчислений без доходов. А затем Юкассу подключает.
    Ответ написан
    Комментировать
  • Инфраструктура открытых ключей SSH?

    @pfg21
    ex-турист
    вторая строчка поиска ssh удостоверяющий центр
    https://www.8host.com/blog/sozdanie-centra-sertifi...
    оно ??
    Ответ написан
    4 комментария
  • Почему нет(?) популярного REST API для IMAP?

    Есть стандарты RFC 8620, RFC 8621 RFC 8887 (JMAP), фактически на REST API для почты и того что рядом с ней, если поищите - есть библиотеки этот стандарт реализующие, например сервер и клиент на Rust.

    По факту, это стандартизованный FastMail'ом его API, другим вебпочтам переезжать со своего давно написанного и отлаженного API на FastMail'овский причин нет, т.к. это означает что придется переписывать не только серверную, но и клиентскую часть, причем при наличии мобильных приложений использующих API какое-то время поддерживать две версии API, потому что пересадить клиентов на новый API одномоментно невозможно, а преимуществ, по крайней мере прямо сейчас нет - "универсальные" клиенты используют IMAP.

    Есть и другие документированые (но не стандартизованные) API, например у Google.
    Ответ написан
    Комментировать
  • Почему нет(?) популярного REST API для IMAP?

    Потому что IMAP - это сам себе протокол.
    Каждый почтовый сервис может для себя придумать какой-нибудь свой REST API, но все эти варианты не стандартизированы.

    Из стандартизированных есть jmap, но мало кто его использует.
    Ответ написан
    Комментировать
  • Почему MariaDB отжирает все больше и больше памяти?

    2ord
    @2ord
    1. Советую обновиться до 10.5.19 и выполнить все штатные обновления ОС - полезно на случай получения исправлений.

    2. Cудя по графику в комментариях, выглядит как утечка памяти. А что за менеджер распределения памяти используется? Я бы попробовал использовать библиотеку jemalloc.

    https://itmag.pro/unix/common/jemalloc-for-all-app...
    https://www.ibm.com/docs/en/ztpf/2022?topic=perfor...
    Ответ написан
    3 комментария
  • Как узнать dns домена на python?

    @dronmaxman
    VoIP Administrator
    import dns.resolver
    
    answers = dns.resolver.query('4pda.to.', 'NS')
    
    for rdata in answers:
     print(rdata)
    Ответ написан
    1 комментарий
  • Как встроить антивирусный движок в python?

    @rPman
    Полагаю в мире есть только один открытый антивирусный движок с условно свободными базами и обновлениями - clamav, вот его и интегрируй, либо через библиотеку libclamav либо вызывай утилиту командной строки

    p.s. альтернатива (лучше но не бесплатно, там сразу десятки антивирусов) - использовать облачные решения от virustotal, у них есть api который позволяет по хешам файлов быстро выдавать ответ (ну и заливать неизвестные)
    Ответ написан
    Комментировать
  • Как просто сделать неблокируемое взаимодействие с питоновским процессом?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Существует много техник взаимодействия между процессами. Основное ключевое слово для поиска - IPC (Inter process communications). Там дальше надо выйти за границы Питона потому что эти техники немного разные для Windows/Linux. Некоторые похожие (Network Sockets).

    Если надо просто вести учет строк в PIPE между процессами то можно так

    bzip2 -d -k -c very_long_file.txt.bz2 | pv -l > /dev/null
    Ответ написан
    Комментировать
  • Как просто сделать неблокируемое взаимодействие с питоновским процессом?

    sergey-gornostaev
    @sergey-gornostaev Куратор тега Python
    Седой и строгий
    Самое простое - писать во временный файл.
    Ответ написан
    Комментировать
  • Каким образом узнают код Телеграмма?

    dimonchik2013
    @dimonchik2013
    non progredi est regredi
    стиллером
    через клиента
    банк ломать нет смысла - ломают и банки, но оприходовать сложнее - защита получше

    симка нет, коненчо - можно и симкой, но тогда все видно будет, и прежде всего - деньги со счетов ВЖУХ

    это если знакомый не мамонт и не повелся "нажать на кнопочку"
    Ответ написан
    3 комментария