Задать вопрос
  • Как распознать текст, что написан нейросетью?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Нужна новая нейросеть которая будет обучена на выборке обычных постов. И на выборке ответов GPT.
    Supervized. Тоесть мы как учитель - указываем где какие.

    Простые частотные метрики текста такие как tf/idf здесь не подходят. Скорее всего. Тут нужна
    структурная. Я заметил что GPT часто выдает ответ в виде однородной структуры.
    Типа введение. Пункты перечислений. И какое-ро резюме.

    Люди обычно такой схемы не придерживаются.
    Ответ написан
    2 комментария
  • Можно ли как-то в pandas объединить два столбца по условию?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Вот тут готовое решение https://stackoverflow.com/questions/35530640/panda...

    Через fillna, isnull короче куча вариантов.
    Ответ написан
  • Будут ли просадки по производительности при реализации фильтров интернет магазина через sql intersect?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Данный фильтр - слишком избыточен. Его можно переписать через

    SELECT * FROM products WHERE id IN (
        SELECT product_id FROM filters_products WHERE 
            (filter_id = 1 AND filter_value BETWEEN 1000 AND 4000)
          OR
            (filter_id = 3 AND (filter_value = 'Intel® Core™ i5 11400F' OR filter_value = 'AMD Ryzen 5 5600G'))
          OR
            (filter_id = 2 AND filter_value = 6)
    );

    В оригинальном запросе стоял INSERSECT и по идее надо было заменять предикаты на AND.
    Но я поставил OR поскольку мне кажется что автор тоже ошибается и INSERSECT - это
    слишком строгий фильтр и пересечение с ключами 1-2-3 даст пустоту. И скорее всего
    там надо объединение а не пересечение.

    Просадки-шмосадки... Будут или нет. Никто не знает. Смотрим execution план в двух вариантах. И сравниваем.

    Еще раз я призываю всех SQL писателей - указывать целевую dbms.
    Ответ написан
    8 комментариев
  • Почему код завершается с кодом 0?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Ноль - это хорошо. Отсутствие ошибок. Если ты хочешь возвращать какие-то
    статусные коды из функции main - то ее надо объявить как-то так

    int main(int argc, char **argv) {
       return 555;
    }

    И тогда операционка увидит 555 и можно делать какую-то логику принятия решений. В Windows кажется переменная %errorlevel% отвечает за статусы.
    Ответ написан
    Комментировать
  • Как обычно делают сканирование (raycast) в играх?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Если в игре есть 1000 взаимодействующих тел - то для их "сканирований" надо как минимум посчитать пол-миллиона взаимодействий. Каждое тело может видеть или не видеть каждое. По крайней мере прямая
    реализация такого взаимодействия имеет квадратичную стоимость.
    Ответ написан
  • Как скопировать массово все сслыки на эти файлы, чтобы не вручную?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Странная задача. Зачем копировать ссылки на "то чего нет" ?
    Ценность такой информации - на уровне рандомного шума.
    Ответ написан
    5 комментариев
  • На чем можно создать оффлайн базу знаний со встроенным редактором?

    mayton2019
    @mayton2019
    Bigdata Engineer
    По топику не сильно понятно что-же на самом деле хочет делать автор. Движок или саму базу?

    У баз знаний есть одна особенность. Они обычно понятны только их создателю. Тоесть если вы хотите обобщенного решения - то берите mediawiki. Всем подходит. Но опции поиска будут - наподобие текстовых. Если какое-то очень узкое кастомное решение - то это какой-нибудь семантическйи веб (XML/RDF) но пользоваться этим и искать информацию сможет только их создатель. Зато можете искать информацию очень узко. Например "все друзья у которых есть вконтакте друг который входит в группу и т.д".

    Я вот тоже пытался делать умные базы но в конечном счете все закончилось банальным языком разметки наподобие github markup language и текстовыми файлами.
    Ответ написан
    Комментировать
  • Как в PostgreSQL хранить 16-ричные числа?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Автор пишет

    Строчкой затратно и тупо


    А кто знает расход памяти Postgresql на 1 datarow? Я не предлагаю в топике вывести формулу. Обычно ее нет
    либо она - приближенная. Но мы помним что postgresql хранит для каждой строки системные колонки.

    Документация упоминает их 6 штук https://www.postgresql.org/docs/current/ddl-system...
    Пишут что xmin и cmax - по 32 бита длиной.

    Вот. Значит торг автора между 16-ричным например и 10-ным вобщем не сильно оказывает влияние на размер строки. Я-бы предложил вообще не сильно его рассматривать. Но если кто-то нарисует нам все-таки формулу
    расчета физической длины строки - то будет неплохо.

    UPD: написал data-row. Это корректнее чем просто строка. А то непонятно.
    UPD: 16 ричное десятичное
    Ответ написан
  • Ошибка возникающая при сборке maven проекта. Какую версию Java необходимо указать?

    mayton2019
    @mayton2019 Куратор тега Java
    Bigdata Engineer
    Вот так надо.

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <maven.compiler.source>11</maven.compiler.source>
        <maven.compiler.target>11</maven.compiler.target>
      </properties>
    
            <plugin>
              <artifactId>maven-compiler-plugin</artifactId>
              <version>3.8.0</version>
            </plugin>
    Ответ написан
    Комментировать
  • Могут ли USB хабы убить компьютер?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Тут два аспекта. Первое - инфобезопасность. Тут вроде-бы все просто.

    И электрика. По электрике слабое место - питание. Хаб выглядит как слабенький удлинитель
    куда включают утюги, пылесосы и стиральные машины до тех пор пока из него дым не пойдет.
    Ответ написан
    1 комментарий
  • Какие внешние API функции может выполнять роутер?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Мой старый DSL-модем-роутер D-Link поддерживал telnet и базовые команды управления доступом. Но он лагал еще хуже чем веб и часто отваливался. Насколько я вижу в современных роутерах это не популярно.

    Но профессиональные типа Cisco всегда имеют порт управления и текстовый API.
    Ответ написан
    Комментировать
  • Что браузер может знать о компьютере?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Вопрос состоит из двух частей. Первое - собственно какие права доступа даны браузеру операционной системой. Тут - сложно сказать. Я-бы исходил из пессиместичного ответа. Скорее всего - полные права пользователя. Вот все что делает пользователь в своём хоум-каталоге - все делает браузер. Видит все-файлы и создает сокетные соединения во внешний мир. В случае чего технически может слить весь ваш home вместе с паролями и ключами и кредитками если они "просто так лежат" в файлах. Почему еще не слил - это просто вопрос нашего доверия к самому производителю.

    UPD: Дополнение. Отдельным вопросом можно уточнить что видит JavaScript машина. Тут я не специалист. Пускай веб разработчики скажут. По крайней мере нем обещали что JavaScript не имеет доступа к локальным файлам напрямую.

    И второй - какие сведенья бразуер регулярно шлет на сайты. Это проверить легко например через https://www.hashemian.com/whoami/ и вообще через любые whoami-сервисы.

    В режиме разработки в браузере - можно видеть ту-же самую инфу где-то во вкладке Network (send) кажется.
    Ответ написан
    Комментировать
  • Как получить результат из exec с русскими символами?

    mayton2019
    @mayton2019 Куратор тега Java
    Bigdata Engineer
    Точного ответа на твой вопрос сразу нельзя дать. Потому - что тут идет экспертное дерево вопросов и ответов.
    Непонятно где ты запускаешь. В среде разработки или в консоли.

    Попробуй сначала в консоли сделать так.

    C:\>chcp 866
    Active code page: 866

    Запустить приложение.

    И потом еще так.
    C:\>chcp 1251
    Active code page: 1251
    Ответ написан
    4 комментария
  • Можно ли изучить игровой движок Godot без знаний англ?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Однако godot не располагает обширного русского сообщества

    Здесь вместо godot можно подставить любую современную технологию. И если
    смотреть с точки зрения развития - то технический английский все равно нужен
    хотя-бы для того чтобы быстро читать мануалы и извлекать информацию об ошибках.

    Кстати советую вам не доверять машинным переводам. Они ущербны. Почти все.
    Ответ написан
    Комментировать
  • Насколько большая разница между Intel Core i7-1255U и Core i5-1235U в ноутбуках?

    mayton2019
    @mayton2019
    Bigdata Engineer
    До 2005 года мы жили в сладкой неге работающего закона Мура. Каждая новая покупка - удваивала производительность и играх и приложениях. Pentium, P-2, Celeron, P3, P4, Dual-Core .e.t.c.

    Сегодня - потратишь несколько кило-баксов и получишь +10% (возможно) к работе офисных приложений. И то не всегда за счет процессора а за счет других небольших увеличений. Там где-то частота шин. Там где-то просто чуть более быстрый SSD. А так ... просто покупать ради нового стикера на корпусе? Ну это как тюнинг авто. У кого синие светодиоды - тот и самый крутой в рабочем посёлке.

    Вобщем пускай i5 работает пока не сгорит.
    Ответ написан
    Комментировать
  • Зачем именно нужны связи в бд?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Нужно поговорить об аномалиях. Например в твоей системе я могу (теоретически) добавить месседж
    который не принадлежит ни одному пользователю системы. Я просто сделаю

    insert into message(9999999, -1, "Mua-haha...");

    И у меня есть пост от анонимоса который не зарегистрирован как пользователь.

    Разумеется можно полагаться на логику твоего приложения и думать что такая ситуация невозможна
    но с точки зрения БД она вполне возможна потому как родственная связь User + Message нигде не объявлена.
    И SQL позволяет это сделать.

    Чтоб поправить ситуацию надо эту связь добавить и тогда я не смогу создать фейковые посты от анонимосов.
    ALTER TABLE Message
    ADD FOREIGN KEY (userid) REFERENCES users(id);

    По умолчанию констрейнт создается с опцией restict (это было в Оракле как в Майскл - не знаю)
    и это гарантирует что невозможно также удалять родительские записи пока есть дочки.
    Для скорости ссылочные ключи всегда - индексированы.

    Рассуждать на тему вреда от аномалий - это просто терять время. Каждый владелец БД сам решает
    какие уровни строгости ему вводить. Вообще любая теория касаемая БД - по сути просто развивает
    идею строгости НФ1,2,3,4,5,6 и ссылочных ограничений.

    Будет ли виден пост от анонимосов - это тоже другой вопрос и он не имеет отношения к обсуждаемой
    теме. Ведь тема касается именно логичности данных в БД а не тем методам которые их отображают.

    По сути вопрос сводится к тому как не создавать мусор в БД.
    Ответ написан
    2 комментария
  • Безопасно ли использовать?

    mayton2019
    @mayton2019
    Bigdata Engineer
    У торрент клиентов - примерно одинаковые возможности. Кроме того их много. Можно ваш заменить на mTorrent, Azure, Transmission. На них вроде-бы жалоб не поступало.

    И вообще в данной схеме угроз не сам торрент клиент а скачиваемый контент является более опасным. Тоесть надо проверять фолдер "Downloads" более тщательно. Особенно крякнутые игры под Windows.
    Ответ написан
    Комментировать
  • Крестики-нолики.Проблемы с ходом Х?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Нет-нет дружище этот код надо выбросить. Переписывать или улучшать его нет смысла. Он плох. У тебя есть координатная сетка. Но ты почему-то не пользуешся этим а вычисляешь какие-то частные случаи.

    Вообще в изучении программирования - копирование чужого кода - это не плохо. Это вполне себе метод. Только скопировать нужно разобравшись как новый код работает. И сравнить его со своим решением. Я тоже так делал когда изучал бейсик для БД1001 или для Sinclair. Я просто копировал всякие текстовые игры-квесты и потом изменял и улучшал их.

    Найди любые крестики-нолики на С++. И в качестве критерия - код должен быть хотя-бы короче чем твой.
    Ответ написан
    Комментировать
  • Как эффективно составить гистограмму слов (big data)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Это стандартный туториал из книжки Изучаем Apache Spark. Там за 5 строчек кода ведется подсчет частоты слов.
    Ответ написан
    Комментировать
  • Насколько полезно читать книги?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Видео могут забанить или перенести куда-то в платное.
    А книгу купил - и лежит себе на полке.
    Ответ написан
    Комментировать