Задать вопрос
  • Как дублировать элемент внутреннего массива в двумерном массиве?

    mayton2019
    @mayton2019 Куратор тега Java
    Bigdata Engineer
    Масствы в Java - достаточно статичные и жесткие чтобы их растягивать. Обычно создают новый массив нужного размера (в твоём случае это удвоенный размер) и старые данные копируют с удвоением.
    Ответ написан
    Комментировать
  • Как реализовать рекурсию в UML (диаграммы классов)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Напомню что UML - это набор различных способов описывать сущности мира информатики. И типов диаграмм бывает много. Под данную задачу подходит и реляционная диаграмма и диаграмма классов.

    В обоих из них можно изобразить стрелочкой или агрегацию (для классов) или связь child-parent как ссылочный
    ключ в таблицах.

    В случае с классами достаточно просто описать что поле имеет тот-же тип что и сам класс. Это будет всем понятно.
    Ответ написан
    Комментировать
  • Имею базу в формате txt размером 2gb, как отсортировать по количеству символов на строку?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Это задача на смекалку. Тут на самом деле сортировать не надо. Тут нужен роутинг слов в разные файлы.
    В 1 проход делается. Разумеется мы должны предполагать что в 2Гб файле будут не сильно длинные строки.

    Допустим для среднего текстового файла 80 символов на строку (стандарт такой был в 20м веке) мы получим
    80 файлов.

    По смыслу это похоже на сортировку подсчетом. Это когда кардинальность выборки крайне низка. Гендер например.
    Ответ написан
    Комментировать
  • Имеется ли разница в мобильном Java приложении между double и int в JSON ответе?

    mayton2019
    @mayton2019 Куратор тега Java
    Bigdata Engineer
    Вобщем вики пишет по поводу самого стандарта JSON:
    Number: a signed decimal number that may contain a fractional part and may use exponential E notation, but cannot include non-numbers such as NaN. The format makes no distinction between integer and floating-point. JavaScript uses IEEE-754 double-precision floating-point format for all its numeric values (until later also supports BigInt[24]), but other languages implementing JSON may encode numbers differently.


    Вобщем получается что стандарту пофиг. И интерпретацию числа он отдает на откуп программным средствам.
    И мне кажется что Андроид здесь вообще не при делах. Это слишком общее понятие. Гораздо важнее какой JSON-парсер вы используете в коде. Всего парсеров - огромный вагон. Но я вот регулярно использую 2 из них.
    - Google GSON.
    - Jackson
    Вот попробуйте распарсить ваш документ с использованием г-сона и джаксона и посмотрите что будет на выходе. Там почти всегда рекурсивное дерево из таких шаблонов LinkedHashmap[String,Object] где вместо обжекта будет стоять то что вы ищете.
    Ответ написан
    4 комментария
  • Реализация автоматического обновления БД?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Если в нерабочее время - то можно было-бы убивать тестовую базу ночью. Копировать все датафайлы продуктовой. И стартовать ее снова. Ну там.. внеся какие-то косметические изменения в конфиг если надо.

    Это самый быстрый способ IMHO. Но я его использовал под Oracle. Как будет комфортно для MySQL - чорт его знает.
    Ответ написан
    Комментировать
  • Случайно удалил ~/.local/share папку. Забыл, что там может быть критичного?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Это хорошая практика для очистки от хлама. Мы так выводили старые сервера из эксплуатации. Отключим в пятницу. Если до четверга никто не закричал - то сервер не нужен. И парочка таки оказалась не нужна.
    Ответ написан
    3 комментария
  • Что я делаю не так, и почему нейросеть не генерирует уникальный текст?

    mayton2019
    @mayton2019
    Bigdata Engineer
    А откуда вытекает утверждение об уникальности? На самом деле я не знаю. Но мне интересно, понимает ли автор свойства своего кода.
    Ответ написан
  • Какая физика нужна разработчику игр?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Разработчик геймдева должен знать хорошо классическую механику. Я вот лет 15 назад пытался создать свою игру. Эдакий гибрид танчиков и майнкрафта но не вышло. У меня не хватало просто времени чтобы опробовать свои решения в части например взаимодействия твердых тел. Да и боюсь уже никогда не будет. Семья. Работа.

    А в современных играх есть механикка жидкостей (флуидов) газов и таже тканей. Есть фреймворки наподобие PhyzX, Bullet но я-бы за них брался только после того как сам пойму как эта физика работает. Иначе вместо красивой игры можно сделать слайд-шоу и загрузить процессор расчетом молекул. А геймеру что надо? Ему вообще физика собсно не надо. Ему нужна эффектность. Тоесть там где не тянет CPU - надо просто добавить эффект ПОХОЖИЙ на физический.
    Ответ написан
    Комментировать
  • На чем лучше делать ML-движок/модель - на Python или C++? Где библиотек больше и т.п.?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Практически все т.н. "движки" пишуться на C/C++. Это связано с перформансом. Но к ним делаются библиотеки доступа из других языков. Например Python, Java, e.t.c.

    Но сам вопрос поставлен очень безграмотно. Много гонора и мало представления о предметной области в целом. Автору я очень сильно советую найти настоящего специалиста ML и поговорить с ним.

    Меньше амбиций и гонора. Больше конструктивных вопросов. Что делаем? Какой объем обучающей выборки? Какие факторы? Какого класса обучение делается. Классификация? Прогнозирование? Рекомендательные системы?
    Ответ написан
  • Что означает знать архитектуру x64?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Тут зависит от того какая позиция. Может это инженер-системотехник? Тогда надо знать железки которые окружают. Если это разработка встраиваемого ПО - то надо знать ассемблер или Си с учотом целевой архитектуры. А может это безопасник? Тогда надо наверное знать уязвимости софта на этих архитектурах.
    Ответ написан
    Комментировать
  • Какой самый быстрый алгоритм поиска в массиве непересекающихся отрезков, поиск отрезка внутри которого лежит точка?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Ваше решение O(ln(n)) - это очень хорошее решение. Пускай оно и будет.

    Для других оптимизаций нужно строить дополнительные структуры данных. Например хеш таблица которая режет пространство отрезков на линейную последовательность равных кусков и для каждого куска хранит просто список ваших отрезков. Будет некоторая избыточность зато у вас есть почти O(1) и есть механика плавного регулятора. Тоесть вы можете балансировать сколько вам отдать памяти под хеш таблицу и сделать результат более точным. Или наоборот сэкономить но сделать чуть-чуть O(n). Мне почему-то фантазия подсказывает какие-то золотые сечения и теорему Котельникова ... ну вобщем у вас есть широкое пространство для творчества.
    Ответ написан
  • Какую книгу прочитать про SQL?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Изучать SQL как сферический язык в вакууме - нет особого смысла. Особенно если ты спрашиваешь про хинты. Хинты - это опция конкретной реализации DBMS. У Оракла - свои хинты. У Microsoft - свои. И знания между ними - совершенно не переносимые. И сами хинты кажется не стандартизированы в SQL стандарте. Здесь я могу ошибаться - пускай знающие подскажут.

    Вобщем если ты где-то уже работаешь и вы используете конкретную БД - то бери и читай по ней.

    Я в своё время тоже искал теоретическую литературу по оптимизации SQL. Нет толком ничего. Есть Ден Тоу. Настройка SQL для профессионалов. Он пытается подогнать под оптимизацию свою теорию. Считает селективности и кардинальности для суб-запросов и рисует "облачки" - диаграммы пытаясь вывести формулу cost. Но это всё не работает. Это разбивается о практику. Ни одна практика Oracle/PG/MSQL/MySQL не подрверждает эффеткивности диаграмм Тоу. Вобщем я зря потратил время на чтение этой книги. И тебе не советую.

    Бери конкретные книги от вендора и по ним смотри.

    И в твоём вопросе не хватает еще одного хеш-тега.
    Ответ написан
    Комментировать
  • Выучил синтаксис языка. как использовать его на практике?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Синтаксис языка это просто некая надводная часть айсберга. Помимо синтаксиса есть еще такие вещи как
    - runtime
    - экосистема библиотек
    - best practices
    Ни один учебник языка обычно не в состоянии охватить эти все вещи. Да и не надо пихать в учебник. А чтобы испольовать на практике - надо найти команду которая что-то делает и влиться в нее на добровольных началах. Побыть учеником. Юнгой на корабле. Тебя будут ругать бить и пинать. Но это нормально. Только так. Из самых низов можно чего-то достичь.
    Ответ написан
    2 комментария
  • Как системы поддерживают сохранность данных в blockchain?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Для контроля целостности всего блокчейна используется другая структура данных - Дерево Меркла. Она обычно хранится рядом с блоками и закрепляет контрольные суммы для всех блоков сразу. На вершине дерева стоит главная контрольная сумма которая закрепляет всю известную историю блоков. Поэтому проверить расхождение двух хранилищ очень просто. Достаточно обратиться к дереву. Так-же просто понять где чейн оборвался и очень просто понять как его восстановить и продолжить дальше реплицировать.
    Ответ написан
    Комментировать
  • Как улучшить цикл for?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Обычно при улучшении (рефакторинге) ставятся две разных задачи. Первое - это улучшение читабельности кода.
    И второе - это улучшение производительности (пропускной способности или времени отклика).

    Это две задачи на каком-то этапе противоречат друг другу. Есть график (кривая Шипилева) который это демонстрирует.
    Ответ написан
    Комментировать
  • Как работает умножение вероятностей?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я могу понять вероятность возникновения либо события A, либо события B. Очевидно, что это сумма их вероятностей. Но вот с произведением всё никак не могу разобраться.

    Ты ошибся.

    Если вероятность события P(A) = 0.6 и P(B) = 0.7 то по твоей логике мы получаем величину больше 1.0 после суммирования. А это невозможно. Значит что-то не так.

    Суммируется не ВЕЛИЧИНА вероятности. А ищется вероятность
    - совместного наступления независимых событий
    - появления хотя-бы одного из двух независимых событий или двух одновременно

    И дальше идут формулы полной вероятности и Байеса для со-зависимых событий.
    Ответ написан
  • Как измерить температуру процессора в си шарп?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Этот датчик ведь не создавался для криптографии. Следовательно он будет подвержен дефектам. Например будет часто предсказуем. А если не подключен - будет постоянно выдавать 0 например. Или для 80% кейсов (температурных режимов) он будет выдавать известное распределение целых чисел. Гауссово распределение с мат-ожиданием в точке 60 градусов.

    Всё это - потенциальные уязвимости для функции seed.
    Ответ написан
    Комментировать
  • Где на практике применяются комплексные числа? В каких сферах IT они нужны?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Mp3 кодек оперирует комплексами когда звук сжимает. И вообще ВСЁ что с рядами Фурье. JPEG-сжатие.

    Физика-радиоэлектроника любит комплексы. Соотв любые задачи симуляции радиоэлектроники потянут за собой это.

    В математике как обычно. Если ты не смог посчитать корни квадратного уравнения при D < 0 значит ты - школьник. Любой математик всегда скажет что корень из отрицательного норм извлекается. Соотв корни - комплексные. И соотв тебе еще рано в математику т.к. ты не понял важного обобщения. Вообще ВСЕ числа в математике комплексные. К действительным мы прибегаем лишь в частных случаях (дискретная математика например) когда именно делаем акцент на этом.
    Ответ написан
    1 комментарий
  • В каких сферах IT нужны фундаментальные знания высшей математики?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Щас потихоньку начинают копать Quantum Computing. Там понятное дело тоже фреймворки и языки будут но предметная область такая хитрая что обычные подходы к ней не годятся. Тут точно нужен хороший физик математик.
    Ответ написан
    1 комментарий
  • Хеширование хеша. Сколько уникальных хешей получится?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Или какой-то вариант потеряется?


    Биткоин использует формулу двойного SHA. Но мне кажется что это идет не от идеи улучшить качество распределения а скорее от идеи сломать действующие радужные таблички которые могут быть (теоретически) где-то сгенерированы и использоваться для недобрых целей.

    По поводу вопроса. Да. Скорее всего какой-то вариант потеряется в силу свойства хеш-функций. Это свойство сюрьекции. Что существует какие-то 2 аргумента что функция даст одно значение для них двоих. Для тройного "ША" будет скорее всего ситуация еще хуже. Тоесть еще больше коллизий. Но мы эти коллизии чорта с два найдем просто в силу того что числа слишком большие и переборные методы здесь нам не друзья.
    Ответ написан