Ответы пользователя mayton2019 — Хабр Q&A

Задать вопрос

Ответы

Как выбрать базу данных?

mayton2019 @mayton2019
Bigdata Engineer

Есть такая старая поговорка из тайм-менеджмента - "что СРОЧНО - то не важно".

Если есть некий источник который продуцирует записи со скоростью 10к в секунду и мы хотим писать их сразу (мгновенно) то наверное у нас есть такой-же потребитель который так-же быстро способен их потребить.

А есть вообще такой? Мне сложно себе представить. Если это биг-дата со стримингом - то там надо использовать не постгрес а другие системы. Kafka+Spark например. Но я не буду давать таких советов потому что люди обычно сидят на консервативных системах типа реляционок и хотят делать на них все. Просто им так удобнее.

Давайте немного арифметики. Если мы формируем 10к в секунду то за сутки у нас набегает 10000L * 60 * 60 * 24 = 864 000 000 или восемьсот миллионов строк. Это вот если загрузка будет постоянно такая.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как mysql/mariadb сортирует одинаковые значения?

mayton2019 @mayton2019
Bigdata Engineer

В программировании различают понятие стабильная сортировка (stable sort) когда подряд идущие одинаковые ключи в массиве при сортировке также идут в той-же последвательности со значениями. Но это работает только для массивов.

Реляционная алгебра не определяет никаких массивов. Собственно мы не знаем порядка как хранятся кортежи в таблице. Более того. Оптимизация пространства в БД может их тасовать как колоду карт. Тот-же вакуум в Постгресе. Или работа пакетов DBMS_SPACE для Oracle. Или любое delete+insert может сломать порядок который был раньше.

Поэтому применительно к БД такой вопрос лишен смысла. Если вам нужен какой-то дополнительный ранг сортировки - вводите новое поле (sequence_num) и сортируйте по field,sequence_num. Тогда будет порядок.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Оптимальный формат хранения изображения в текстовом виде?

mayton2019 @mayton2019
Bigdata Engineer

Base64 и не создавался для сжатия. Он хранит примерно 4 символа на 3 байта. Вот такая формула.

Есть другие кодировки наподобие base85 которые просто использую другую формулу укладки байтов в символы. Но все это фигня и экономия на спичках.

Можно ли просто хранить произвольную бинарную информацию в текстовом виде? Да можно. Но при отображении на экране возникнут следующие проблемы. Есть символы которые имеют разные коды но одинаково отображаются на экране. Это искажает наше восприятие информации. Какова цена ошибки - решайте сами. Есть символы которые имеют некий магический эффект для терминала linux (это диапазон от 00 до 1F (control)). При печати их на экран курсор может начать двигаться в разных направлениях. В некоторых терминалах может быть сбой или зависание. Или терминал может издавать писк. Есть символ 00 который имеет зарезервированное значение например для C++/C - ASCIIZ строк. Он маркирует конец строки. И любая попытка передать такой файл "строкой" вызовет неожиданное поведение для вас.

При хранении произвольных символов внутри XML или JSON строк могут работать ESC последовательности или экранировка которая увеличивает размер строки. Тоесть эффект может быть обратный в зависимости от того какие байтики будут сохранены.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как исправить ошибку связанное с foreign key в Entity?
mayton2019 @mayton2019
Bigdata Engineer
Ты каким-то образом создал табличку books без индекса первичного ключа.

В Hibernate есть опция работы со схемой. Либо ты сам руками правильно создаешь все объекты. Либо ты доверяешь это инициализации hibernate.

<prop key="hibernate.hbm2ddl.auto">create | validate | update ....</prop>

Ответ написан более трёх лет назад

3 комментария
3 комментария
Как ускорить запросы с group by в ClickHouse?
mayton2019 @mayton2019
Bigdata Engineer
Да ничего тут нельзя особо сделать. 10 секунд - холодный запуск группировки по 88 млн строк - это вполне себе хорошая цифра. Сомнительно что железо выдавит из себя больше. Ведь так или иначе нужно эти 88 млн пересчитать и даже будь это все в памяти - все равно обойти каждую ячейку. А дальше дело будет только хуже. Ведь табличка растет.

Есть техники микро-батчинга когда большая задача разбиватеся на порции. Например у тебя есть дневной партишен на 15 млн. Делишь его на часовые. Получается по 625 тыщ строк. Уже лучше.

Делаешь некую кумулятивную табличку. Типа

create table charge_cumulative( id long, cnt_cumulative long, delta_sum_cumulative long )

Ну и на каждый микро-батч добавляешь к ней значения count, delta_sum. У тебя вроде удачно получается что можно только складывать.

Ответ написан более трёх лет назад

Комментировать
Комментировать
MySQL Master Slave не корректно работает?

mayton2019 @mayton2019
Bigdata Engineer

Есть идея - заблокировать все прикладные учетные записи на slave. И создать их специальные теневые варианты которые дают доступ только read-only.

Игры с созданием таблиц - это треш конечно. Надо просто расследовать инцедент с созданием таблиц и надавать плеткой по рукам. Тот кто это сделал - был частью системы. Он знал креды. Знал пароли.

Создавать триггеры я думаю не стоит. Это просто какое-то избирательное решение, которое в будущем создаст только больше проблем.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Можно ли навредить серверу из docker?

mayton2019 @mayton2019
Bigdata Engineer

Будь то забиванием озу, диска, или проникновением в bash самого основного сервера.

Ты знаешь, многие вопросы в инфо-технологиях быстрее проверить чем доказывать ссылаясь на литературу.
Это как в физике-механике. Делаем эксперимент. Яблоко падает. И уже подгоняем формулы и научную основу.

Создай образ докера. Создай С++ привет мир-приложение которое делает malloc(1Гб). А потом сделай

docker run .... --memory 512M

Что тебе мешает это сделать и просто прийти в хабр уже с ответом и дальше спрашивать по безопасности докера?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Шифрование для защиты от MITM?

mayton2019 @mayton2019
Bigdata Engineer

Но если, допустим, два человека ведут беседу в текстовом чате, а во время обмена публичными ключами, "по середине" незаметно вторгнется еще один человек (MITM - Man In The Middle)

Давай в этой схеме я выброшу двух людей. И заменю их на браузер и сайт. Там на самом деле и просиходит такой-же чат. Браузер спрашивает и сайт отвечает. Так вот. Эта схема защищена цифровыми сертификатами. И центром сертификации. Тоесть еще до того как вы начали хоть какой-то обмен работают протоколы установки соединения по TLS/SSL когда браузер может удостоверится что центр сертификации одобрил одного из людей и подтвердил его личность. Это Боб проверяет что Алиса - это действительно Алиса. И также получает ее public key который вобщем-то публичен и тоже является частью сертификата.

Вот придумай где подпихнуть твоего человека-Кларка посередине.

Я слышал про "квантовое шифрование", но это уже следующий век.

Квантового шифрования не существует. Есть алгоритм быстрог разложения длинного числа на множители который является частью протоколов RSA. Но все успехи в науч-попе пока ограничены тем что создали комп очень малой разрядности который и близко не подошел к нужным границам и комп сам представляет собой физ-лабораторию с криогеном и защитой от всеговсего. И нет даже надежды что такой комп вставят в телефон или десктоп. Физика - здесь наука злая и циничная. Более того даже если будут успехи в этой области у КК - то у нас в запасном кармане есть эллиптическая криптография EDSA на которую пока еще ничего не придумано. Поэтому насчет КК и криптографии нам можно вообще не беспокоиться. И нашим детям тоже. И внукам.

Кстати я вижу что qna.habr для меня использует алгоритм EDSA + SHA256

Ответ написан более трёх лет назад

10 комментариев

10 комментариев
Какое наиболее простое решение для генерации текста на основе текста, написанного реальным человеком?

mayton2019 @mayton2019
Bigdata Engineer

Сомнительно что сеть будет знать всю историю человека. Можно ведь спросить Васю - помнишь дескыть как год назад ты на шашлыках перебухал и опозорился? И что сеть ответит?

Ответ написан более трёх лет назад

6 комментариев

6 комментариев
Как объединять несколько языков одном проекте?

mayton2019 @mayton2019
Bigdata Engineer

Да это можно. Просто сборка всех трёх (двух) проектов будет через разные сборщики.

И среду разработки... Я даже не знаю как настроить потому что нет такого шаблона с миксом этих языков.

Вообще подумайте будет ли команде разработки удобно, когда в одну ветку master например будут заходить 3 вида изменений.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как произвести на свет сию программу?

mayton2019 @mayton2019
Bigdata Engineer

Нужно для начала узнать в каком формате приходят исходные данные.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Каково реальное актуальное ограничение по скорости интернета со стороны провайдера/серверов?

mayton2019 @mayton2019
Bigdata Engineer

Невозможно всем жителям планеты Земля обеспечить 1 гигабит. Просто чтобы такая схема заработала надо одновременно промодернизировать всех (!) провайдеров. И толщина uplink на всех сетевых устройствах должна пропорционально увеличиться. Посчитайте сколько нужно. Расчет несложный. Если вы каждому конечному потребителю с 25 мегабит (ADSL) гарантируете полосу 1Г - то вы умножаете толщину канала на 40. И где-то наверху у провайдера нужно будет 40-кратно увеличить количество магистралей, тарелок и спутников и прочее. Вот спросите провайдера - он уже готов это сделать?

Это один фактор. И следующий - энергетика и глобальное потепление. Сетевые устройства - это тоже вам ни хрен собачий. Они - все энергопотребляют. Даже в состоянии покоя когда не передают. Согласитесь просто так наращивать потребление незачем. И кому это надо? Тик-токи у вас открываются нормально. Что еще надо?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как вычисляется 20 битный адрес путем сложения 16 бит адреса сегмента с 16 бит смещением в процессорах Intel 8086?

mayton2019 @mayton2019
Bigdata Engineer

Это проектировалось в 20-м веке. Тогда считалось что 1Мб памяти - это очень много. Вот и была сделана такая странная формула где любая комбинация сегмента + смещения всегда заворачивает вас в этот мегабайт.

Сегодня нет смысла изучать Intel 8086. Я не знаю что за преподаватель толкает вам такое старье. Это все равно что на уроках химии изучать философский камень или четыре стихии огонь-земля и так далее.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Выбрать Rust или C++?

mayton2019 @mayton2019
Bigdata Engineer

Rust создавался при разработке браузера Mozilla чтобы закрыть конкретные дефекты С++. Системообразующие дефекты такие как NPE, Buffer Overflow e.t.c. Сегодня доля Rust файлов в сорцах мозиллы составляет 40% от общего количества файлов. Это - достаточно чтобы считать успехом мероприятие.

Нужно ли брать Rust при разработке игровых движков? ХЗ. Я-бы сказал что Rust важнее для тех приложений где важна инфо-безопасность. Я не спец в Rust, но я чисто из любопытва смотрел например как в Rust открыть файл (мне надо было парсить логи). Так вот открыв файл ты не просто не получаешь файловую переменную. Ты получаешь монаду Either (там кажется она называется Result<>) и вот пока ты ее паттерн матчингом не проверишь - никакого файла не получишь. Тоесть протокол работы с файлами строгий настолько, насколько это возможно. Срезать поворот - не получается. Это в сях можно взять fopen(..) и результат проe..ать.

Вобщем rust по уровню строгости напоминает... ну не знаю Haskell наверное. Хотя в Rust тоже можно творить безпредел - но по крайней мере ты будешь явно декларировать операции как usafe. Это слишком очевидно вобщем-то. Дело техники на code-review просто отделить опасное и принять решение стоит ли так кодить или нет.

Да и один финский парень обещал что в Rust скоро зайдет как второй язык разработки ядра Linux. Ждем пока.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как решить ошибку "string indices must be integers" в postgresql?
mayton2019 @mayton2019
Bigdata Engineer
Здравствуйте, мне в наследство досталась база где в основной таблице индексом является текстовое поле.

Это не является ошибкой. Возможно в дизайн закладывался текстовый ключ. Ну по крайней мере у тебя нет острой необходимости всё ломать сразу.

Вообще такие страшные вещи которые ты затеял - делаются в специальные периоды времени. В окна обслуживания и предварительно всех предупредив.

Ответ написан более трёх лет назад

4 комментария
4 комментария
Что не так в коде Java?

mayton2019 @mayton2019 Куратор тега Java
Bigdata Engineer

А распечатай чему равно month.

System.out.println("Input = " + month);

Ответ написан более трёх лет назад

3 комментария

3 комментария
Как сделать git@..., если gitlab настроен через nginx reverse proxy?

mayton2019 @mayton2019
Bigdata Engineer

А сделай так
GIT_TRACE=1 git clone ...
будет больше отладочной инфы.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как создать такую структура FTP?

mayton2019 @mayton2019
Bigdata Engineer

Можно попробовать завести пользователей с именем Отдел1-Группа1 и т.д.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как оптимизировать скорость работы?

mayton2019 @mayton2019
Bigdata Engineer

Странно всё это

Проанализировал индексы и удалил те, которыми база не пользуется, но это помогло, возможно дело в другом.

верни лучше взад.

Что еще менялось кроме железа. Версия PG?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Где найти полное руководство пользователя по Линуксу?

mayton2019 @mayton2019
Bigdata Engineer

Вот можно тут почитать. Это ядро. Я думаю это общее над всеми линуксами. Доминанта так сказать.

https://github.com/torvalds/linux/

Man pages. Тысячи их по всей сети. Я даже не буду линки приводить. По сути они скорее всего являются перекомпилляцией man формата в html. Вобщем вторичны они. Разве что из-за красивых шрифтов их можно читать.

По поводу Mint. Сомнительно что кто-то будет специально создавать книгу. Кому это надо? Книги вообще щас устаревают через пол-года после выхода. Вот форум есть какой-то https://forums.linuxmint.com/

Ответ написан более трёх лет назад

2 комментария

2 комментария

Самые активные сегодня

ВетЦентр
- 5 ответов
- 0 вопросов
Drno
- 2 ответа
- 0 вопросов
iTotal
- 0 ответов
- 1 вопрос
Steel_Balls
- 1 ответ
- 0 вопросов
getl
- 1 ответ
- 0 вопросов
pavel_shabalin
- 1 ответ
- 0 вопросов