Задать вопрос
  • На какие нагрузки рассчитан диск NAS версии?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Давайте посчитаем скорость 10Тб за 8 часов. Это

    8L * 1024 * 1024 / (10 * 60 * 60) = 233 Mb/s

    233 мегабайта в секунду это очень хорошая скорость.

    По поводу износа. Если это магнитный блин то он страдает не от пропускной способности а от IOPS.
    Тоесть от спорадических движений БМГ туда-сюда (SEEK time). Яркий пример - индекс баз данных. Если вы его
    кладете на магнитный диск и база под нагрузкой то скорее всего повреждение может быть в механике.

    Если вы просто копируете 1 толстый файл - то для HDD это достаточно мягкая нагрузка и он проработает долго.
    Если в RAID то еще дольше.
    Ответ написан
  • Как наработать навык декомпозиции задач?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Программирование - это как плаванье. Ты сколько книжек не читай - все равно программистом не станешь.
    Ты просто должен сесть и начать программировать. Прыгнуть в воду и плыть.

    По поводу декомпозиции. Обычно такой вопрос возникает когда кода много или когда задача большая.
    Эта декомпозиция идет параллельно со знанием таких частей ООП как Single-Responsibility, и структурных
    шаблонов проектирования
    . Начни это применять и декомпозиция сама собой пойдет.

    Чаще заказывай code-review своего кода и слушай советы старших коллег. Даже если обидно и стыдно.
    Слушай. Записывай и потом применяй.

    По поводу Алгоритмов и Структур данных. Почитай Никлауса Вирта. Он как раз такую книгу и написал.
    Ответ написан
    Комментировать
  • Python как получить данные из 1С находящейся на удаленном рабочем столе?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Попроси себе лицензию и установи этот чортов 1С и работай.
    То что ты хочешь сделать - выглядит со стороны как нарушение инфо-безопасности.
    Ответ написан
    Комментировать
  • Существуют ли библиотеки для поиска в интернете?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Вот посмотри на этот API https://github.com/googleapis/google-api-python-client
    Ответ написан
    Комментировать
  • Как можно в Tesseract улучшить распознавание желтого шрифта на красном фоне?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Протстой перевод в Grayscale может не сработать. Тусклый желтый и яркий красный могут
    дать совершенно одинаковый уровень серого. На градиетнах этот эффект испортит распознавание
    текста. Вплоть до полной бесполезности Tesseract на такой картинке.

    Картинку можно перевести в режим HSV (Hue,Saturation,Value) и для слоя H, который обычно
    меряется в виде градусов от 0 до 360 будет ярко выраженная гистограмма из двух пиков - желтого
    и красного. Далее обычным фильтром типа range выделяем желтый цвет и берем его за белый
    и все что не-желтый - берем за черный.

    После этого качество разделения красно желтой картинки станет лучше.
    Ответ написан
    Комментировать
  • Чем технически и физически обусловлена частота обновления ЖК экрана?

    mayton2019
    @mayton2019
    Bigdata Engineer
    У трубочных, TFT, и плазменных телевизоров (мониторов), или светодиодных панелей
    есть некая инерция свечения. У трубочных - свечение люминофора, у прочих время переключения затеняющей матрицы или включения-выключения светодиодов.

    Тоесть если ты снял управляющее напряжение с пиксела - он продолжает светить несколько
    милисекунд. (На этом основана физика движущихся изображений и анимации.)
    Светит с затуханием. Поэтому чем дольше будет время этого пост-свечения (или реакции)
    тем меньше будет мерцаний. Можно даже на 25 fps транслировать и будет выглядеть вполне
    хорошо. Если это пост-свечение очень короткое - то надо ему давать 120 fps чтоб подогревать.

    Геймеры обычно выбирают где побольше герц и поменьше реакция. Любители кино и сериалов
    могут брать 30-60 Гц. (Реально больше не надо ибо оригинал идет таковой).

    А обычные пользователи офис-приложений могут брать моники с самой медленной реакцией.

    Существует ли формула для расчета этой частоты или реакции - я не знаю. Физика - чуть более
    сложная. Аналоговая а не цифровая. Плюс еще - психофизиология восприятия цвета (ФНЧ в JPEG
    и Chroma-Sampling).
    Ответ написан
  • Какие есть способы хранения вебсокет соединений?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Сокеты невозможно сериализовать. Придумай другую термиологию или другую идею.

    Возможно ты хотел что-то другое?
    Ответ написан
    2 комментария
  • Как изменить текст в звук оффлайн?

    mayton2019
    @mayton2019
    Bigdata Engineer
    espeak
    Ответ написан
    Комментировать
  • Как хранить номера авто казахстанского учета в базе данных чтобы максимально быстро найти номер в БД?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Тебе ничего не надо придумывать. Все уже придумано и база умеет индексировать.

    create table autonumbers(autonumber varchar(30), region varchar(30));
    
    create index idx1 on autonumbers(autonumber);
    create index idx2 on autonumbers(region );


    Запросы:
    поиск номеров в регионе (индексированный)
    select .... where region = 'Астана';
    
    точный поиск номера по полному совпадению
    
    select .... where autonumber= '111AAA11';


    все что я знаю это поиск чисел быстрее поиска строк


    Это слабое утверждение для баз данных. БД это на 80% IO bounded приложение
    и его нагрузка будет зависеть от дисковой подсистемы и от удачного расположения
    искомых строк в блоках БД.

    Мой личный опыт эксплуатации БД Oracle например показывает что практически
    нет разницы между varchar / number. Хотя многие DBMS (Postgresql) поддерживают
    примитивные типы данных, но когда строка (datarow) длинная - то практически
    безразлично будет ли у тебя integer, biginteger, decimal.

    Важнее сделать систему просто правильной, а ужимать и утрамбовывать инфу в примитивы
    это - более поздняя оптимизация. Попробуй загрузи свои номера в макет и поэкспериментируй.
    Ответ написан
    Комментировать
  • Как улучшить качество декомпозиции в Go?

    mayton2019
    @mayton2019
    Bigdata Engineer
    неприлично долго думаю над тем что нужно вынеси в отдельный пакет, а что достаточно вынести в отдельную структуру


    Такая-же проблема и у меня. Я тоже долго думаю над дизайном. Но суть в том что в большинстве задач
    ты и бизнес не всегда знаете куда пойдет проект дальше. И поэтому нарисовать идельный дизайн нельзя.
    Я-бы даже сказал что попытка сопровождать идеальный дизайн - может затянуть внедрение проекта.

    Поэтому просто откажись от декомпозиции. Пиши сначала прототип в олимпиадном стиле. Тоесть функция
    main - и погнал писать как чукча. Что вижу то и пою.

    И после того как ты напишешь 1000 строк например к тебе придет понимание как следует декомпозировать.
    И к этому моменту у тебя будут ДОКАЗАТЕЛЬСТВА выгодности твоего дизана. И теоретические споры можно
    уже исключить.
    Ответ написан
    1 комментарий
  • Как прервать поток c#?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Раньше и всегда я делал, кучу говнокода, вставлял проверки на статус токена или булевой переменной.

    Да. Ты правильно делал. Это единственный дешевый пособ остановить поток не разрушив приложение.
    Единственное но. Если это численный метод и он вычисляет
    int[a][b][c][d]=Math.Pow(a*b*c*d,Math.Sqrt(Math.Sin(Math.Cos(Math.Sqrt(a-b/a)))))))*a+b;

    примерно сто тысяч раз в секунду (ты можешь уточнить), то любой барьер синхронизации
    замедлит работу этого кода в тысячи раз. И чтоб не было такого сильного замедления - можно
    делать проверку на уровне внешнего цикла.

    Практика показывает что частота 10-50 Гц является оптимальной для работы с пользователем.
    И нет смысла делать чаще. Ты все равно быстрее на кнопку не нажмешь.
    Ответ написан
    Комментировать
  • Полезность моделей памяти которые отличный от linear?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Любая оптимизация начинается от проблемы. Из проблем памяти я могу отметить технологический предел
    на пропускную способность. (так называемая Стена Фон-Неймана). Она частично решается
    кешамя для горячих участков кода но никак не решается в обобщенной постановке.

    Непонятно что дает двух-трех или много-компонентный указатель если эта проблема по прежнему остается.
    Ответ написан
    Комментировать
  • Возможно ли создать такую программу, которая позволила бы просматривать торент файлы в которых содержаться видео и фото, или пдф файлы, или html?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Есть утилита torrent-cli. Кажется у нее были опции для просмотра.
    Еще в гитхабе есть проекты похожие по смыслу
    https://github.com/casey/intermodal
    https://github.com/elektito/ih2torrent
    Они позволяют видеть каталог файлов.

    Непонятно зачем ты пишешь про tbpw. Если ты хочешь видеть контент самих файлов - у тебя только
    один вариант - качать торрент.
    Ответ написан
    Комментировать
  • Может ли язык Си работать на условной stack-based машине?

    mayton2019
    @mayton2019
    Bigdata Engineer
    на условной stack-based машине


    С точки зрения практических стековых машин. Существует язык стек-ориентированный Forth и на нем программируют микроконтроллеры и вообще творят всякие штуки которые можно описать алгоритмом. Гитхабе я находил проекты реализаций языка Lisp на Forth. Тоесть ... скорее всего можно все.

    Является ли Форт в данном вопросе stack-based машиной - я не знаю. Он - скорее всего шире чем просто
    стек машина. По крайней мере есть ссылки на память и стек возвратов.

    Для прояснения - желательно чтобы автор привел свое понимание термина. Потому что есть еще
    push down automata, это тоже термин и его надо как-то сопоставить с тем что пишет автор
    иначе у нас будет оооочень много стековых машин с разными свойствами и мы запутаемся.
    Ответ написан
  • Как восстановить данные с дампа f2fs?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Посмотри утилиты scalpel, foremost. Они восстанавливают файлы с какой-то вероятностью основываясь на сигнатуре известных файлов а не разметке ФС. Эта техника называется data carving.

    Успех этих утилит будет зависеть от известности файловых форматов. Я думаю что mp3, jpg будут легко восстановлены. А какие-то неизвестные проприетарные форматы будут поскипаны.
    Ответ написан
    5 комментариев
  • Как математически расчитать ресурсы сервера?

    mayton2019
    @mayton2019
    Bigdata Engineer
    В современных инфо-технологиях никто такие формулы не создает. Система - слишком сложна и динамична
    чтоб можно было придумать набор коэффициентов и аргументов. Берут какую-либо уже созданную
    аналогичную систему. Смотрят ее под нагрузкой. И дальше итеративным процессом подбирают характеристики.
    Где мало - добавляют. Где много - урезают.

    Это - как численные методы. Или как обучение простой нейросетки.
    Ответ написан
    Комментировать
  • Как замедлить размагничивание hdd?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я-бы не беспокоился по поводу размагничивания. Храни свои бэкапы в съемном диске в сейфе в прохладной
    температуре. И пролежит лет 10. Тут главное чтоб контроллер не умер еще раньше. Я сомневаюсь что
    производитель даст такую гарантию на него.

    А если ты озабочен гарантиями. Почитай про стриммеры. На их кассеты производитель давал гарантии
    и в 20 лет и более.
    Ответ написан
  • Как возможно автоматизировать импорт данных из CSV в XML файл?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Задача больше похожа не на импорт а на конвертирование.
    Коробочных утилит нету, потому что XML - это сложный документ,
    который обычно имеет схему. И ты должен предоставить маппинг
    между CSV полем и value тегов или value атрибутов.

    Решать эту задачу можно на любом языке программирования
    и поэтому ищи разработчика.
    Ответ написан
    Комментировать
  • Как найти дубликаты новостей, полученных из разных источников?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Так-же как и в индексировании документов. Строится некое векторное представление документа.
    И потом похожие векторы - указывают на одинаковые (99.9%) документы. Методик векторизации
    много. В основном это токенизация слов и свертывание их к хешу.
    Ответ написан
  • Возможно ли объединение воксельной и полигональной графики в одной игре?

    mayton2019
    @mayton2019
    Bigdata Engineer
    В игре Outcast, было использование и вокселов и полигонов. Ладншафт рисовался вокселами,
    а персонажи и вода и все остальное - полигонами.

    Да. Разрушаемость - это главное преимущество вокселов. Но это скорее оптимизация хранения
    и расчетов. С визуальной точки зрения можно сделать полигоны и вокселы неотличимыми.
    Яркий пример - Minecraft. Его модель мира основана на вокселах, но видим мы просто полигоны.
    Ответ написан
    Комментировать