Задать вопрос
  • Почему не выводится график регрессий?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Распечатай на экране точки через которые должна пройти линия регрессии. Скорее всего она вылетает за
    границы масштаба поэтому ее просто не видно.

    Вообще не понимаю на что ты расчитываешь делая такой черный ящик. Занялся машинным обучением - выводи
    каждый шаг. Объем выборки. Кусок дата-сета хотя-бы покажи. У тебя ведь нет даже expectations относительно
    того как должны выглядеть эти линии.
    Ответ написан
    Комментировать
  • Как просмотреть номер телефона на OLX?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Без кода никто этот вопрос решать не будет потому что для симуляции этой ошибки надо код написать.
    Я не знаю таких энтузиастов которые сядут и за ништяк напишут. Но по поиску olx parser в гитхабе есть
    проекты. Можете посмотреть как у них реализован сбор телефонов.

    https://github.com/digitalashes/olx-parser
    Ответ написан
    Комментировать
  • Почему счетчик на корутине работает не корректно?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Ну... если проводить аналогию с потоками. То count будет иметь столько экземпляров сколько
    корутин запущено. Тоесть счетчик локальный по отношениию к функции.

    И поскольку textView - это глобальный объект. Его видят все функции то они начинают его бомбить
    разными значениями.
    Ответ написан
    4 комментария
  • Какую базу данных выбрать для поисковой системы?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Из поисковых систем для Full-text search я помню только две. Sphinx, Lucene (на его базе Elastic/Solr). Но насколько они применимы в данном примере - я не знаю. Надо глубже понимать задание. На уровне юз-кейсов.

    Зачем тут графовая БД - непонятно. Приведите пример что вы хотите записывать в граф.
    Ответ написан
    8 комментариев
  • Как использовать HttpClient с NTLM аутентификацией?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Хз. Но NTLM считается уже не безопасным для современных требований. Может поэтому?
    Ответ написан
    Комментировать
  • Почему проблема в парсинге времени используя node-xlsx?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Такая ошибка бывает когда ты используешь смесь из двух разных API. Из API локального времени и времени
    с указанием тайм-зоны.

    Лечится это переходом всех функций в какой-то единый API.
    Ответ написан
    Комментировать
  • Как сделать поиск по СПИСКУ сайтов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Обычно разработчики гугло-поисков обычно используют этот API
    https://developers.google.com/custom-search/v1/overview

    Насчет мульти-доменного поиска - не помню такого. Надо искать в описании.
    Ответ написан
    Комментировать
  • Как читать данный график?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Легенда пишет что мы имеем 3 графика величн Loss, PriorLoss, Instance Loss. Первым делом надо
    читать что это такое. Какой смысл вкладывает Stable Diffusion в эти величины.

    Определенно можно сказать что это сложный шум и после 2500 эпох нет никакой видимости среднего
    роста или уменьшения. Я-бы сказал что нет прогресса в данном процессе.
    Ответ написан
    Комментировать
  • I5-6600k не раскрывает 1050ti 4gb?

    mayton2019
    @mayton2019
    Bigdata Engineer
    проц грузился сильнее видеокарты

    Ты не можешь сравнивать нагрузки проца и видеокарты. У них стоят разные задачи.
    В общем случае играя в игру можно говорить просто о положительной корреляции
    нагрузки. Но больше никаких нет предположений. И вряд-ли производитель игры
    сможет дать какие-то комментарии по ситуации. Он тоже ничего не знает и расчитывает
    на среднее железо в среднем сегменте потребления.
    Ответ написан
    Комментировать
  • Где хранить список topic и queue для rabbitmq в микросервисах?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Про что данный вопрос? Про разработку или проектирование? Я могу сказать что при разарботке 100%
    нужного материала лежит в исходном коде. В git. Документация может быть или может не быть но код это - golden
    source. Код - это источник правды. Во всех спорных случаях лезут в код и сравнивают. И в концепии современного Scrum/Agile код идет впереди. Бизнес говорит
    что delivery процесс важнее документирования. Сначала релизиться фича а потом вдогонку добиваются
    wiki, confluence, autodocs. А после того как концепции IAS не только код но и инфраструктура тоже переехала
    из с настенных плакатов и Word документов в нормальные себе *.yaml файлики. Для случая автора цена
    вопроса - просто создать такой файлик и со всеми договориться что вот топики будут лежать здесь. Дальше
    этот файлик можно брать как Properties, процессить делать кодогенерацию и прочее.

    При проектировании что делать? Я не знаю. Ну создайте самый главный документ типа спецификации
    где будет просто таблица с перечислением всех точных названий ресурсов. Но опираясь на свой опыт
    я все таки думаю что это не проектирование а это ближе к реализации. К коду короче. Вообще в архитектурном
    документе может даже и не быть имен топиков. Там будет что-то эферемное. Конкретика появиться
    как раз в IAS скриптах и в коде приложения.
    Ответ написан
    Комментировать
  • Выбор между оперативной памятью. Двухканал или низкие тайминги?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Скорее всего будет очень сложно найти приложение на котором будет очевидна разница.
    Синтетические тесты памяти бомбардируют запросами все адресное пространство обычно
    и на этом показывают прирост. В реальности-же приложения работают не так и чаще всего
    кеши L1-L3 будут сильно сглаживать разницу. Вот. И частота памяти здесь просто так не умножается
    на прирост производительности. Об этом еще старик Амдал писал в своих сочинениях.

    Поэтому для большинства приложений будет скорее всего безразлично что выберет автор.
    Ответ написан
    2 комментария
  • Есть ли название у подобного подхода?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Он называется guard expressions., и имеет отношение к pattern matching.
    Ответ написан
    Комментировать
  • Как убедиться что криптовалюта не фейковая?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Добро пожаловать в мир крипто-панков. Поскольку государства и минфин никак не замечают криптовалюты
    то скорее всего нет единого реестра их названий. По сути сегодня арбитром криптовалют могут выступать
    биржи или обменники. Но они - тоже прослойка.

    Я вообще сомниеваюсь что есть правильный ответ на этот вопрос. Попробуй переведи самую мелкую
    долю монеты и проверь заходит ли она или нет.
    Ответ написан
    Комментировать
  • HTTP-трафик шифруется! Но как? И как вынюхать что там?

    mayton2019
    @mayton2019
    Bigdata Engineer
    HTTP ответы не обязаны являться текстом. Смотри в заголовки ContentType в ответах.
    Если там к примеру стоит application/octet-stream - то это просто поток байтов. Может
    быть бинарным кодом.
    Ответ написан
    4 комментария
  • Как сделать генерацию случайного числа в диапазоне без повторений?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Как сделать генерацию случайного числа в диапазоне без повторений?

    Способов - великое множество. Например если тебе нужно от 1000 до 2000 то
    можно просто взять последовательность от 1000 до 2000 и например перевернуть
    в нем местами десятичные цифры.

    Мы получим псевдо-случайную неповторяющуюуся последовательность. Хотя на глаз
    ее случайность будет весьма условной. Чуть сложнее - можно брать за образец LFSR
    семейство генераторов. Это - свиговый регистр. Здесь желательно бы играть не с
    десятичными диапазонами а работать в рамках битов внутри машинного регистра.

    Вобщем критериев качества для такого ГПСЧ много. Период например. Или авто-корреляция
    между соседними значениеми в последовательности. Если рисовать например
    звездное небо из LFSR то звезды будут выстраиваться в какие-то очевидные
    полоски.

    Гибизов предложил очень хороший вариант с shuffle массива чисел. Он рабочий хотя и требует
    массива для хранения.

    Думаю что есть методы и посложнее но задание автором поставлено так неграмотно
    что тут надо просто больше обсуждать именно его на не ГПСЧ.
    Ответ написан
    Комментировать
  • Как сделать чтобы задача запускалась в диапазоне 0:00 - 01:00?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Запуск в случайное время - это такая себе наивная попытка сделать балансировку нагрузки.
    А хочется спросить что будет если случайность оказалась не очень удачливой и мы все таки
    пересекаемся с другим джобом? Тут лучше бы все-таки сделать retry-logic с повторами
    что если существует mutex, file, socket или еще бох знает какой разделяемый объект
    то мы берем паузу на 5 минут и потом просто делаем повтор попытки.
    Ответ написан
    2 комментария
  • Как создавать свои форматы файлов для криптографии?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Существуют стандартные файловые форматы для хранения ЭЦП ключей. Для RSA, PGP и прочее.
    Это текстовые файлы оформленные соотв образом и хранящие внутри себя закодированный
    в Base64 ключ. Это то что касается публичной части криптографии там где важно оповестить
    как можно больше респонентов и где нужна открытость. Я также видел аналогичные XML-форматы
    в эпоху SOAP. Но они как-то не особо популярны. Они скорее часть SOAP чем криптографии.

    В симметричной криптографии задач файловых форматов вобщем-то не стоит. Даже более
    того. Если условные Алиса и Боб решили наладить секретную переписку - то им не нужен
    никакой файловый стандарт. Они - в контексте и будут передавать блочно-шифрованную
    информацию безо всякого формата без хедера и без магических чисел.

    Что еще. Для этой-же симметрички может быть полезен padding. Это специальное оформление
    последнего блока шифро-текста. Чтоб подбить вариативный размер файла под размер кратный
    блоку. Например если вы решили шифровать через AES-256 то вам нужен блок в 256 бит
    и алгоритм паддинга для хвостового блока. Padding известен и его методы описаны в wiki.
    Берите перебирайте. Который совпадет - тот и ваш. Вот. Паддинг - это не файловый формат
    а просто инженерный трюк чтоб уйти от блоков или прийти к блокам.
    Ответ написан
    1 комментарий
  • Как происходит работа с Git в крупных проектах?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я ни разу не работал с git в команде и в крупных проектах, поэтому не знаю, что нужно делать.

    Тебе и не нужно это знать. И мы не сможем перечислить все роли и задачи участников на проекте и все их возможные комбинации поэтому заранее рассказывать об этом бесполезно.

    Git - это просто инструмент. Но как делается review или кто его делает. Или голосуют. Или мержат или ребейзят.
    Или создают теги или бранчи. Или сколько делают осей разработки master/trunk, dev/stg/prod - это все частные договоренности. GitFlow, GitLabFlow. Интеграция Atlassian. С Gerrit. Это все-все частные случаи управления версиями кода на частных проектах. Нету общих рекомендаций.

    Узнать их можно на проекте. Пришел. Прочитал Developers process guide. И начал работать.

    А управление процессами разработки с помощью Git это большая и частная тема.

    Поэтому оставь в покое крупные проекты. И лучше задай просто про git. Про команды git например.
    Ответ написан
    Комментировать
  • Можно ли передать текстовый файл через RabbitMq?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Да можно. Почему нет. Так-же как и ссылку передавай содержимое файла. Просто длинная строка с переносами.

    Но я-бы проверил лимиты на макимальный размер сообщений. Подозреваю что этот лимит уникальный
    для каждого брокера и устанавливается в настройках. Поэтому гуглить не надо. Надо просто сделать
    тест и проверить какой толщины строки пролезают.
    Ответ написан
  • Есть ли свободная программа, убирающая шум с фото?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Надо посмотреть что за шум. Есть шум типа недостаточная экспозиция. При слабом свете была сделана фотка
    и по ней цветные пиксели появляются. Свойство света мать ево. Корпускулярные свойства. Частица попала
    только на красный либо линий либо зеленый элемент. Тут наверное будет один алгоритм фильтрации.

    Если шум вида пыль и царапины на отсканированном фото - то это наверное будет другой фильтр.

    Шум может быть низко-частотный. Цветовой блик или пересвет части изоборажения с уголка. Солнце в линзу попало.

    Логотип фото-хостинга я-бы тоже считал шумом да. :) Смотря под каким углом смотреть на проблему.

    Digital Signature с авторскими правами :) Тоже типа шум. Смотря для кого. :)
    Ответ написан