Задать вопрос
  • Какой курс по ML выбрать?

    mayton2019
    @mayton2019
    Bigdata Engineer
    ML в современном понимании этого слова не имеет отношения к

    "начни готовить мне кофе через пять минут десять секунд" он поймет (выдаст, например, json)
    Ответ написан
  • Как написать код, где надо узнать в каком диапазоне число(без if else)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    В данном случае нам повезло что есть линейная зависимость между номером отрезка и числом. Но бывают более ужасные случаи когда длины отрезков отличаются на много порядков (типичная ситуация для geo-spatial запросов) и тогда строят специальные структуры данныех которые делят пространство на прямоугольники (для 2д случая) такие как Q-Tree , R-Tree и далее ищут рекурсивным спуском по таким деревьям. Для одномерного случая (отрезки) алгоритм будет - тот-же самый. Только вместо прямоугольников другие отрезки или точки которые делят пространство. Эвристика будет лишь в выборе самого алгоритма.
    Ответ написан
    Комментировать
  • Как БД подойдет для высоконагруженного телеграм бота?

    mayton2019
    @mayton2019
    Bigdata Engineer
    При десятке запросов в секунду - подходит любая БД.

    Я не знаю кейсов чтобы она (БД) почему-то не подошла. Если вы думаете что не подойдет - то напишите почему.
    Ответ написан
  • Как сделать автоподбор слов в Python?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Нужно сначала начать со справочника слов которые отражают твою доменную область. Если к примеру это аптека - то в справочник надо загрузить все что туда относится. Названия болезней и названия лекарств и прочее.

    После этого справочник загрузить в префиксное дерево (trie). По дереву можно делать запросы на поиск по первым буквам. Достаточно быстро. Названия библиотек поддержки этого trie я не знаю. Пускай те кто хорошо знают Python посоветуют реализацию.
    Ответ написан
    Комментировать
  • Как зашифровать данные, чтоб открыть их можно было через определённое время?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Нет таких шифров. Если-бы время в формате YYYY-MM-DD являлось-бы частью ключа расшифровки - то любой дурак смог-бы просто переводя часы вперед сразу получить искомое. Ведь остальная часть ключа была-бы известна.

    Да и вообще сама задача противоречит законам Керхгофса.

    Но вы можете использовать схему Шамира. И тогда допустим нотариус или какое-то доверенное лицо в определенную дату просто принесет вам СВОЙ ключик и у вас состоиться торжественное открытие сейфа. Причем сам нотариус тоже не в состоянии читать этот секрет. Так работает Шамир.
    Ответ написан
    2 комментария
  • Где можно найти насыщенные диалоги/монологи (примерно 800 слов) для проведения анализа тональности?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Да нету щас таких диалогов. Со времен udaff.com / nenavist.com всё эмоциональное удаляется. Не дай бох чьи то чувства задеть. Люди щас стали сильно чувственные.
    Ответ написан
    Комментировать
  • Как правильнее написать такую проверку?

    mayton2019
    @mayton2019
    Bigdata Engineer
    before_gray = cv2.cvtColor(before, cv2.COLOR_BGR2GRAY)
    after_gray = cv2.cvtColor(after, cv2.COLOR_BGR2GRAY)

    Вот красавец. В базисе серого цвета идет сравнение.

    А если я радугу буду сравнивать? Твой-же алгоритм слепой в этом смысле.
    Ответ написан
  • Как запускать компьютер с помощью кнопки на сайте?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Тулзов полно.

    $ wakeonlan
    Usage
       wakeonlan [-h] [-v] [-i IP_address] [-p port] [-f file] [[hardware_address] ...]

    В этой задаче самое сложное - гарантировать что WOL пакет пролезет из внешнего интернета к вашему компу.
    Ну и нужно еще придумать протокол обнаружения IP адреса. Провайдер имеет право обновлять его раз в сутки если вы используете обычный серый адрес.
    Ответ написан
    Комментировать
  • Какой язык или технологию осваить после Java Spring framework?

    mayton2019
    @mayton2019 Куратор тега Java
    Bigdata Engineer
    Имеет смысл расти вширь. Тоесть изучать технологии виртуализации Docker/Kubernetes, сети, протоколы и особенности ОС linux (на которой я предполагаю все что ты пишешь будет работать). Имеет смысл понимать как работает тонкая диагностика linux чтобы решать performance issues. Я убежден что большинству Java-разрабов этого знания не хватает.

    Kotlin изучать я считаю не имеет смысла. JSP процессы улучшают Java язык таким образом что Kotlin не сильно будет отличаться в будущем.

    Scala - язык с очень высоким порогом входа и вряд-ли для микро-сервисов тебе что-то новое принесет. Это - скорее к BigData или к специфичным фреймворкам (Play). Ну ... или нужно быть очень сильным фанатом ФП чтобы разрабатывать на Scala то что вобщем-то и так прекрасно разрабатывается на Java.
    Ответ написан
    Комментировать
  • Как правильно сортировать файл?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Не совсем ясно , чего хотел преподаватель.

    Но для сортировки больших массивов ( которые много крат превышают оперативку ) используется сортировка слиянием - merge sort.
    Ответ написан
    Комментировать
  • Как перевести файл CSV на английский язык?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Здесь по сути есть две задачи. Одна - техническая. Это извлечение слов из CSV. Ее надо обсуждать отдельно. И другая - более гуманитарная (я считаю). Перевод. Хороший перевод требует специального словаря и человека который проверит качество перевода.

    Вобщем задание тянет на нехилые деньги. Поэтому - не в хабр. А в площадку фриланса.
    Ответ написан
    Комментировать
  • Что это за кэши L1 типа I и D?

    mayton2019
    @mayton2019
    Bigdata Engineer
    I - это кеш инструкций. По сути - кеш твоего бинарного кода.
    Ответ написан
    Комментировать
  • Как переделать код под ООП?

    mayton2019
    @mayton2019
    Bigdata Engineer
    ООП предполагает что в задаче есть некая сущность. Объект. И у него должны быть методы. Что происходит в данной задаче? Пользователь вводит x, потом размер массива. Потом сам массив. После этого делаются какие-то манипуляции с массивом. И после этого массив распечатывается на экран. Где тут ООП? Я не знаю! Я чорт возьми не пойму где здесь ООП.

    Вобщем скажи своему преподавателю что здесь нет смысла вводить ООП. Код достаточно хорош и концептуален в том виде как он записан. И надо не забывать про принципы KISS/YAGNI которые никто не отменял.
    Ответ написан
    Комментировать
  • Реальная ли в jvm многопоточность?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Проверить это можно так. Запускаем jvm-процесс который создает 1000 потоков но не сразу а постепенно. Смотрим в linux top процессов и если количество процессов (потоков) растет то мы получаем доказательство того что jvm-theread линейно связан с числом linux-processes (threads).

    В windows ЕМНИП один процесс включает в себя от 1 до бесконечности вычислительных потоков.
    В linux процесс и поток отличаются опциями разделения ресурсов. Тоесть что по сути опциями безопасности. Например потоки шарят разделяемую память а процессы - не шарят никогда.
    Ответ написан
    Комментировать
  • Что значит описать встретившуюся геометрическую фигуру и определить положение точки в этой фигуре?

    mayton2019
    @mayton2019 Куратор тега Java
    Bigdata Engineer
    Задача решается довольно просто. Это булевы операции над углами и окружностями.
    В данной задаче сложностью является следующие вопросы
    1) Как ЗАДАНА окружность?
    2) Как задан угол?
    3) Как задан квадрант? Или прямая. Или полу-плоскость.
    После того как мы узнаем это - сможем легко описать цветовую область. Например голубой сегмент окружности описывается как:
    - пересечение окружности с полу-плоскостью
    или
    - пересечение двух полу-плоскостей
    Ответ написан
  • Почему сайт отклоняет запросы?

    mayton2019
    @mayton2019
    Bigdata Engineer
    У тебя - задержка 0.5 секунды. Поставь формулу exponential backoff. Тоесть следующая задержка
    в случае неудачи будет 1 секунда. Потом 2, 4, 8 e.t.c. До тех пор пока HTTP код c 429 не перейдет
    в статус 200(201)
    Ответ написан
    Комментировать
  • Существует ли ещё статья с понятным объяснением про нейронные сети?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Существует ли ещё статья с понятным объяснением про нейронные сети?

    Вряд-ли такая статья существует. Есть книга Саймона Хайкина на 1000 страниц. Это полный курс.

    Они очень лаконично и понятно объясняли их устройство, что было удивительно и крайне приятно.

    Тут от тебя звучит противоречие. Если тебе очень понятно объяснили - то тогда в чем проблема написать код?
    Или у тебя как раз проблема с кодированием? Тогда нейросети здесь не причем. Тебе нужно просто набивать
    опыт в кодинге по техническому заданию.
    Ответ написан
  • Как в c++ сделать проверку на число и чтоб например если несколько точек в числе или минус в середине была ошибка и возвращало обратно к вводу?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Проверить что внутри строки - нечто похожее на число - это одна задача. Ее можно сделать регуляркой. А сделать кастинг его к int/long/float/double - это другая задача.

    Некоторые числа бывают слишком большие и не влезают даже в long (64) и некоторые вещественные могут иметь множитель 10 в степени 310 и это не лезет в double. Мне сложно такое представить но теоретически пользователь может такое ввести.

    Какую задачу решает автор? Что будет дальше происходить с введенным числом?
    Ответ написан
  • Что лучше всего использовать при работе с данными?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Сразу ремарка. Большие данные предполагают такой кейс что они не влезают в ваш ноутбук.
    Это некая стартовая точка от которой вопрос интересно изучать. Если влезли - значит данные не большие.
    Обычная БД. Я рекомендую установить вам локально Postgres или MySQL и загружать туда все что надо
    и там делать любые анализы. Если данные полу-структурированы - то попробуйте использвать spark-shell.
    Это позволяет обработать логи, текстовые файлы, json-lines e.t.c. Настройка spark-shell потребует
    от вас определенных знаний Java. По крайней мере в части памяти.

    Есть явно легаси инструменты которые были созданы во времена Hadoop. Их много.
    - sqoop, hadoop, hdfs. Ими тоже можно пользоваться но по перформансу они уже
    слабее чем например spark.

    Если ваши данные уже в облаке - то вы будете сильно ограничены в инструментах. Обычно амазон
    предлагает свой aws-cli + UI. Microsoft - az.

    И отдельно DataBricks предлагает консольные тулы dbfs/databricks. Но пользоваться ими не очень удобно.
    По крайней мере в том виде как они есть сегодня. Я пользуюсь их web-версией UI.
    Ответ написан
    Комментировать
  • Какой язык лучше выбрать для ETL процессов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Язык здесь не особо важен. ETL это настолько широкое понятие что там нужно
    просто подняться на 2 уровня выше и смотреть решения которые есть.

    Microsoft предлагает решение под названием https://adf.azure.com/en/ Azure Data Factory.

    Данная платформа поддерживает много языков. Ну Scala/Python/SQL/R точно работают. Databricks кластер
    просто является одной из фич данной платформы.
    Ответ написан
    Комментировать