Задать вопрос
  • Какие есть стандартные наборы данных для тестирования и сравнения нейронных сетей?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Если зайти в вики по ключевому слову MNIST - можно найти наборы для распознавания рукописного ввода. И еще от самой странчки MNIST еще 2 ссылки идут на аналогичные тестовые сеты.

    +UPD

    https://en.wikipedia.org/wiki/MNIST_database
    https://www.kaggle.com/datasets
    Ответ написан
    3 комментария
  • Какова причина долгой подгрузки страниц в окнах браузера?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я думаю что проблема автора не имеет окончательного решения в части браузерной оптимизации.

    Я какое-то время покупал разные вещицы на аукционах и я заметил что иногда имею дело с ботами-снайперами
    которые перебивают мою ставку за 1 секунду до завершения аукциона. Это было в 2012-2013 году. Тогда еще
    про ботов мало знали. Но в принципе я догадался что мои конкуренты - это какие-то торговые программы на python e.t.c.

    По поводу 10 окон. Я не помню какой там лимит. Кажется для http2/http3 там вообще другие подходы к организации сокетов и сеансов. Поэтому дело может быть не в лимите на сеансы а просто в сетевом трафике.

    Я-бы предложил автору во первых провести эксперимент. Поторговать не в 10 окон а в 2 например. Будет-ли разница?

    И если сильно-сильно хочется торговать с нулевой реакцией то браузер - здесь вообще не друг. Нужно искать
    программиста который напишет торгового бота и не забывать этому программисту доплачивать регулярно
    за дорабоки бота (в связи с неизбежной эволюцией сайта). Такова судьба таких приложений.

    Еще лучше если торговая площадка сама разработала API и предоставляет его за абон-плату. Это - идеальный
    вариант решения проблемы. Тоже требует разработки. Но это right-way.
    Ответ написан
    Комментировать
  • Как сделать все грани (faces) 3D модели плоскими в Blender?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Кроме технической задачи обычно еще стоит и художественная. Тоесть сделать визуализацию хотя-бы приятной для глаза. И мне кажется что автор поставил другую задачу. Хотелось-бы увидеть примеры или эскизы того что хочет автор на выходе. Пока это выглядит как рисование ювелирных камней. Но мне кажется что камни - это недостаточно для того чтобы иметь художественный интерес в целом для зрителя.
    Ответ написан
    1 комментарий
  • Ноутбук для инфобеза?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Ноутбук береться под задачи. Опиши что ты будешь на нем делать. Инфобез - это очень широкое понятие и оно может быть связано просто с чтением почты и документов. Опиши короче свой рабочий день. И какие единицы софта будут нужны.
    Ответ написан
    7 комментариев
  • Поиск по большим файлам python?

    mayton2019
    @mayton2019
    Bigdata Engineer
    1) Ну. Как бы я делал. Наверное проще загрузить это в SQLite и проиндексировать. Как то так.

    file.csv
    id;name;phone;price
    1;Игорь;79287777777;20
    2; Дмитрий;79287777888;25
    ...

    В базе
    sqlite> create table tab1(id text,name text,phone text,price text);
    sqlite> .mode csv
    sqlite> .separator ";"
    sqlite> .headers off
    sqlite> .import file.csv tab1

    Это одноразовая операция и ее можно сделать вручную.
    Желательно создать композитный индекс по 2 полям
    sqlite> create index idx1 on tab1(name,price);
    А дальше из python подключиться к SQLite и гонять запросы вида
    SELECT * from tab1 WHER name='Игорь' AND price='20'


    2) Можно еще придумать сценарий с загрузкой таблицы в Python dictionary но это наверное
    увеличит нагрузку на память. Может вместо 2Гб будет 10Гб. Who knows! Вобщем это повод для
    экспериментов с замером памяти. Кроме того dictionary жестко нас привяжет к полям name + price
    и это будет неудобно.
    Ответ написан
    Комментировать
  • Как закинуть файлы на локальную машину, не имея внешнего IP?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Онлайн сервис формирует документ, кидает его по sftp на принтсервер и тот печатает.

    Пускай он просто публикует документы в вебе.

    А онлайн сервис раз в 5 минут заходит и забирает их.
    Ответ написан
    1 комментарий
  • Редактор кода, удобный для больших длинных файлов -?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Да. Atom и Sublime, Notepad++ - это хорошие кандидаты на роль универсального редактора на все
    случаи жизни. Многие из них работают с Markup/Markdown языками.

    Если эти редакторы не подошли или не справились с задачей - то хотелось-бы узнать почему. Вряд-ли
    мы сможем найти им замену с таким-же числом фич.

    Вот. Все современные IDE (Visual Studio Code, Eclipse, Netbeans) тоже являются текстовыми редакторами
    и автору я советую их тоже проверить и приходить сюда с выводами. Споры об годности IDE - это
    вкусовщина. Я о них уже не спорю никогда и всегда соглашаюсь с выбором любого участника.

    Выбирай. Проверяй.

    Насчет AST деревьев, синтаксиса и графов и прочее. Автор должен понимать что все эти техники нагружают
    оперативную память и такой редактор может стать узким местом в системе похуже браузера
    Интернета. Откроешь проект на 100 файлов и уйдешь гулять и пить кофе пока он все откроет
    и проиндексирует.
    Ответ написан
  • Как хранить часто используемые большие объемы данных в игре?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я не знаю что такое TerrainData в понимании Unity. Но обычно в игровых технологиях большие
    локации режут на квадраты. Так что если главный герой покидает квадрат то всю картографию
    в этом квадрате можно сохранить на диск. Главное - правильно расставить дистнцию видимости, туман,
    или какие-то порталы чтобы максимально ограничить бесконечную локацию.
    Ответ написан
  • Бот на веб хосте?

    mayton2019
    @mayton2019
    Bigdata Engineer
    В наше время - наиболее дешево и удобно покупать Kubernetes и на нем разворачивать любые
    серверы приложений по желанию. Я имею в виду в соотношении цена/производительность.
    Ответ написан
  • Как правильно спроектировать БД для чатов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Тут будет действовать правило разработки NoSQL систем. Если вы хотите чтобы ваш чят быстро работал - вам надо все запросы сделать очень простыми. Тоесть никаких джойнов, группировок и подзапросов. Материализуйте
    все запросы чтобы отдача данных была простой и примитивной.

    Посмотрите как проектируются БД на основе Mongo, CouchDb, Cassandra. Посмотрите как используется NGinx.

    Django/ORM здесь - это просто опция которая может быть или может не быть, но на успех мероприятия она
    не влияет.
    Ответ написан
  • Как определить зашифрована ли строка с помощью функции openssl_encrypt или не зашифрована?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Как определить зашифрована ли строка с помощью функции openssl_encrypt или не зашифрована?

    Такого метода вобщем-то нету. Но если openssl_encrypt возвращает строку в кодировке base64 - то эта строка будет
    иметь характерный "хвостик" в виде символов равно (padding) для добивания строки кратного байтам размера.
    И все прочие символы имеют равномерное (шумящее) распределение.

    Но если я прикольнулся и изначально положил в openssl_encrypt такую подобную вышеуказанной, то тогда
    нет возможности определить была она зашифрована, или я просто прикольнулся.
    Ответ написан
    Комментировать
  • Как распарсить приведённую строку?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Разбей строку по амперсандам. А потом - по знаку равно.
    Ответ написан
    Комментировать
  • Как можно удалить фон или получить координаты кругов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Да. Ты правильно выбрал преобразование Хафа для кругов (окружностей). Только у тебя должен
    быть pipeline из последовательного применения фильтров.

    1) Сначала обесцветить картинку.
    2) Применить фильтр границ. На этом этапе круги появятся
    3) Ты заранее знаешь диаметр круга - желательно его вбить в настройки чтоб Хаф не искал все-все радиусы
    которые возможны.
    4) Ну и далее - твой метод должен их найти.
    Ответ написан
    3 комментария
  • Как сделать перевод не называя номер карты?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Найти посредника. Пообщать ему процент.
    Ответ написан
    Комментировать
  • Что делать если нижняя крышка ноутбука прогнулась иза температуры?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Неси в ремонт. Не вздумай гнуть руками. Еще хуже сломаешь что-нибудь.
    Подставка здесь - не поможет уже. Надо устранить причину.
    Ответ написан
    1 комментарий
  • Как работают eMMC и SD memory card, точнее, как они умирают?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Возьми еще штук 10 SD-шек.

    Если ты пошел по пути физика-экспериментатора - то эксперимент должен воспроизводиться и в статистике
    показать что ты прав.

    Также у тебя не должно быть системной ошибки. Может они горят по другой причине.
    Ответ написан
    Комментировать
  • Не работает простой код хотя он правильный в чем может быть проблема?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Так вроде лучше

    for (int i = 0; i < 10; i++) {
            cout << i << endl;
    }
    Ответ написан
  • Как правильно хранить контент поста?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Использовать собственные минифицированные теги, благодаря которым определенный парсер будет воссоздавать нужные блоки с помощью компонентов (возможно динамичесих)

    20 лет назад этот вопрос был полнонстью решен с помощью технологий XML/XSLT/XPath.
    Языки C#/dotNet, Java поддерживают этот стек. И много других языков и библиотек.

    Потом еще создавали более простые вещи. Шаблонизаторы. Velocity, FreeMarker. Они немножко
    переворачивают постановку. Но их тоже можно рассмотреть.

    Хранить html код в столбце поста кажется нецелесообразным.

    С точки зрения суммарной стоимости владения (TCO) база данных всегда будет дороже
    чем файловая система. А самым дешевым будут хранилища типа Amazon S3, MS Blob, G-Drive.
    Ну если пересчитать удельно сколько стоит гигабайт.

    Хранить каждый элемент поста отдельно в бд со следующим содержанием (element_name, position, content, post_id),
    Тут - непонятно. Но есть такое эвристическое правило дизайна
    хороших NoSQL систем. Все данные для запроса должны лежать физически рядышком
    и не требовать дополнительных действий
    . В идеале - для отдачи поста вы должны сделать
    один единсвтвенный SELECT без joins и без подзапросов и агрегаций и без CONNECT-BY.
    Ответ написан
    2 комментария
  • Как определить большинство и меньшинство по числовой характеристике?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Почитай по ключевому слову - Кластеризация.
    Ответ написан
    Комментировать
  • Как незаметно переползти на новый сервер?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Обычно поднимают балансировщик и делают так что сначала все ходят на 1.1.1.1.
    Потом делают перевод новых сессий в новое место в пропорции 20:80.
    И так далее пока все сессии не переползут.
    Ответ написан
    4 комментария