• Связанные ресурсы REST API?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    нет какой-то жесткой спецификации.
    оба варианта подходят, и несколько вариантов тоже подходят)
    Ответ написан
    Комментировать
  • Использовать Python или искать более подходящий инструмент?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    скала конечно может повысить эффективность работы скрипта, НО скорее всего сам по себе язык не решит именно проблемы потребления ограниченных ресурсов. Вам при обработке ваших данных нужно сменить подход, возможно использовать потоковую обработку данных, посмотреть в сторону Спарк, или мапредьюс движков (как уже говорили выше).
    Ответ написан
    Комментировать
  • Почему БигДата делается на Scala?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    проблема с эффективность использования ресурсов в питоне
    тк это динамически типизированный язык.
    Джава / скала - статически типизированный языки.
    При статической типизации ниже гибкость, но выше эффективность работы с данными, при динамической наоборот.
    Скала позволяет сочетать в себе плюсы динамической типизации (благодаря автоматическому выводу типов), и сохранять высокую эффективность работы.
    Есть еще и другие детали, например если говорить за SPARK -> который на скала реализован, зная скала, ты уже знаешь спарк, тк там практически такойже апи для работы с коллекциями, все что тебе нужно для того чтоб твой код работал на спарк кластере, заменить название коллекции которую ты обрабатываешь с например Array[MyClass] на RDD[MyClass], и грубо говоря - весь твой код без изменений будет обрабатываться на спарк кластере, само собой такого нет и не будет в питоне, там тебе нужно будет осваивать дополнительный апи.
    Ответ написан
    Комментировать
  • Задержки доступа к различным устройствам (кэш, оперативка, ssd, hdd, net), скажите где найти?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    было исследование гугла и знаменитая табличка задержек, которая примерно выглядит вот так:
    I70LhMdXxwI.jpg
    но она уже устарела, и за последние 10 лет уже и эти данные немного поменялись, например задержки и работа в сети сильно ускорилась
    Ответ написан
    Комментировать
  • Какой язык более перспективен для будущего генетика: R или Python? Или может быть какой-то еще?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    какой у тебя на работе будут язык использовать тот и перспективнее лично для тебя.
    Но я вот совет дам, не вкладывай много сил в DSL языки (языки специального назначения типа R).
    Грубо говоря это язык который заточен под одну задачу (например матрицы считать), в итоге если ты хочешь реально создавать продукты, и твои задачи шире чем просто считать матрицы считать, то ты вынужден будешь все равно вкладываться в языки общего назначения, ну а дальше ты узнаешь что в языках общего назначения можно решать все теже задачи (а используя библиотеки, можно даже решать их похожим образом), НО при этом твои возможности не ограничиваются только какой-то одной сферой, в итоге тебе удобнее станет решать задачи просто использовать один инструмент, а не под каждую задачу осваивать отдельный язык.
    Хорошие специалисты-программисты как правило очень универсальны, задачи и сферы мигрируют, и у кого лучше база, кто более гибкий -> тот и выигрыает на длительном интервале.
    R можно уже забыть, там никаких плюсов нет, создавался он когда не было подходящих инструментов в языках общего назначения, сейчас там все инструменты есть, и даже значительно больше.
    Другое дело какой выбрать язык общего назначения, и тут очень богатый выбор.
    Сейчас потребности инфраструктуры выстроенны таким образом (очень разнородная архитектура, многоядерные процессоры даже на телефонах, многоКластерные конфигурации даже у простых предпринимателей).
    Современные потребности инфраструктур ставят определенные требования к языку на которых можно реализовывать возможности железа -> и это языки которые переходят на более высокий уровень абстракции, языки реализовывающие парадигму Функционального Программирования, она хорошо перекладывается на многоядерные, многопоточные, многокластерные системы.
    Наиболее перспективные языки и реально используемые в бизнесе -> это RUST, SCALA, SWIFT, ES6 они немного на разные платформы ориентированны, но как правило их можно везде использовать и на других платформах (например на SCALA можно как компилировать в код для виртуальной джава машины, так и в нативный код, а также для телефонов или видео карт компилировать, из других языков тоже самое примерно доступно)
    сам синтаксис у них процентов на 90 общий.
    П. С.
    питон норм для обучения, но все равно тормозной и в продакшен на нем ничего не сделать, так что не стоит особо замарачиваться - у него популярность изза того что зарубежом всех школьников (и студентов не программистких специальностей), обучают. Типа считается что он проще, хотя я вот вообще в упор не вижу чем он проще какого-нибудь SCALA.
    П. П. С.
    язык особо не так важен, как понимание того что ты делаешь. Важны концепции, подходы.
    как первый язык можешь выбрать любой (хоть бейсик), через несколько лет лучше поймешь какой именно тебе больше подходит язык.
    Ответ написан
    6 комментариев
  • Чем можно заменить лин стартап?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    Вариант для снижения тестирования ->
    1. делать только то что пользователи сами просят (выделяя приоритеты)
    2. иметь небольшую группу пользователей, с которой можно сразу обсудить идеи до их прототипирования.
    ну и опять же -> все равно должно быть виденье, куда и как вы хотите прийти, чтоб понимать чего точно НЕ ДЕЛАТЬ (а значит и не тестировать), обратная связь лишь корректирует детали, если такого виденья нет - то не стоит даже начинать куда-то идти)
    Ответ написан
    Комментировать
  • Как Apache Spark будет параллельно(или не) брать и обрабатывать данные?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    данные из внешних источников грузятся в датаСеты (специальный интерфес над RDD) - поэтому вы там не увидели parallelize, вместо этого используется метод toDF или toDS.
    в любом случае спарк работает только с RDD и только паралельно/распределенно (используя или нет дополнительные интерфейсы)
    Ответ написан
    Комментировать
  • Как по-простому определить наличие кластеров во временных данных?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    смотри ты хочешь сгруппировать отдельные записи в группы, заменяя свойства в отдельных записях, на свойства целой группы, соответственно ты теряешь определённые данные у записей.
    и ты можешь для себя решить на какой размер потерянных данных ты готов пойти при группировке (упрощении) данных.
    тоесть померить размер ошибки после группировки, размер кластеризации у тебя ограничен сверху количеством записей, снизу единицей, ты можешь начать с количества кластеров равного размеру количества записей, постоянно сокращая количество кластеров, и оценивая ошибку после этого сокращения, до тех пор пока размер ошибки не превысит максимально допустимую.
    это один метод.
    ==========
    возможен второй метод: например связанный с оценкой динамики роста размера ошибок и сокращения количества кластеров, ты точно также можешь сокращать количество кластеров, не задавая сам размер ошибки, а оценивая скорость роста ошибки. Грубо говоря например ты сократил количество кластеров на 20% ошибка выросла на 1%, ты сократил ещё раз количество кластеров на 20%, ошибка выросла на 2%, ты сократил количество кластеров ещё на 20% ошибка выросла на 30% (наверно последний шаг не стоит приминять, и количество кластеров оставить на предыдущем уровне, ну или попробовать сократить не на 20% а на 10% и опять оценить)
    ======
    можно и другие методы придумать, связанные с мерой близости между отдельными элементами, при обьединении их в кластер.
    Ответ написан
    Комментировать
  • Почему упала посещаемость из Яндекса?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    Потому что им не нужны сайты, они весь свой трафик замыкают на директ и на свои сервисы,
    один из способов реализации стратеции - переставлять сайты в выдаче (как правило рандомно), чтоб вы не расслаблялись, а несли денюжку, за трафик.
    Не несёшь денюжку, не получаешь трафик.
    Ответ написан
    4 комментария
  • Заказчик постоянно все меняет?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    обычная практика развития НОВЫХ продуктов, для которых нет аналогов.
    То как он будет выглядеть и работать в конечном итоге решает даже не ваш заказчик, а рынок, под который подстраивают продукт, никто не знает и не может знать, какой он должен быть этот конечный продукт, он рождается в пути и обратной связи с потребителями.
    Ответ написан
  • Можно ли настроить таргетинг в ВК на одного человека?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    на одного нельзя, минимальные группы для таргетинга 50 человек.
    но можно чит сделать:
    если вы создадите например 50 фейков, и добавите их в группу ретаргетинга вместе с целевым одним человеком, то фактически добьётесь таргетинга на 1го человека.
    Ответ написан
    2 комментария
  • Как написать парсер для вконтакте?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    вк апи, там всё есть.
    Aртёмка, не ленись, учить, старайся и все получиться.
    Ответ написан
    Комментировать
  • Какие есть ресурсы для поиска людей с целью обмена опытом?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    >можно конечно начать читать книги и набивать шишки, но это время!
    ну а как вы хотели? думаете что можно это перескачить? Очень большое заблуждение. Ищите людей для обмена опытом, когда у вас будут конкретные вопросы/проблемы с веб разработкой.
    Ответ написан
  • Не маловато ли iMac 2015 - 8GB RAM?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    врядли на 4-5 лет хватит.
    думаю через года 2 максимум 3, стоит поменять полностью.
    ну а так тут всё просто -> есть деньги, сразу покупаешь лучше, нет -> пользуешь то что есть)
    Ответ написан
  • Нужно ли учить программирование на английских ресурсах?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    советую в начале пройти на русском языке
    потом все повторить на английском
    пользы так будет больше и для изучения программирования, и для улучшения английского.
    Ответ написан
    2 комментария
  • Будет ли цена на биткоины расти?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    уверен что нет.
    с чего на них цена должна расти?
    они что нужный всем товар?
    Ответ написан
    4 комментария
  • Насколько полезен Hibernate? Сильно ли он упрощает работу?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    филосовский вопрос прям)
    нет никаких проблем написать свои байдинги, и как вы говорите через сетеры например обновлять данные в таблицах БД (я так и делаю, расширяя стандартные коллекций типов данных).
    С другой стороны нам постоянно говорят не надо велисипедить, типа вот умные люди уже сделали все дела, типа мол другие разработчики привыкли вот к хибернейт, уже чего-нибудь другого не воспримут, в команде тяжело работать будет, это подход корпоратива.
    В своих проектах, или в передовых командах, нормально писать альтернативные реализации байдингов и других концепции.
    Ответ написан
    Комментировать
  • Почему многие сайты не пользуются собственным API?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    Уверен ВК через свой апи работает, Твиттер например вот он генерирует готовые ХТМЛ страницы и не работает через свой апи и вот по каким причинам - так им быстрее данные рендерить клиенту, в виде готовой HTML страницы с сервера, чем заставлять человека загружать какие-то JS библиотеки и потом ещё дожидаться когда они у клиента отрендерят ответы с апи. Там сознательно приняли отказаться от дополнительных прослоек. К томуже многие клиенты для АПИ построены по технологии одностраничного приложения, и не позволяют индексировать содержимое, это не проблема если у вас какой-нибудь сервис по обработке данных, но если у вас контентный сервис, типа твиттера, для вас это может также оказаться критичным.
    Ответ написан
  • Какой алгоритм регрессии выбрать для шумных (разбросанных) данных?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    какого хрена на графике все параметры смешаны?
    вполне очевидно что каждый параметр вносит влияние в модель с определённым весом, вам нужно подобрать веса для этих параметров.
    начните с линейной зависимости, потом можно перейти на полиномы 2го или 3го порядка если уж вам так не терпиться.
    вы же можете везде оценивать суммарную ошибку (стоимость), какая модель с меньшей ошибкой, такая типа и лучше.
    Ответ написан
    Комментировать
  • Есть ли способ взаимодействовать с vk api не создавая приложение?

    angrySCV
    @angrySCV
    machine learning, programming, startuping
    хехехе, вам не нужно своё приложение, всё что вам нужно это ключ, для доступа, а этот ключ можно получить и от лица любого приложения, при желании)))))
    Ответ написан
    3 комментария