Задать вопрос
  • R неправильно считает, почему?

    @protven
    d <- read.csv("fish.csv", header=TRUE)
    PS Сильно рекомендуется выучить команду help.
    Ответ написан
    7 комментариев
  • Как писать техническую документацию к софту?

    Salangin
    @Salangin
    Technical writer
    Есть какие-то методологии по написанию документации?
    Да. В Вашем случае можно писать по ГОСТ 19. Если проект большой, то по ГОСТ 34. Есть стандарты ISO

    Есть какие-то удобные (платные, бурж) SAAS-сервисы для упрощения ведения документации?
    Например, в WIki можно ее хранить.

    Не нашел особо много информации, по написанию документации, подскажите запросы, по которым смогу "нарыть" больше инфы по этому вопросу, или ткните на конкретные ресурсы/статьи?
    В вашем случае это: техническая документация, описание API, описание БД, Javadoc, Doxygen

    Как называется профессия людей, кто занимается только написанием документации?
    Техписатели, techwriter-ы, разработчики документации.

    Сколько стоит в среднем работа людей пишущих документацию?
    Оклад техрайтера сильно зависит от квалификации, от языка, на которм он пишет, а также от сложности проекта и типа документации. Можно сказать, что от 30 до 100 тысяч в месяц.
    Ответ написан
    Комментировать
  • Как лучше хранить данные для последующей обработки?

    @Gabriel_vs
    I'm a Scientist in Data Analysis / programmar.
    Хранение данных в BigData порой граничит с искусством. В целом, тут как и везде -- всё зависит от задачи, которая ставится. В любом случае, работа/анализ с текстовыми данными неминуемо приведет вас к Инвертируемому индексу (причем к нескольким).

    Если пока вкратце, то вам надо проиндексировать содержимое "сырых данных" (файлы, веб, БД, etc). Пока проиндексировать как есть, без изменения самих данных. Если это реально BigData, то надо подумать о распределенном индексе, понимать стоит ли (а если да, то как) реплицировать индекс (но это уже вопрос производительности).

    Так же, для работы и анализа вам обязательно понадобится такой же по структуре индекс, с той лишь разницей, что данные, которые в нем будут храниться, необходимо нормализовать. Как минимум к токенам (словам) применить алгоритм стемминга (или лемматизация, если хотите получить лучшее качество).

    Опять же, в зависимости от задач (направления анализа) вам надо подумать о тезаурусах, для решения синонимии терминов в вашем индексе. Но, это я уже пошел в сторону более глубокого анализа данных. Там много что вам понадобится.

    Если бы был пример конкретной задачи, то я бы по конкретнее написал о инструментах, подходах, методах.

    Немого ссылок:
    1. По информационному поиску / анализу данных читайте вот это:
    Введение в информационный поиск, Маннинг
    Обработка неструктурированных текстов. Поиск, орга...
    2. Импорт / фреймворки / библиотеки индексирования и поиска:
    Apach Solr
    Apach Tika
    3. Инвертированный индекс

    PS: всё же хотелось бы узнать о конкретной задачи, тогда было бы больше конкретики.

    UPD: в ряде случаев в BigData надо манипулировать графовой структурой данных. Соответственно, посмотрите в сторону соответствующих СУБД, например neo4j. Главное требования к СУБД в BigData -- минимализм функционала, иначе на больших данных работать будет всё крайне медленно.
    Ответ написан
    1 комментарий
  • Какой код вставить в Google Analytics, для отслеживания поисковиков рунета, казнета, торговых площадок и т.д ?

    @Here_and_Now
    Он итак всё должен отследить.

    При этом некоторые сайты попадут в "Рефералы". Чтобы этого избежать идёте в Админ панель Universal analytics -> Tracking info -> Organic Search sources. Там вбиваете нужные поисковики. Вуа-ля! Теперь эти сайты будут группироватсься под органическим источником.

    Можете ещё в "Custom channel groupping" поиграться с группировками.
    Ответ написан
    1 комментарий
  • Нужен ли обучающий видеокурс на фреймворке Bootstrap для Рунета?

    cyber-jet
    @cyber-jet
    ...когда изучал данную тему толком ничего не было на русском языке...
    - брехня, есть на русском перевод официала бутстрап обеих версий. Uikit по аналогии освоить не долго, дело вкуса. Главное что нужно сделать - прочитать руководство внимательно, оно исчерпывающее, а не строчить на тостер по любому поводу.
    Ответ написан
    Комментировать
  • Как установить NPM на ubuntu 14.04?

    mannaro
    @mannaro
    Умею профессионально гуглить
    apt-get install nodejs && apt-get install npm
    Ответ написан
    Комментировать
  • Как убрать убрать .html в конце веб-страницы (CMS Modx)?

    Aligatro
    @Aligatro
    Turn food and coffee into software...
    Комментировать
  • Что почитать об алгоритмах нормализации слов?

    icelaba
    @icelaba
    Знаю и умею всё
    Для русского языка есть несколько вариантов часть из них только получение базовой формы, часть выдает помимо базовой формы еще и какая это часть речи:
    По пунктам от самого простого к сложному, и я не в курсе работают ли эти инструменты под windows, сам я использую osx и linux

    1) Инструменты стеммеры - stemmer, обрезают слово выдирая из него по некоторым правилам то что они принимают за - окончания, суффиксы, приставки.
    Лично мне очень нравится стеммер для русского языка из пакета https://github.com/NaturalNode/natural
    Тут простой код для понимания как работает стеммер https://github.com/NaturalNode/natural/blob/master...
    Достоинства стеммеров: очень быстрые, подходят для предварительного анализа в 100% случаев
    Недостатки: базовая словоформа периодами весьма далека от реальной базовой словоформы

    ==========================================================
    2) использовать aspell - линуксовый пакет для проверки орфографии
    пример echo ехала криса на велосипеде | aspell -a -d russian --sug-mode=ultra
    вывод:

    + ехать
    & криса 13 6: киса, риса, ириса, краса
    *
    + велосипед

    Достоинства: большой набор словарей, можно добавлять свои, есть suggestion mode - выдает похожие слова на слова написанные с ошибкой и/или отсутствующие в словаре см выше & криса 13 6: киса, риса, ириса, краса
    Недостатки: медленный, не говорит какая часть речи

    ======================================================
    3) Лучший в номинации TreeTagger www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/#Linux

    пример: echo 'баба сеяла горох' | cmd/tree-tagger-russian
    вывод:
    баба Ncfsny
    сеяла Vmis-sfa-e
    горох Ncmsan

    разшифровка записей вида Ncfsny тут corpus.leeds.ac.uk/mocky/msd-ru.html
    то есть помимо того какая это часть речи и базовой словоформы эта штука еще и выдает кучу дополнительной информации - от падежей и до ....
    Достоинства: великолепен!, определяет часть речи даже если не имеет слова в словаре
    Недостатки: части речи то он определяет а вот с базовой словоформой невсегда, приходится использовать в паре с aspell или стеммером. Самый медленный.

    ========================================================
    Есть еще какие то продукты от яндекса https://company.yandex.ru/technologies/mystem/
    я не пользовался.

    Удачи!
    Ответ написан
    Комментировать