Ответы, понравившиеся пользователю Артём Клевцов

R неправильно считает, почему?

protven @protven

d <- read.csv("fish.csv", header=TRUE)
PS Сильно рекомендуется выучить команду help.

Ответ написан более трёх лет назад

7 комментариев

Как писать техническую документацию к софту?

Станислав Салангин @Salangin

Technical writer

Есть какие-то методологии по написанию документации?
Да. В Вашем случае можно писать по ГОСТ 19. Если проект большой, то по ГОСТ 34. Есть стандарты ISO

Есть какие-то удобные (платные, бурж) SAAS-сервисы для упрощения ведения документации?
Например, в WIki можно ее хранить.

Не нашел особо много информации, по написанию документации, подскажите запросы, по которым смогу "нарыть" больше инфы по этому вопросу, или ткните на конкретные ресурсы/статьи?
В вашем случае это: техническая документация, описание API, описание БД, Javadoc, Doxygen

Как называется профессия людей, кто занимается только написанием документации?
Техписатели, techwriter-ы, разработчики документации.

Сколько стоит в среднем работа людей пишущих документацию?
Оклад техрайтера сильно зависит от квалификации, от языка, на которм он пишет, а также от сложности проекта и типа документации. Можно сказать, что от 30 до 100 тысяч в месяц.

Ответ написан более трёх лет назад

Комментировать

Как лучше хранить данные для последующей обработки?

Dmitry @Gabriel_vs

I'm a Scientist in Data Analysis / programmar.

Хранение данных в BigData порой граничит с искусством. В целом, тут как и везде -- всё зависит от задачи, которая ставится. В любом случае, работа/анализ с текстовыми данными неминуемо приведет вас к Инвертируемому индексу (причем к нескольким).

Если пока вкратце, то вам надо проиндексировать содержимое "сырых данных" (файлы, веб, БД, etc). Пока проиндексировать как есть, без изменения самих данных. Если это реально BigData, то надо подумать о распределенном индексе, понимать стоит ли (а если да, то как) реплицировать индекс (но это уже вопрос производительности).

Так же, для работы и анализа вам обязательно понадобится такой же по структуре индекс, с той лишь разницей, что данные, которые в нем будут храниться, необходимо нормализовать. Как минимум к токенам (словам) применить алгоритм стемминга (или лемматизация, если хотите получить лучшее качество).

Опять же, в зависимости от задач (направления анализа) вам надо подумать о тезаурусах, для решения синонимии терминов в вашем индексе. Но, это я уже пошел в сторону более глубокого анализа данных. Там много что вам понадобится.

Если бы был пример конкретной задачи, то я бы по конкретнее написал о инструментах, подходах, методах.

Немого ссылок:
1. По информационному поиску / анализу данных читайте вот это:
Введение в информационный поиск, Маннинг
Обработка неструктурированных текстов. Поиск, орга...
2. Импорт / фреймворки / библиотеки индексирования и поиска:
Apach Solr
Apach Tika
3. Инвертированный индекс

PS: всё же хотелось бы узнать о конкретной задачи, тогда было бы больше конкретики.

UPD: в ряде случаев в BigData надо манипулировать графовой структурой данных. Соответственно, посмотрите в сторону соответствующих СУБД, например neo4j. Главное требования к СУБД в BigData -- минимализм функционала, иначе на больших данных работать будет всё крайне медленно.

Ответ написан более трёх лет назад

1 комментарий

Какой код вставить в Google Analytics, для отслеживания поисковиков рунета, казнета, торговых площадок и т.д ?

Here_and_Now @Here_and_Now

Он итак всё должен отследить.

При этом некоторые сайты попадут в "Рефералы". Чтобы этого избежать идёте в Админ панель Universal analytics -> Tracking info -> Organic Search sources. Там вбиваете нужные поисковики. Вуа-ля! Теперь эти сайты будут группироватсься под органическим источником.

Можете ещё в "Custom channel groupping" поиграться с группировками.

Ответ написан более трёх лет назад

1 комментарий

Нужен ли обучающий видеокурс на фреймворке Bootstrap для Рунета?

Евгений @cyber-jet

...когда изучал данную тему толком ничего не было на русском языке...

- брехня, есть на русском перевод официала бутстрап обеих версий. Uikit по аналогии освоить не долго, дело вкуса. Главное что нужно сделать - прочитать руководство внимательно, оно исчерпывающее, а не строчить на тостер по любому поводу.

Ответ написан более трёх лет назад

Комментировать

Можно ли где-нибудь взять производственный календарь России на текущий год в структурированном виде, удобном для использования в своем ПО?

Дмитрий @dmib

xmlcalendar.ru

Ответ написан более трёх лет назад

Комментировать

Как установить NPM на ubuntu 14.04?

Александр Вульф @mannaro

Умею профессионально гуглить

apt-get install nodejs && apt-get install npm

Ответ написан более трёх лет назад

Комментировать

Как убрать убрать .html в конце веб-страницы (CMS Modx)?

Aligatro @Aligatro

Turn food and coffee into software...

Не знаю, поможет ли вам.

1. loco.ru/materials/367-modx-nastraivaem-chpu-kak-ub...

2. stackoverflow.com/questions/12268045/how-to-remove...

3. community.modx-cms.ru/blog/questions/1954.html

Ответ написан более трёх лет назад

Комментировать

Что почитать об алгоритмах нормализации слов?

Иван Старков @icelaba

Знаю и умею всё

Для русского языка есть несколько вариантов часть из них только получение базовой формы, часть выдает помимо базовой формы еще и какая это часть речи:
По пунктам от самого простого к сложному, и я не в курсе работают ли эти инструменты под windows, сам я использую osx и linux

1) Инструменты стеммеры - stemmer, обрезают слово выдирая из него по некоторым правилам то что они принимают за - окончания, суффиксы, приставки.
Лично мне очень нравится стеммер для русского языка из пакета https://github.com/NaturalNode/natural
Тут простой код для понимания как работает стеммер https://github.com/NaturalNode/natural/blob/master...
Достоинства стеммеров: очень быстрые, подходят для предварительного анализа в 100% случаев
Недостатки: базовая словоформа периодами весьма далека от реальной базовой словоформы

==========================================================
2) использовать aspell - линуксовый пакет для проверки орфографии
пример echo ехала криса на велосипеде | aspell -a -d russian --sug-mode=ultra
вывод:

+ ехать
& криса 13 6: киса, риса, ириса, краса
*
+ велосипед
Достоинства: большой набор словарей, можно добавлять свои, есть suggestion mode - выдает похожие слова на слова написанные с ошибкой и/или отсутствующие в словаре см выше & криса 13 6: киса, риса, ириса, краса
Недостатки: медленный, не говорит какая часть речи

======================================================
3) Лучший в номинации TreeTagger www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/#Linux

пример: echo 'баба сеяла горох' | cmd/tree-tagger-russian
вывод:
баба Ncfsny
сеяла Vmis-sfa-e
горох Ncmsan
разшифровка записей вида Ncfsny тут corpus.leeds.ac.uk/mocky/msd-ru.html
то есть помимо того какая это часть речи и базовой словоформы эта штука еще и выдает кучу дополнительной информации - от падежей и до ....
Достоинства: великолепен!, определяет часть речи даже если не имеет слова в словаре
Недостатки: части речи то он определяет а вот с базовой словоформой невсегда, приходится использовать в паре с aspell или стеммером. Самый медленный.

========================================================
Есть еще какие то продукты от яндекса https://company.yandex.ru/technologies/mystem/
я не пользовался.

Удачи!

Ответ написан более трёх лет назад

Комментировать

Область поиска simpleSearch

Talyutin @Talyutin

rtfm.modx.com/display/ADDON/SimpleSearch.SimpleSearch
ids A comma-separated list of IDs to restrict the search to.

Ответ написан более трёх лет назад

4 комментария

Войдите на сайт