Алгоритмический вопрос от будущего C#.NET-джуниора. С чего начать исследование?

Question

deleted-zenshot @deleted-zenshot

Алгоритмический вопрос от будущего C#.NET-джуниора. С чего начать исследование?

Приветствую вас друзья.

Изучаю C# по книге Эндрю Троелсена. В данный момент вышел на уровень полного понимания того, о чём пишет автор. Так что чувствую в себе силы приступить к написанию своей первой программы на C#.

Придумал себе такую задачу-исследование:

Исследовать 100 английских книг, сгруппированных в 10 различных тематик.

Задача

Определить самые часто-используемые слова:

Во всех 100 книгах.
В каждой из 10 тематик.

Программу планирую написать универсальную, удобную, и так далее.

К реализации общих моментов (проектирование, отображение данных, хранение данных и т. д.) у меня особых вопросов нет. Интуитивно я понимаю, как нужно действовать. Троелсен подобные моменты хорошо разобрал.

А вот в плане реализации самого алгоритма у меня огромный ступор. Чтобы понять с чего начать, как действовать и в каком направлении двигаться, я решил поступить следующим образом:

Упростить задачу.
Задать вопросы знатокам, чтобы получить хотя бы примерный план действий.

Упрощённая задача

Подсчитать частоту вхождения каждого слова (и его вариаций) в большом текстовом документе.

Исходные данные:

Текстовый документ (книга). Количество слов в документе может доходить до нескольких сотен тысяч. Например, в книге "Pro C# 5.0 and the .NET 4.5 Framework (Andrew Troelsen)" примерно 433 000 слов.

Что нужно сделать:

Подсчитать количество вхождений в документ:

Каждого слова.
Каждой группы однокоренных слов.

Пример группы однокоренных слов:

follow
followed
follower
followers
following
followership

Вопросы знатокам:

С чего начать? Как подступиться к решению этой задачи? В каких направлениях копать?

Кто-то сможет описать хотя бы примерный алгоритм?

Вопрос задан более трёх лет назад
4049 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 4

4 комментария

deleted-zenshot @deleted-zenshot Автор вопроса

>> Но, как по мне, логичнее было бы сначала посторить по непосредственным словам (в книге X слово follow употребляется 123,234 раз)

Виктор, спасибо за ответ в целом и за это дополнение в частности. Пара уточняющих вопросов:

1. Как можно решить эту задачу с минимально-возможным временем выполнения программы?
2. Как структурно организовать полученные данные, чтобы в дальнейшем по ним производить быстрый поиск, вроде того, что предложили вы: "Например, найти самый часто употребляемый корень."

Написано более трёх лет назад
Viktor Vsk @viktorvsk

1. Не надо начинать с поиска решения минимально-воможного времени выполнения
2. Не надо делать самый быстрый поиск. Получить данные по всем словам, потом сделайте, например, тот же нечеткий поиск по ним

Как столкнетесь с проблемами в производительности, тогда их и решайте (преждевременная оптимизация - это плохо). Может, ваших ресурсов (мощный процессор) и условий (всего то 10 книг по 100 000 слов) будет хватать с головой (единоразовый поиск не ограниченный по времени).

Возможно, наоборот, данных будет так много и обрабатывать так быстро, что будет играть роль не оптимизация алгоритма, а его распараллеливание.
Но это уже условия другой задачи. Производительность, безопасность, поддерживаемость, расширяемость - это все круто, но каждое слово - всего лишь задача, которая не всегда имеет место. Или не всегда в приоритете.

Написано более трёх лет назад
deleted-zenshot @deleted-zenshot Автор вопроса

>>1. Не надо начинать с поиска решения минимально-воможного времени выполнения
>>2. Не надо делать самый быстрый поиск. Получить данные по всем словам, потом сделайте, например, тот же нечеткий поиск по ним

А если выбирать не приходится и изначально стоит задача:
1. Сделать минимально-возможное время выполнения.
2. Поиск сделать самый быстрый из возможных.
Если задача именно такая и деваться некуда, то как бы действовал опытный программист, который с подобными задачами до этого ни разу не встречался?

Написано более трёх лет назад
marked-one @marked-one

zenshot: Как это деваться некуда? Можно уволиться.

Абстрактные задачи бывают в ВУЗе, ну и в науке еще.

В прикладном программировании совсем не обязательно реализовывать самый быстрый поиск. И даже минимально возможное время выполнения не всегда потребуется. Например, если юзер получает ответ сразу после нажатия на кнопку, то зачем дальше-то еще оптимизировать?

То есть, "опытный программист" будет исходить из того результата, который нужно получить. И первое, что он сделает, выбьет из начальства/заказчика данные для составления внятного ТЗ, например:
- на какого размера книги ориентироваться в среднем,
- будет ли необходимо алгоритму так же быстро работать с книгами большего размера или возможно послабление,
- на какие устройства рассчитано приложение (производительность, кол-во ядер, возможность менять конфигурацию устройства под приложение),
- будет ли это приложение работать однократно, или будут повторные запросы (например, если это приложение-библиотека, то можно индексировать данные о книгах при загрузке книги в библиотеку)

Не забывайте, что в большинстве случаев работодателем программиста является бизнес, а не ученые. А бизнесу важно заработать деньги, а не решить абстрактные задачи. В крайнем случае, освоить средства, но и в этом случае "самый быстрый поиск" вряд ли потребуется. Поэтому, "опытным программистом" будет выбрано то решение, которое обеспечит наилучший результат в наилучшие сроки (и премию или увеличение зарплаты себе любимому), а вовсе даже не "самый быстрый алгоритм".

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 983 просмотра
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 623 просмотра
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 718 просмотров
1

ответ
C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 201 просмотр
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1420 просмотров
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 733 просмотра
4

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 322 просмотра
0

ответов
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 138 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 371 просмотр
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 108 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2014-12-12 00:36:33

Последовательность действий такая:
1) разбиение текста на лексические единицы (в вашем случае значимыми единицами являются слова). Удобно на выходе получать IEnumerable, представляющий ленивый итератор по словам в тексте.
2) приведение слова к нормальной форме, т. е. к нижнему регистру и, опционально, к общей словоформе (например, для существительных - им. падеж, ед. число, и т.д.)
3) добавление слова в Dictionary, где ключом является само слово, а значением - счётчик:

int count;
dictionary.TryGetValue(word, out count);
dictionary[word] = count + 1;

Answer 2 · 2014-12-10 13:29:21

Зачем однокоренные слова? Вы будете считать, что follow и followership - одинаковые слова? Тогда можете взять что-нибудь готовое из fuzzy matching, например. Или, если хочется по алгоритмам - самому реализовать нахождение расстояние Левенштейна, или что-то похожее простое.

Но, как по мне, логичнее было бы сначала посторить по непосредственным словам (в книге X слово follow употребляется 123,234 раз)

И так на каждое слово. А уже потом, на основании этих данных, придумать новую задачу. Например, найти самый часто употребляемый корень.

Answer 3 · 2014-12-10 17:22:22

Автору респект. Я сам думал чтобы реализовать что-то похожое, думаю такая программа очень будет помогать тем людям у которых с английским не очень. Например ты хочешь прочитать какую то книгу, но словарный запас еще мал, выучиваешь незнакомые наиболее используемые слова(для легкости изучения их например можно додать в словарь lingualeo.com), и вперед читать=) Еще вопрос ко всем, есть ли готовое решения данной задачи? Заранее благодарен!

Answer 4 · 2014-12-10 14:41:17

Arthur Gurinovich @ArthurGurinovich

cppstudio.com/post/1318

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2014-12-10 16:10:00

Так как вы ищите конкретно слова, это не совсем поиск подстроки в строке. Вам не нужен будет оставшийся кусок слова, если оно уже не совпадает. И часть символов, такие как пробелы и знаки препинания, у вас не участвуют в сравнении.
Но вообще можете погуглить поиск подстроки в строке, алгоритмов много. Например алгоритм Кнута-Морриса-Пратта, или алгоритм Бойера-Мура.

Алгоритмический вопрос от будущего C#.NET-джуниора. С чего начать исследование?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт