Где посмотреть сколько слов начинающихся на конкретную букву в каком языке

Question

Mikhail Tchervonnko @RusMikle

Программист

Где посмотреть сколько слов начинающихся на конкретную букву в каком языке

Другими словами нужно раскидать слова по табличкам в зависимости от первой буквы (дабы уменьшить размер) и нужно определиться для каких букв нужна отдельная табличка а какие можно в общую слить (т.к. их мало).

Спасибо.

Вопрос задан более трёх лет назад
4229 просмотров

1 комментарий

Подписаться 4 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Тимлид в IT

3 месяца

Далее
Skillbox

Adobe Illustrator для fashion-дизайнера

3 месяца

Далее
ProductStar

Основы Google Sheets для аналитика

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 8

Комментировать

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Chrome

+1 ещё

Простой
Как отключить в поисковике Google коррекцию?
- 3 подписчика
- 19 нояб.
- 416 просмотров
1

ответ
Поисковая оптимизация

+1 ещё

Простой
Почему сбросились подтверждения права в Google Search Console?
- 1 подписчик
- 17 нояб.
- 103 просмотра
3

ответа
Google

Средний
Не приходит смс от гугла при двухуровневой аунтификации?
- 2 подписчика
- 10 нояб.
- 486 просмотров
0

ответов
Google

Средний
Почему на мобильный связи нет доступа к Google?
- 1 подписчик
- 29 окт.
- 628 просмотров
1

ответ
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 274 просмотра
2

ответа
Google

Простой
Как сделать Play Google Console в Казахстане?
- 3 подписчика
- 20 окт.
- 224 просмотра
1

ответ
Google

+1 ещё

Простой
Как разместить приложение в Google Play?
- 1 подписчик
- 19 окт.
- 213 просмотров
2

ответа
Google

+1 ещё

Простой
Как заставить работать Google meet?
- 1 подписчик
- 10 окт.
- 407 просмотров
1

ответ
Google

+1 ещё

Простой
Почему никто не может позвонить мне в Meet?
- 1 подписчик
- 04 сент.
- 917 просмотров
1

ответ
Google

Простой
Что считается активностью аккаунта Google?
- 1 подписчик
- 26 авг.
- 346 просмотров
3

ответа
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

React Native Developer

SMALL

До 370 000 ₽

Мобильный разработчик (React Native / другие)

App Company

от 200 000 до 300 000 ₽

Answer 1 · 2013-02-09 17:57:30

EvilX @EvilX

Как вариант:
cat big_dict_en.txt | while read s; do for a in $s; do echo $a;done;done | uniq | grep "^a" | wc -l

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2013-02-08 17:36:44

Первое: очень большой объем текстов. Второе: Там в базе поиск наподобии как у гугла бубет организован, у каждого слова своё смещение в статье и дальше поист по словам и нахождение тех где смешение между словами минимальное итп (критериев много) и не только морфологических. Ввибу большого объема эти таблички предполагается хранить на различных серверах и поиск будет происходить параллельно. Вообщем много чего (почти свой гугл, смех).
Что касается вопроса то можно конечно просто посмотреть сколько страниц приходится в словате на какую букву, но у меня нет всех нужных словарей.

Answer 3 · 2013-02-08 17:39:55

Да, ещё, хотелось бы где то базу синонимов по языкам посмотреть дабы прикрутить ко всему этому.

Отдать всё на откуп гуглу, к сожалению, не могу т.к. информация в которой будет осуществляться поиск не публичная.
А те поисковые движки что видел не оптимированы для распределения нагрузки и базы по множеству серверов.
(может кто подскажет, тогда ненадо велосипед изобретать).

Answer 4 · 2013-02-08 18:06:35

боючь не получится, там ещё есть требования по интеграции в существующие системы, тут прощё своё написать чем Sphinx доработать. Я на него уже тоже поглядывал.

Answer 5 · 2013-02-08 18:07:55

Mikhail Tchervonnko @RusMikle Автор вопроса

Программист

купил книжку по нему тут вечером ещё почитаю. Может действительно попробовать.

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2013-02-09 13:35:28

Единое решение для всех языков вы наверно не найдете. А так, мне кажется, вам стоит посмотреть национальные корпусы интересующих вас языков, там как правило очень много статистики, и при чем не завязанной на сленг, как google. Образцовым является Британский( www.natcorp.ox.ac.uk/), для других языков тоже тоже ) В крайнем случае скачайте sample и посчитайте частоту сами, я думаю не сильно ошибетесь.

Answer 7 · 2013-02-09 16:14:53

Спасибо, только из библиотеки вернулся, тупо обложился словарями и посчитал число страниц занимаемое каждой буквой.

Answer 8 · 2013-02-13 14:02:50

1. В словаре обычно не все слова. Словоформ нету. Поэтому может получиться не совсем то что надо.
2. Не нужно знать точное количество. Достаточно просто знать соотношение. Для этого можно для каждого языка взять не очень большое количество документов (например из Википедии) и посчитать распределение в этих документах.
3. На самом деле можно этого всего избежать, если разделять не по первой букве, а посчитать хеш от слова и взять остаток от деления на желаемое число таблиц.

Где посмотреть сколько слов начинающихся на конкретную букву в каком языке

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт