Задача: сделать игру в слова, в которой используются различные части речи в базовой форме (т.е. для существительных — им. падеж ед. число, для глаголов — инфинитив и т.д.)
Проблематика: Все словари, которые мне удалось найти (Даля, Ушакова, Лопатина, Ефремова, Зализняка и т.п.) страдают одним или несколькими недостатками:
1. Они все неполные. При этом не хватает не каких-то хитрых слов, а совершенно нормальных — мюсли (редко где есть), верить (у Лопатина нет!) и др. совершенно обыденных слов.
2. Нет указания части речи, либо невозможно выделить имена собственные (Даль, Ушаков и т.д.)
3. Невозможно выделить слова, существующие только во мн. числе (Ефремов, Лопатин)
4. Невозможно выделить уменьшительно-ласкательные. (Только у Ефремова можно хоть как-то это сделать, но весьма проблематично).
5. Невозможно отделить возвратные глаголы. Т.е. надо оставить только «колоть», но выбросить «колоться». При этом нельзя отделять по суффиксу — например, «бояться» — это базовая форма слова.
6. Есть совершенно нелепые слова, вроде «переобъективный» (морфологический словарь словоформ)
Попытка объединить словари не увенчалась успехом — обязательно либо находятся неправильные слова, либо (если ограничивать) отсекаются совершенно нормальные слова.
И еще замечание о словаре Зализняка. Его неполнота не совсем понятна. Дело в том, что в доступном для скачивания словаре (например,
тут) — действительно, нет очень многих обычных слов, но при этом на wiktionary.org для этих слов указана классификация по Зализняку. В качестве примера можно привести те же самые
мюсли. Т.е. где-то у Зализняка эти слова всё-таки есть. Но я найти не смог.
Вопрос: Где можно найти базу слов, которая удовлетворяет нижеследующим требованиям?
1. Должна содержать базовые формы всех (условно, конечно) слов с указанием части речи
2. Небазовые формы (Уменьшительно-ласкательные, возвратные глаголы и т.п.) должны быть отделены
3. Должна быть возможность отсечь имена собственные