Какой лучший вариант решения такой задачи?

Question

holllop @holllop

Программирование

Какой лучший вариант решения такой задачи?

Суть задачи такова, мне нужно любыми средствами получить все русские слова длиной 1-4 буквы(некоторые буквы считаются тоже словами).
Что я сделал для этого.
Сначала мне пришла "гениальная" идея получить все слова которые подходят мне с помощью API Яндекс. Словаря.
для этого я написал вот такой код на питоне

spoiler

import os
import requests
import string
import itertools
from time import sleep

API_KEY = 'dict.1.1.20240515T180717Z.760d3993f5a6870f.77dd35e714f6ecd87cebe87a85ece37c94933acc'
API_URL = 'https://dictionary.yandex.net/api/v1/dicservice.json/lookup'
LANG = 'ru-ru'
PROGRESS_FILE = 'progress.txt'
VALID_WORDS_FILE = 'valid_words.txt'

def is_valid_word(word):
    params = {
        'key': API_KEY,
        'lang': LANG,
        'text': word
    }
    
    # Повторять три раза в случае неудачи связи
    for _ in range(3):
        try:
            response = requests.get(API_URL, params=params)
            if response.status_code == 200:
                result = response.json()
                return len(result.get('def', [])) > 0
            else:
                continue
        except requests.RequestException:
            sleep(1)
    return False

def generate_russian_words():
    alphabet = list('абвгдеёжзийклмнопрстуфхцчшщъыьэюя')
    words = []
    
    # Создание комбинаций для каждого количества символов от 1 до 4
    for length in range(1, 5):
        words.extend([''.join(candidate) for candidate in itertools.product(alphabet, repeat=length)])
    return words

def load_progress():
    if os.path.exists(PROGRESS_FILE):
        with open(PROGRESS_FILE, 'r', encoding='utf-8') as f:
            content = f.read().strip()
            if content:
                return int(content)
    return 0

def save_progress(processed_words):
    with open(PROGRESS_FILE, 'w', encoding='utf-8') as f:
        f.write(str(processed_words))

def append_to_file(file_path, words):
    with open(file_path, 'a', encoding='utf-8') as f:
        for word in words:
            f.write(f"{word}\n")

if __name__ == "__main__":
    words = generate_russian_words()
    valid_words = []
    total_words = len(words)
    processed_words = load_progress()
    
    print(f"Возобновляем с {processed_words} из {total_words} комбинаций.")

    for i, word in enumerate(words[processed_words:], start=processed_words):
        if is_valid_word(word):
            valid_words.append(word)
        
        if (i + 1) % 1000 == 0:
            print(f"Обработано {i + 1} из {total_words} комбинаций.")
            save_progress(i + 1)
            append_to_file(VALID_WORDS_FILE, valid_words)
            valid_words = []

    # Запись всех найденных слов при завершении
    if valid_words:
        append_to_file(VALID_WORDS_FILE, valid_words)

    print("Запись завершена. Найденные слова сохранены в файл 'valid_words.txt'.")

И вроде да он хорош, правда я не учёл одного момента количество обращений к серверу 10000 в сутки, мне же моим кодом нужно сделать 1222980 обращений к серверу это по самым скромным и примерным расчётам, что займёт 123-125 дней. Это как бы вариант, но скажем так медленный не много )
После чего я решил ну ладно возьму просто словарь Ожегова, напишу скрипт и получу таким образом все русские слова из этого словаря(что мне подходит в принципе), и я написал вот такой скрипт.

spoiler

import re

def extract_words(input_file, output_file):
    # Чтение входного файла с кодировкой ANSI (cp1251)
    with open(input_file, 'r', encoding="cp1251") as file:
        content = file.read()
        
    # Регулярное выражение для нахождения слов в тексте
    words = re.findall(r'^[А-ЯЁ]+', content, re.MULTILINE)
    
    # Запись найденных слов в выходной файл с кодировкой UTF-8
    with open(output_file, 'w', encoding="utf-8") as file:
        for word in words:
            file.write(word + '\n')

# Указание путей к файлам
input_file = 'slovar.txt'
output_file = 'words.txt'

# Вызов функции извлечения слов
extract_words(input_file, output_file)

И да я получил слова и их получилось около 40 тыс из словаря Ожегова не важно какой они длины, что меня насторожило, подумав аж ещё 15 минут я понял, что да скрипт выберет все слова, но в словаре указано слово, и все его возможные окончания, а вот окончания скрипт не учитывает, да и врядли можно придумать скрипт который бы их учитывал.
И вот теперь решил узнать может, есть какие-то другие варианты, или я где-то что-то не знаю или не могу найти для решения своей задачи.

Вопрос задан 21 мая
194 просмотра

4 комментария

Подписаться 1 Простой 4 комментария

Akina @Akina

нужно сделать 1222980 обращений к серверу

В русском языке есть более двухсот (если я верно помню - их 215) невозможных паросочетаний букв - их несложно найти в инете. Даже фильтрация по ним изрядно уменьшит количество вариантов. Есть ещё с полсотни "редких" паросочетаний, для каждого из которых можно найти исчерпывающий список слов - вот тебе и ещё уменьшение. Думаю, можно поискать и список невозможных трёхбуквенных сочетаний.

Написано 21 мая
holllop @holllop Автор вопроса

Akina, как вариант, выглядит более реалистично.

Написано 21 мая
mayton2019 @mayton2019

Автор - решил делать справочники для брутфорса?

Написано 22 мая
holllop @holllop Автор вопроса

mayton2019, а какая разница ?)

Написано 23 мая

Пригласить эксперта

Ответы на вопрос 1

17 комментариев

Akina @Akina

Зализняк, кстати, женщина... и соответственно не склоняется. :)

Написано 21 мая
Adamos @Adamos

Akina, хорошо хоть, сам Андрей Анатольевич до этой новости не дожил.

Написано 21 мая
Akina @Akina

Adamos, ууу... вот память-то. Действительно, женщина - это текущий правообладатель.

Написано 21 мая
holllop @holllop Автор вопроса

Ну насчёт ненужных слов я уж сам решу, да, есть гиперредкие и малоупотребляемые, тут спорить не буду, но задача именно в том, чтобы получить все, даже такие. Насчёт вашего предложения и словаря тут всё сложнее, в моём случае я нашёл удачный словарь, который подчиняется логике поиска и выписки из него слова, не факт, что в предложенном вами таковая логика есть.

Написано 21 мая
Adamos @Adamos

holllop,
получить все, даже такие

Какие - такие? Все 32^4 буквосочетаний, в 99% не имеющих смысла?
Вы неряшливо сформулировали задачу, без реальных условий.
Я предложил решение по той части, в которой упоминаются "русские слова".
Что вам на самом деле нужно - это, конечно, исключительно ваши заботы.

Написано 21 мая
holllop @holllop Автор вопроса

Adamos, Мы с вами вроде не первый раз спорим, и вы не видете или не хотите видеть задачу. Хотя я описал её в вопросе.

мне нужно любыми средствами получить все русские слова длиной 1-4 буквы

Для этого я составил 33^4 комбинаций и хотел отдать из Яндексу на проверку, чтобы понять, слово это или нет.

Какие - такие?

вы же сами написали
Слово ЖДЬЯ, например, вам вряд ли пригодится
Во-первых, мне решать, пригодится оно или нет. Во-вторых, если такое слово действительно существует и оно длиной от 1–4 символов, то оно мне нужно.

Вы неряшливо сформулировали задачу, без реальных условий.
Лучше, как вы дали словарь, зачем, правда, неясно. Или вы мне предлагаете вручную сидеть искать слова, которые мне нужны? Вот это уже неряшливо сформированная задача.

Написано 21 мая
Adamos @Adamos

holllop, мне казалось очевидным, что я дал заведомо несуществующее в русском языке буквосочетание, которое всего лишь не противоречит статистике буквосочетаний.
Но учитывая, насколько по-русски вы выражаете мысли... в общем, давайте лучше не спорить вовсе.

Написано 21 мая
holllop @holllop Автор вопроса

Adamos,
В русском языке есть более двухсот (если я верно помню - их 215) невозможных паросочетаний букв - их несложно найти в инете. Даже фильтрация по ним изрядно уменьшит количество вариантов. Есть ещё с полсотни "редких" паросочетаний, для каждого из которых можно найти исчерпывающий список слов - вот тебе и ещё уменьшение. Думаю, можно поискать и список невозможных трёхбуквенных сочетаний.
ваша реакция
Вздор это - насчет буквосочетаний.
так же через 30 минут видно поняли, что туфли таки жмут и решили переобутся
несуществующее в русском языке буквосочетание, которое всего лишь не противоречит статистике буквосочетаний.
так они есть ли несуществующее в русском языке буквосочетание или нет вы сами для себя решите ? а то как то вы вообще не по теме )
я тут не в гадание на кофейной гуще играю как вы
мне казалось очевидным, что я дал заведомо несуществующее в русском языке буквосочетание, которое всего лишь не противоречит статистике буквосочетаний.
Но учитывая, насколько по-русски вы выражаете мысли... в общем, давайте лучше не спорить вовсе.
есть оно или нет я например не знаю мне легче проверить. Про очевидность вообще молчу, пока перебирал словарь Ожегова видел и более фантастические слова, чем то которое вы привили в пример.

Написано 21 мая
Adamos @Adamos

holllop, мда. Навык чтения на том же уровне, что и речь. Повторяю предложение - просто не спорить.

Написано 21 мая
holllop @holllop Автор вопроса

Adamos, не волнуйтесь за мой навык чтения и речи, он на много лучше чем ваш навык советов полезного. От чел, убери свою ЧСВ и ответь мне на вопрос, чем помогает твой совет? Если не чем, то зачем ты его вообще писал, раз ты так много разглагольствуешь о речи.

Написано 22 мая
Adamos @Adamos

holllop, повторяю: я дал реалистичное и не требующее каких-либо запросов решение задачи, упомянутой в вопросе -
получить все русские слова длиной 1-4 буквы

Словарь Зализняка дает словарь и правила образования из каждого слова словоформ по падежам, временам и склонениям.
Если вам нужно что-то другое - повторяю: это ваше личное дело, а я умываю руки.

Написано 22 мая
holllop @holllop Автор вопроса

Adamos, Да уж дал так дал, ты тег вопроса видел или нет? Или снова на переобувачную сходишь? Для чего мне твой словарь, на кой ляд он мне нужен, или ты сейчас оденешь клоунский нос и предложишь мне вручную с него слова выбирать?
Я уже писал тебе и в вопросе, что я брал словарь Ожегова и пытался его фильтровать, но ничего не вышло, потому что там указано слово и возможные его окончания, а не слова списком и что они значат. Если я заменю словарь словарём, то я сомневаюсь, что ситуация кардинально поменяется. Мне нужно программное решение, именно поэтому я обращался к сторонним ресурсам.

Написано 22 мая
Adamos @Adamos

holllop, внезапно откуда-то из предположительно серого вещества родилось "и что они значат". "Переобувачная", да. Хорошее слово. Не русское, но сойдет.

Есть подозрение, что диалог не состоялся. Ибо не может быть диалогом разговор, где оба собеседника считают другого идиотом. Может быть, стоит его закончить?

Написано 22 мая
Модератор @TosterModerator

На личности переходить не надо.

Написано 22 мая
holllop @holllop Автор вопроса

Adamos,
внезапно откуда-то из предположительно серого вещества родилось "и что они значат".

господи чсв родился так и проживешь . Если тебе "просветлённому" известные какие-то другие словари(в которых не написано слово потом идёт знак тире и значения слова) то я тебя поздравляю. Проблема толковых словарей в том что там не только слово, но и радом стоит тире рядом со словом которые обозначают возможные окончания этого слова, что значит что это не одно слово, а несколько просто вместо многих пишут одно с несколькими возможными окончаниями пример из словаря Ожегова или вместо окончаний окончаний пишется специальный символ который их обозначает пример из вами любимого Зализняка. И это минус потому что это не просто слова списком, а именно слово и возможные окончания, и я объясню минус специально для вас вы вместо 3-4 слов получаете в словаре одно, но с разными окончаниями. А мне нужны именно все слова даже если у них просто разные окончания или это окончание означает возведения слово во множественное число.

Написано 22 мая
Adamos @Adamos

holllop, словарь Зализняка - не толковый, а грамматический. Слово + правило, по которому оно склоняется по падежам и временам, если это существительное.
Если для вас программирование - это не писать алгоритмы, а только подергать какое-нибудь API, возьмите слова и прогоните их через какой-нибудь готовый phpMorphy, например. Может, чего и получится.

Но вообще, по моему опыту работы со словарями, сочетания "автоматом напарсить" и "нормальный словарь" в русском языке не бывает.

Написано 22 мая
holllop @holllop Автор вопроса

Adamos,
прогоните их через какой-нибудь готовый phpMorphy, например. Может, чего и получится.

а может и нет, кто знает я так пишу, а бы писать не знаю как оно получится и получится ли в принципе.

Если для вас программирование - это не писать алгоритмы, а только подергать какое-нибудь API

для вами любимого себя, который видимо или слеп или видит только, то что хочет видеть, отмечу, что я как писал скрипт для API так и для книги, и для книги получилось хуже, причину я указал.(как то смешно получить 40 тысяч слов из словаря Ожегова, когда по данным которые находятся в сети в нём 100 тыс слов, а может и больше). Мне кажется, что даже если я и придумаю скрипт для Зализняка ситуация сильно не изменится, потому что как вы сами подчеркнули
Слово + правило, по которому оно склоняется по падежам и временам, если это существительное.
и мне кажется что получить из Зализняка +-40 тыс слов так же смешно как из Ожегова, потому что по данным всё той же сети в Зализняке как и в Ожегове 100 тыс слов, а может и больше

Написано 23 мая

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Программирование

Простой
У кого есть пример схемы клиент серверной программы для Draw.io?
- 1 подписчик
- 19 июл.
- 128 просмотров
2

ответа
Программирование

+4 ещё

Средний
Как увидеть русские символы в обычной строке в отладчике Visual studio?
- 1 подписчик
- 11 июл.
- 138 просмотров
2

ответа
Программирование

Простой
Плохо решаю задачи, как повысить квалификацию?
- 1 подписчик
- 10 июл.
- 331 просмотр
3

ответа
Программирование

+2 ещё

Простой
Возможна ли хорошая карьера в машинном обучении без высшего образования?
- 1 подписчик
- 09 июл.
- 505 просмотров
2

ответа
Программирование

+2 ещё

Средний
IPA файлы отличаются после Backup?
- 1 подписчик
- 06 июл.
- 63 просмотра
0

ответов
Программирование

+1 ещё

Простой
Как создать платную лицензию для программы на C++?
- 2 подписчика
- 01 июл.
- 3108 просмотров
4

ответа
Программирование

+2 ещё

Простой
Можно ли повредить ОЗУ программой?
- 2 подписчика
- 30 июн.
- 9888 просмотров
2

ответа
Программирование

+1 ещё

Простой
Как запустить курс яндекс практикум?
- 2 подписчика
- 26 июн.
- 447 просмотров
3

ответа
Java

+1 ещё

Простой
Какие есть российские хакатоны?
- 2 подписчика
- 24 июн.
- 231 просмотр
2

ответа
Программирование

+1 ещё

Средний
Как ускорить вычисление собственных чисел матрицы в MAPLE?
- 2 подписчика
- 22 июн.
- 105 просмотров
0

ответов
Показать ещё Загружается…

Software Development Engineer

bemo

от 3 500 до 5 000 $

Backend Teamlead

Тетрика • Москва

от 250 000 ₽

Разработчик АСУТП

Гринатом • Новосибирск

До 100 000 ₽

Требуется HR-специалис

26 июл. 2024, в 23:58

10000 руб./за проект

Верстка дизайна

26 июл. 2024, в 23:29

15000 руб./за проект

Заставить работать приложение на react+php (найти активацию)

26 июл. 2024, в 22:36

5000 руб./за проект

нужно сделать 1222980 обращений к серверу

В русском языке есть более двухсот (если я верно помню - их 215) невозможных паросочетаний букв - их несложно найти в инете. Даже фильтрация по ним изрядно уменьшит количество вариантов. Есть ещё с полсотни "редких" паросочетаний, для каждого из которых можно найти исчерпывающий список слов - вот тебе и ещё уменьшение. Думаю, можно поискать и список невозможных трёхбуквенных сочетаний.
Akina, как вариант, выглядит более реалистично.
Автор - решил делать справочники для брутфорса?

Answer 1 · 2024-05-21 11:17:41

Вздор это - насчет буквосочетаний. Слово ЖДЬЯ, например, вам вряд ли пригодится.
Для русских слов с формами на хрен не нужны никакие API, нужен словарь Зализняка, и только.

Какой лучший вариант решения такой задачи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт