Какой лучший вариант решения такой задачи?

Question

holllop @holllop

Программирование

Какой лучший вариант решения такой задачи?

Суть задачи такова, мне нужно любыми средствами получить все русские слова длиной 1-4 буквы(некоторые буквы считаются тоже словами).
Что я сделал для этого.
Сначала мне пришла "гениальная" идея получить все слова которые подходят мне с помощью API Яндекс. Словаря.
для этого я написал вот такой код на питоне

spoiler

import os
import requests
import string
import itertools
from time import sleep

API_KEY = 'dict.1.1.20240515T180717Z.760d3993f5a6870f.77dd35e714f6ecd87cebe87a85ece37c94933acc'
API_URL = 'https://dictionary.yandex.net/api/v1/dicservice.json/lookup'
LANG = 'ru-ru'
PROGRESS_FILE = 'progress.txt'
VALID_WORDS_FILE = 'valid_words.txt'

def is_valid_word(word):
    params = {
        'key': API_KEY,
        'lang': LANG,
        'text': word
    }
    
    # Повторять три раза в случае неудачи связи
    for _ in range(3):
        try:
            response = requests.get(API_URL, params=params)
            if response.status_code == 200:
                result = response.json()
                return len(result.get('def', [])) > 0
            else:
                continue
        except requests.RequestException:
            sleep(1)
    return False

def generate_russian_words():
    alphabet = list('абвгдеёжзийклмнопрстуфхцчшщъыьэюя')
    words = []
    
    # Создание комбинаций для каждого количества символов от 1 до 4
    for length in range(1, 5):
        words.extend([''.join(candidate) for candidate in itertools.product(alphabet, repeat=length)])
    return words

def load_progress():
    if os.path.exists(PROGRESS_FILE):
        with open(PROGRESS_FILE, 'r', encoding='utf-8') as f:
            content = f.read().strip()
            if content:
                return int(content)
    return 0

def save_progress(processed_words):
    with open(PROGRESS_FILE, 'w', encoding='utf-8') as f:
        f.write(str(processed_words))

def append_to_file(file_path, words):
    with open(file_path, 'a', encoding='utf-8') as f:
        for word in words:
            f.write(f"{word}\n")

if __name__ == "__main__":
    words = generate_russian_words()
    valid_words = []
    total_words = len(words)
    processed_words = load_progress()
    
    print(f"Возобновляем с {processed_words} из {total_words} комбинаций.")

    for i, word in enumerate(words[processed_words:], start=processed_words):
        if is_valid_word(word):
            valid_words.append(word)
        
        if (i + 1) % 1000 == 0:
            print(f"Обработано {i + 1} из {total_words} комбинаций.")
            save_progress(i + 1)
            append_to_file(VALID_WORDS_FILE, valid_words)
            valid_words = []

    # Запись всех найденных слов при завершении
    if valid_words:
        append_to_file(VALID_WORDS_FILE, valid_words)

    print("Запись завершена. Найденные слова сохранены в файл 'valid_words.txt'.")

И вроде да он хорош, правда я не учёл одного момента количество обращений к серверу 10000 в сутки, мне же моим кодом нужно сделать 1222980 обращений к серверу это по самым скромным и примерным расчётам, что займёт 123-125 дней. Это как бы вариант, но скажем так медленный не много )
После чего я решил ну ладно возьму просто словарь Ожегова, напишу скрипт и получу таким образом все русские слова из этого словаря(что мне подходит в принципе), и я написал вот такой скрипт.

spoiler

import re

def extract_words(input_file, output_file):
    # Чтение входного файла с кодировкой ANSI (cp1251)
    with open(input_file, 'r', encoding="cp1251") as file:
        content = file.read()
        
    # Регулярное выражение для нахождения слов в тексте
    words = re.findall(r'^[А-ЯЁ]+', content, re.MULTILINE)
    
    # Запись найденных слов в выходной файл с кодировкой UTF-8
    with open(output_file, 'w', encoding="utf-8") as file:
        for word in words:
            file.write(word + '\n')

# Указание путей к файлам
input_file = 'slovar.txt'
output_file = 'words.txt'

# Вызов функции извлечения слов
extract_words(input_file, output_file)

И да я получил слова и их получилось около 40 тыс из словаря Ожегова не важно какой они длины, что меня насторожило, подумав аж ещё 15 минут я понял, что да скрипт выберет все слова, но в словаре указано слово, и все его возможные окончания, а вот окончания скрипт не учитывает, да и врядли можно придумать скрипт который бы их учитывал.
И вот теперь решил узнать может, есть какие-то другие варианты, или я где-то что-то не знаю или не могу найти для решения своей задачи.

Вопрос задан более двух лет назад
250 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Akina @Akina

нужно сделать 1222980 обращений к серверу

В русском языке есть более двухсот (если я верно помню - их 215) невозможных паросочетаний букв - их несложно найти в инете. Даже фильтрация по ним изрядно уменьшит количество вариантов. Есть ещё с полсотни "редких" паросочетаний, для каждого из которых можно найти исчерпывающий список слов - вот тебе и ещё уменьшение. Думаю, можно поискать и список невозможных трёхбуквенных сочетаний.

Написано более двух лет назад
holllop @holllop Автор вопроса

Akina, как вариант, выглядит более реалистично.

Написано более двух лет назад
mayton2019 @mayton2019

Автор - решил делать справочники для брутфорса?

Написано более двух лет назад
holllop @holllop Автор вопроса

mayton2019, а какая разница ?)

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

17 комментариев

Akina @Akina

Зализняк, кстати, женщина... и соответственно не склоняется. :)

Написано более двух лет назад
Adamos @Adamos

Akina, хорошо хоть, сам Андрей Анатольевич до этой новости не дожил.

Написано более двух лет назад
Akina @Akina

Adamos, ууу... вот память-то. Действительно, женщина - это текущий правообладатель.

Написано более двух лет назад
holllop @holllop Автор вопроса

Ну насчёт ненужных слов я уж сам решу, да, есть гиперредкие и малоупотребляемые, тут спорить не буду, но задача именно в том, чтобы получить все, даже такие. Насчёт вашего предложения и словаря тут всё сложнее, в моём случае я нашёл удачный словарь, который подчиняется логике поиска и выписки из него слова, не факт, что в предложенном вами таковая логика есть.

Написано более двух лет назад
Adamos @Adamos

holllop,
получить все, даже такие

Какие - такие? Все 32^4 буквосочетаний, в 99% не имеющих смысла?
Вы неряшливо сформулировали задачу, без реальных условий.
Я предложил решение по той части, в которой упоминаются "русские слова".
Что вам на самом деле нужно - это, конечно, исключительно ваши заботы.

Написано более двух лет назад
holllop @holllop Автор вопроса

Adamos, Мы с вами вроде не первый раз спорим, и вы не видете или не хотите видеть задачу. Хотя я описал её в вопросе.

мне нужно любыми средствами получить все русские слова длиной 1-4 буквы

Для этого я составил 33^4 комбинаций и хотел отдать из Яндексу на проверку, чтобы понять, слово это или нет.

Какие - такие?

вы же сами написали
Слово ЖДЬЯ, например, вам вряд ли пригодится
Во-первых, мне решать, пригодится оно или нет. Во-вторых, если такое слово действительно существует и оно длиной от 1–4 символов, то оно мне нужно.

Вы неряшливо сформулировали задачу, без реальных условий.
Лучше, как вы дали словарь, зачем, правда, неясно. Или вы мне предлагаете вручную сидеть искать слова, которые мне нужны? Вот это уже неряшливо сформированная задача.

Написано более двух лет назад
Adamos @Adamos

holllop, мне казалось очевидным, что я дал заведомо несуществующее в русском языке буквосочетание, которое всего лишь не противоречит статистике буквосочетаний.
Но учитывая, насколько по-русски вы выражаете мысли... в общем, давайте лучше не спорить вовсе.

Написано более двух лет назад
holllop @holllop Автор вопроса

Adamos,
В русском языке есть более двухсот (если я верно помню - их 215) невозможных паросочетаний букв - их несложно найти в инете. Даже фильтрация по ним изрядно уменьшит количество вариантов. Есть ещё с полсотни "редких" паросочетаний, для каждого из которых можно найти исчерпывающий список слов - вот тебе и ещё уменьшение. Думаю, можно поискать и список невозможных трёхбуквенных сочетаний.
ваша реакция
Вздор это - насчет буквосочетаний.
так же через 30 минут видно поняли, что туфли таки жмут и решили переобутся
несуществующее в русском языке буквосочетание, которое всего лишь не противоречит статистике буквосочетаний.
так они есть ли несуществующее в русском языке буквосочетание или нет вы сами для себя решите ? а то как то вы вообще не по теме )
я тут не в гадание на кофейной гуще играю как вы
мне казалось очевидным, что я дал заведомо несуществующее в русском языке буквосочетание, которое всего лишь не противоречит статистике буквосочетаний.
Но учитывая, насколько по-русски вы выражаете мысли... в общем, давайте лучше не спорить вовсе.
есть оно или нет я например не знаю мне легче проверить. Про очевидность вообще молчу, пока перебирал словарь Ожегова видел и более фантастические слова, чем то которое вы привили в пример.

Написано более двух лет назад
Adamos @Adamos

holllop, мда. Навык чтения на том же уровне, что и речь. Повторяю предложение - просто не спорить.

Написано более двух лет назад
holllop @holllop Автор вопроса

Adamos, не волнуйтесь за мой навык чтения и речи, он на много лучше чем ваш навык советов полезного. От чел, убери свою ЧСВ и ответь мне на вопрос, чем помогает твой совет? Если не чем, то зачем ты его вообще писал, раз ты так много разглагольствуешь о речи.

Написано более двух лет назад
Adamos @Adamos

holllop, повторяю: я дал реалистичное и не требующее каких-либо запросов решение задачи, упомянутой в вопросе -
получить все русские слова длиной 1-4 буквы

Словарь Зализняка дает словарь и правила образования из каждого слова словоформ по падежам, временам и склонениям.
Если вам нужно что-то другое - повторяю: это ваше личное дело, а я умываю руки.

Написано более двух лет назад
holllop @holllop Автор вопроса

Adamos, Да уж дал так дал, ты тег вопроса видел или нет? Или снова на переобувачную сходишь? Для чего мне твой словарь, на кой ляд он мне нужен, или ты сейчас оденешь клоунский нос и предложишь мне вручную с него слова выбирать?
Я уже писал тебе и в вопросе, что я брал словарь Ожегова и пытался его фильтровать, но ничего не вышло, потому что там указано слово и возможные его окончания, а не слова списком и что они значат. Если я заменю словарь словарём, то я сомневаюсь, что ситуация кардинально поменяется. Мне нужно программное решение, именно поэтому я обращался к сторонним ресурсам.

Написано более двух лет назад
Adamos @Adamos

holllop, внезапно откуда-то из предположительно серого вещества родилось "и что они значат". "Переобувачная", да. Хорошее слово. Не русское, но сойдет.

Есть подозрение, что диалог не состоялся. Ибо не может быть диалогом разговор, где оба собеседника считают другого идиотом. Может быть, стоит его закончить?

Написано более двух лет назад
Модератор @TosterModerator

На личности переходить не надо.

Написано более двух лет назад
holllop @holllop Автор вопроса

Adamos,
внезапно откуда-то из предположительно серого вещества родилось "и что они значат".

господи чсв родился так и проживешь . Если тебе "просветлённому" известные какие-то другие словари(в которых не написано слово потом идёт знак тире и значения слова) то я тебя поздравляю. Проблема толковых словарей в том что там не только слово, но и радом стоит тире рядом со словом которые обозначают возможные окончания этого слова, что значит что это не одно слово, а несколько просто вместо многих пишут одно с несколькими возможными окончаниями пример из словаря Ожегова или вместо окончаний окончаний пишется специальный символ который их обозначает пример из вами любимого Зализняка. И это минус потому что это не просто слова списком, а именно слово и возможные окончания, и я объясню минус специально для вас вы вместо 3-4 слов получаете в словаре одно, но с разными окончаниями. А мне нужны именно все слова даже если у них просто разные окончания или это окончание означает возведения слово во множественное число.

Написано более двух лет назад
Adamos @Adamos

holllop, словарь Зализняка - не толковый, а грамматический. Слово + правило, по которому оно склоняется по падежам и временам, если это существительное.
Если для вас программирование - это не писать алгоритмы, а только подергать какое-нибудь API, возьмите слова и прогоните их через какой-нибудь готовый phpMorphy, например. Может, чего и получится.

Но вообще, по моему опыту работы со словарями, сочетания "автоматом напарсить" и "нормальный словарь" в русском языке не бывает.

Написано более двух лет назад
holllop @holllop Автор вопроса

Adamos,
прогоните их через какой-нибудь готовый phpMorphy, например. Может, чего и получится.

а может и нет, кто знает я так пишу, а бы писать не знаю как оно получится и получится ли в принципе.

Если для вас программирование - это не писать алгоритмы, а только подергать какое-нибудь API

для вами любимого себя, который видимо или слеп или видит только, то что хочет видеть, отмечу, что я как писал скрипт для API так и для книги, и для книги получилось хуже, причину я указал.(как то смешно получить 40 тысяч слов из словаря Ожегова, когда по данным которые находятся в сети в нём 100 тыс слов, а может и больше). Мне кажется, что даже если я и придумаю скрипт для Зализняка ситуация сильно не изменится, потому что как вы сами подчеркнули
Слово + правило, по которому оно склоняется по падежам и временам, если это существительное.
и мне кажется что получить из Зализняка +-40 тыс слов так же смешно как из Ожегова, потому что по данным всё той же сети в Зализняке как и в Ожегове 100 тыс слов, а может и больше

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- вчера
- 130 просмотров
2

ответа
Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 1086 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 646 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 750 просмотров
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1465 просмотров
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 735 просмотров
4

ответа
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 886 просмотров
9

ответов
Программирование

Простой
Олимпиадное программирование — с чего начать?
- 1 подписчик
- 18 апр.
- 610 просмотров
2

ответа
Программирование

Простой
Как управлять/хранить изображения для UI?
- 1 подписчик
- 10 апр.
- 318 просмотров
1

ответ
Программирование

+1 ещё

Простой
Стоит ли поступать в вуз на программу по математике, если в будущем хочешь иметь профессию, связанную с программированием?
- 4 подписчика
- 07 мар.
- 3578 просмотров
7

ответов
Показать ещё Загружается…

нужно сделать 1222980 обращений к серверу

В русском языке есть более двухсот (если я верно помню - их 215) невозможных паросочетаний букв - их несложно найти в инете. Даже фильтрация по ним изрядно уменьшит количество вариантов. Есть ещё с полсотни "редких" паросочетаний, для каждого из которых можно найти исчерпывающий список слов - вот тебе и ещё уменьшение. Думаю, можно поискать и список невозможных трёхбуквенных сочетаний.
Akina, как вариант, выглядит более реалистично.
Автор - решил делать справочники для брутфорса?

Answer 1 · 2024-05-21 11:17:41

Вздор это - насчет буквосочетаний. Слово ЖДЬЯ, например, вам вряд ли пригодится.
Для русских слов с формами на хрен не нужны никакие API, нужен словарь Зализняка, и только.

Какой лучший вариант решения такой задачи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт