Как сверить одну строку со всеми строками из базы.txt, за тем если найдутся совпадения, то записать эту строку в отдельный текстовик?

Question

quintbrut @quintbrut

Python

Как сверить одну строку со всеми строками из базы.txt, за тем если найдутся совпадения, то записать эту строку в отдельный текстовик?

В общем есть переменная w2.
Допустим, что w2 = "космодром" , теперь как мне сделать чтобы сравнить w2 с каждой строкой из база.txt и если найдутся совпадения (хотя-бы одно), то есть даже "космодромы" или даже "космодромовцы" считается за совпадение, то записать в отдельный текстовик deleted.txt. А если после поиска по всей базе не найдется ни одно совпадение, то записать w2 на w3.
w3 = w2

Я не очень то и могу работать с файлами и строками, помогите пожалуйста, хотя-бы идеями.

Вопрос задан более трёх лет назад
154 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

19 комментариев

Elvis @Dr_Elvis Куратор тега Python

Мог чуть разметку попутать, с телефона пишу

Написано более трёх лет назад
quintbrut @quintbrut Автор вопроса

спасибо за отклик, чуть позже проверю

Написано более трёх лет назад
Elvis @Dr_Elvis Куратор тега Python

quintbrut, да, опечатка. Вместо 'wa' просто 'a'
Поправил

Написано более трёх лет назад
quintbrut @quintbrut Автор вопроса

Elvis, я понял, но какие то просчеты тут идут, чуть позже все перепроверю, и напишу, ил иотмечу решением

Написано более трёх лет назад
quintbrut @quintbrut Автор вопроса

Elvis, тут иногда не удаляет, иногда удаляет, с чем это может быть связано?

Написано более трёх лет назад
Elvis @Dr_Elvis Куратор тега Python

quintbrut, из базы скрипт ничего не удаляет, а только записывает в другой файл эту строчку. Если нужно чтобы удалял из база.txt, то чуть нужно дописать скрипт. Напишите, нужно ли удалять физически из файла или нет и приложите исходный файл база.txt,если возможно.

Написано более трёх лет назад
Roman K @deliro

На каждую итерацию цикла открывать и закрывать файл. Да ты гений

Написано более трёх лет назад
Elvis @Dr_Elvis Куратор тега Python

Roman Kitaev, согласен - не вариант. Однако вместо такого комента - предложил бы правки в коде - было бы полезнее и мне и топикстартеру и всем кто в будущем нагуглит эту тему.

Написано более трёх лет назад
quintbrut @quintbrut Автор вопроса

в общем смотри. Код должен работать так, чтобы если были совпадения, она записывала именно совпадение не из базы, а значение самой переменной w2.
К примеру w2 = пульс, совпадеине из базы - пульсар.
В deleted.txt будет слово пульс.
Если же из всей базы никакиз совпадений, то записывается в переменную w3.
То есть, этого уже в deleted не будет, и так же эту w3 надо будет записать в другой текстовик good.txt
А так у меня получилось что записывает в deleted только слова из базы, а в good.txt все равно попадают слова которые есть в базе.

Написано более трёх лет назад

quintbrut @quintbrut Автор вопроса

Тут весь код приложения которое я пишу.

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

"""
The Snowball stemmer.
"""

import re
import unittest


class Stemmer:
    # Helper regex strings.
    _vowel = "[аәоөұүыіеиуёэюя]"
    _non_vowel = "[^аәоөұүыіеиуёэюя]"

    # Word regions.
    _re_rv = re.compile(_vowel)
    _re_r1 = re.compile(_vowel + _non_vowel)

    # Endings.

    _re_all = re.compile(
        r"(шалық|шелік|даған|деген|таған|теген|лаған|леген|"
	r"дайын|дейін|тайын|тейін|"
        r"ңдар|ңдер|дікі|тікі|нікі|атын|етін|йтын|йтін|"
	r"гелі|қалы|келі|ғалы|шама|шеме|"
	r"мын|мін|бын|бін|пын|пін|мыз|міз|быз|біз|пыз|піз|сың|сің|"
	r"сыз|сіз|ңыз|ңіз|дан|ден|тан|тен|нан|нен|нда|нде|дың|дің|тың|"
	r"тің|ның|нің|дар|дер|тар|тер|лар|лер|бен|пен|мен|"
	r"дай|дей|тай|тей|дық|дік|тық|тік|лық|лік|паз|"
	r"ғыш|гіш|қыш|кіш|шек|шақ|шыл|шіл|нші|ншы|дап|деп|"
	r"тап|теп|лап|леп|даc|деc|таc|теc|лаc|леc|ғар|гер|қар|кер|дыр|"
	r"дір|тыр|тір|ғыз|гіз|қыз|кіз|ған|ген|қан|кен|"
	r"ушы|уші|лай|лей|сын|сін|бақ|бек|пақ|пек|мақ|мек|йын|йін|йық|йік|"
	r"сы|сі|да|де|та|те|ға|ге|қа|ке|на|не|"
	r"ді|ты|ті|ны|ні|ды|ба|бе|па|пе|ма|ме|"
	r"лы|лі|ғы|гі|қы|кі|ау|еу|ла|ле|ар|ер|"
	r"ып|іп|ша|ше|са|се|"
        r"лақ|лық|"
	r"н|р|п|й|ы|і)$"
    )

    def stem(self, word):
        """
        Gets the stem.
        """

        rv_pos, r2_pos = self._find_rv(word), self._find_r2(word)

        word1 = self._step_1(word, r2_pos)

        while word1 != word:
            word = word1
            word1 = self._step_1(word, r2_pos)
        
        return word1

    def _find_rv(self, word):
        """
        Searches for the RV region.
        """

        rv_match = self._re_rv.search(word)
        if not rv_match:
            return len(word)
        return rv_match.end()

    def _find_r2(self, word):
        """
        Searches for the R2 region.
        """

        r1_match = self._re_r1.search(word)
        if not r1_match:
            return len(word)
        r2_match = self._re_r1.search(word, r1_match.end())
        if not r2_match:
            return len(word)
        return r2_match.end()

    def _cut(self, word, ending, pos):
        """
        Tries to cut the specified ending after the specified position.
        """

        match = ending.search(word, pos)
        if match:
            try:
                ignore = match.group("ignore") or ""
            except IndexError:
                # No ignored characters in pattern.
                return True, word[:match.start()]
            else:
                # Do not cut ignored part.
                return True, word[:match.start() + len(ignore)]
        else:
            return False, word
    
    def _step_1(self, word, r_pos):
        _, word = self._cut(word, self._re_all, r_pos)
        return word


class TestStemmer(unittest.TestCase):
    """
    Tests the stemmer.
    """
    _stemmer = Stemmer()
    
    def test_stem(self):

        with open("diffs-kazak.txt", "rt", encoding="utf-8") as diffs_file:
            diffs = diffs_file.readlines()
        for i, line in enumerate(diffs):
            word, stem = line.split()
            self.assertEqual(
                stem,
                self._stemmer.stem(word),
                "Diff in word: %s (%d/%d)" % (word, i + 1, len(diffs)),
            )


if __name__ == "__main__":

    stemmer = Stemmer()
    f1 = open("First.txt",mode = 'r',encoding = 'utf-8')
    for line in f1:
        word1 = (line)
        word = str(word1)
        word = stemmer.stem(word)
        
        #Очистим от пустых строк
        if word[-1] == "\n":
            new_word = word.replace('\n', '')
        else:
            new_word = word
        #Теперь надо очистить мусор (пока что, все кроме слов)
        if new_word.isalpha():
            w2 = new_word
        else:
            continue
        #Теперь надо очистить все русские слова
        #f2 = open("zdf.txt",mode = 'r',encoding = 'utf-8')
        flag = True
        with open("base.txt", encoding = 'utf-8') as f2:
            for line in f2:
                if w2 in line:
                    with open('delete.txt', 'a', encoding = 'utf-8') as d:
                        d.write(f'{line}')
                        flag = False
                if flag:
                    w3 = w2
        ffinal = open("good.txt",mode = 'a',encoding = 'utf-8')
        ffinal.write(w3 + "\n")

Написано более трёх лет назад

quintbrut @quintbrut Автор вопроса

Elvis, помоги пожалуйста, додуматься тут не могу

Написано более трёх лет назад
Elvis @Dr_Elvis Куратор тега Python

quintbrut, через 1,5 часа буду у компа.

Написано более трёх лет назад
quintbrut @quintbrut Автор вопроса

Elvis, ожидаю)

Написано более трёх лет назад
Elvis @Dr_Elvis Куратор тега Python
Переписал часть кода. как верно заметили выше я зря один файл постоянно открываю и закрываю. теперь файл будет открыт только один раз.
wdel = [] with open("base.txt", encoding = 'utf-8') as f2: for line in f2: if w2 in line: wdel.append(w2) flag = False if flag: w3 = w2 else: with open('delete.txt', 'a', encoding = 'utf-8') as d: d.write('\n'.join(set(wdel)))

По поводу последней строчки:
если оставить как написано выше - то в файл delete.txt будет записан один раз "космодром"(для примера)
если убрать set вот так:
d.write('\n'.join(wdel))
то в файл delete.txt будет записываться "космодром" столько раз, сколько было было совпадений построчно в базе. выбирайте как нужно.
Написано более трёх лет назад
quintbrut @quintbrut Автор вопроса

Elvis, так, хорошо, теперь как сделать чтобы те слова что будут записаны в deltete, никак не попадали в good txt? Там я выложил полный код

Написано более трёх лет назад
Elvis @Dr_Elvis Куратор тега Python

quintbrut, так они и не будут попадать. в w3 попадает значение только если flag будет True, а как только появляется совпадение - он сразу становится False.

Написано более трёх лет назад

quintbrut @quintbrut Автор вопроса

Elvis,

Traceback (most recent call last):
  File "C:\Users\thema\Desktop\fas\snowball_kazak2.py", line 151, in <module>
    if flag:
NameError: name 'flag' is not defined

вышла ошибка(

Написано более трёх лет назад

Elvis @Dr_Elvis Куратор тега Python

flag = True
нужно оставить. вот полный код тогда:

if __name__ == "__main__":

    stemmer = Stemmer()
    f1 = open("First.txt",mode = 'r',encoding = 'utf-8')
    for line in f1:
        word1 = (line)
        word = str(word1)
        word = stemmer.stem(word)
        
        #Очистим от пустых строк
        if word[-1] == "\n":
            new_word = word.replace('\n', '')
        else:
            new_word = word
        #Теперь надо очистить мусор (пока что, все кроме слов)
        if new_word.isalpha():
            w2 = new_word
        else:
            continue
        #Теперь надо очистить все русские слова
        #f2 = open("zdf.txt",mode = 'r',encoding = 'utf-8')
        flag = True
        wdel = []
        with open("base.txt", encoding = 'utf-8') as f2:
            for line in f2:
                if w2 in line:
                    wdel.append(w2)
                    flag = False
            if flag:
                w3 = w2
            else:
                with open('delete.txt', 'a', encoding = 'utf-8') as d:
                    d.write('\n'.join(set(wdel)))
        ffinal = open("good.txt",mode = 'a',encoding = 'utf-8')
        ffinal.write(w3 + "\n")

Написано более трёх лет назад

quintbrut @quintbrut Автор вопроса

Elvis, спасибо, помог очень!!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

3 комментария

8 комментариев

quintbrut @quintbrut Автор вопроса

Этот код не рабочий

Написано более трёх лет назад
Krendelev @Krendelev

Какую ошибку выдает?

Написано более трёх лет назад

quintbrut @quintbrut Автор вопроса

Krendelev, я не до конца понял что даже выполняет этот код. По идее мне нужно чтобы код убирал совпадения в deleted, а те что без единого совпадения в переменную w3, которую я позже запишу в другой текстовик good.txt,

Если хотите посмотреть весь код, вот спойлер

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

"""
The Snowball stemmer.
"""

import re
import unittest


class Stemmer:
    # Helper regex strings.
    _vowel = "[аәоөұүыіеиуёэюя]"
    _non_vowel = "[^аәоөұүыіеиуёэюя]"

    # Word regions.
    _re_rv = re.compile(_vowel)
    _re_r1 = re.compile(_vowel + _non_vowel)

    # Endings.

    _re_all = re.compile(
        r"(шалық|шелік|даған|деген|таған|теген|лаған|леген|"
	r"дайын|дейін|тайын|тейін|"
        r"ңдар|ңдер|дікі|тікі|нікі|атын|етін|йтын|йтін|"
	r"гелі|қалы|келі|ғалы|шама|шеме|"
	r"мын|мін|бын|бін|пын|пін|мыз|міз|быз|біз|пыз|піз|сың|сің|"
	r"сыз|сіз|ңыз|ңіз|дан|ден|тан|тен|нан|нен|нда|нде|дың|дің|тың|"
	r"тің|ның|нің|дар|дер|тар|тер|лар|лер|бен|пен|мен|"
	r"дай|дей|тай|тей|дық|дік|тық|тік|лық|лік|паз|"
	r"ғыш|гіш|қыш|кіш|шек|шақ|шыл|шіл|нші|ншы|дап|деп|"
	r"тап|теп|лап|леп|даc|деc|таc|теc|лаc|леc|ғар|гер|қар|кер|дыр|"
	r"дір|тыр|тір|ғыз|гіз|қыз|кіз|ған|ген|қан|кен|"
	r"ушы|уші|лай|лей|сын|сін|бақ|бек|пақ|пек|мақ|мек|йын|йін|йық|йік|"
	r"сы|сі|да|де|та|те|ға|ге|қа|ке|на|не|"
	r"ді|ты|ті|ны|ні|ды|ба|бе|па|пе|ма|ме|"
	r"лы|лі|ғы|гі|қы|кі|ау|еу|ла|ле|ар|ер|"
	r"ып|іп|ша|ше|са|се|"
        r"лақ|лық|"
	r"н|р|п|й|ы|і)$"
    )

    def stem(self, word):
        """
        Gets the stem.
        """

        rv_pos, r2_pos = self._find_rv(word), self._find_r2(word)

        word1 = self._step_1(word, r2_pos)

        while word1 != word:
            word = word1
            word1 = self._step_1(word, r2_pos)
        
        return word1

    def _find_rv(self, word):
        """
        Searches for the RV region.
        """

        rv_match = self._re_rv.search(word)
        if not rv_match:
            return len(word)
        return rv_match.end()

    def _find_r2(self, word):
        """
        Searches for the R2 region.
        """

        r1_match = self._re_r1.search(word)
        if not r1_match:
            return len(word)
        r2_match = self._re_r1.search(word, r1_match.end())
        if not r2_match:
            return len(word)
        return r2_match.end()

    def _cut(self, word, ending, pos):
        """
        Tries to cut the specified ending after the specified position.
        """

        match = ending.search(word, pos)
        if match:
            try:
                ignore = match.group("ignore") or ""
            except IndexError:
                # No ignored characters in pattern.
                return True, word[:match.start()]
            else:
                # Do not cut ignored part.
                return True, word[:match.start() + len(ignore)]
        else:
            return False, word
    
    def _step_1(self, word, r_pos):
        _, word = self._cut(word, self._re_all, r_pos)
        return word


class TestStemmer(unittest.TestCase):
    """
    Tests the stemmer.
    """
    _stemmer = Stemmer()
    
    def test_stem(self):

        with open("diffs-kazak.txt", "rt", encoding="utf-8") as diffs_file:
            diffs = diffs_file.readlines()
        for i, line in enumerate(diffs):
            word, stem = line.split()
            self.assertEqual(
                stem,
                self._stemmer.stem(word),
                "Diff in word: %s (%d/%d)" % (word, i + 1, len(diffs)),
            )


if __name__ == "__main__":

    stemmer = Stemmer()
    f1 = open("first.txt",mode = 'r',encoding = 'utf-8')
    for line in f1:
        word1 = (line)
        word = str(word1)
        word = stemmer.stem(word)
        
        #Очистим от пустых строк
        if word[-1] == "\n":
            new_word = word.replace('\n', '')
        else:
            new_word = word
        #Теперь надо очистить мусор (пока что, все кроме слов)
        if new_word.isalpha():
            w2 = new_word
        else:
            continue
        #Теперь надо очистить все русские слова

        with open("base.txt") as bh:
            lines = [line for line in bh]
    
        with open("base.txt", "w") as bh, open("deleted.txt", "w") as dh:
            handler = {True: dh, False: bh}
            for line in lines:
                handler[w2 in line].write(line)
            w3 = None if dh.tell() else w2
            ffinal = open("good.txt",mode = 'a',encoding = 'utf-8')
            ffinal.write(w3 + "\n")

Написано более трёх лет назад

quintbrut @quintbrut Автор вопроса

Krendelev, но пока что получается так что в delete записаны слова, но они же все равно проскочили в переменную w3, и все равно записаны в good.txt

Написано более трёх лет назад
Krendelev @Krendelev

В таком случае последняя строка не нужна. Вместо второго base.txt напишите good.txt

Написано более трёх лет назад
Krendelev @Krendelev

Отбой, прочел условия в другой ветке, мой код работать не будет.

Написано более трёх лет назад
quintbrut @quintbrut Автор вопроса

Krendelev, что теперь делать?

Написано более трёх лет назад
Krendelev @Krendelev

Что записано в база.txt? Хотя бы пару строк-тройку строк.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 559 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 284 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 512 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-10-11 19:18:27

w2 = 'космодром'
flag = True
with open('база.txt') as f:
    for line in f:
        if w2 in line:
            with open('delete.txt', 'a') as d:
                d.write(f'{line}\n')
                flag = False
    if flag:
        w3 = w2

Answer 2 · 2019-10-11 19:13:25

Открываешь файл, считываешь построчно, после каждого считывания ищешь нужный текст, если нашел записываешь в deleted и завершаешь программу, если не нашел то w2 на w3

Answer 3 · 2019-10-12 06:29:11

w2 = "космодром"

with open("base.txt") as bh:
    lines = [line for line in bh]
    
with open("base.txt", "w") as bh, open("deleted.txt", "w") as dh:
    handler = {True: dh, False: bh}
    for line in lines:
        handler[w2 in line].write(line)
    w3 = None if dh.tell() else w2

Как сверить одну строку со всеми строками из базы.txt, за тем если найдутся совпадения, то записать эту строку в отдельный текстовик?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт