• Как вычислить математическое ожидание и дисперсию нормального и экспоненциального распределения?

    @anysofronova Автор вопроса
    я понимаю что и мат ожидание и дисперсию можно получить с помощью формул
    но может есть способ попроще .-.
    может в numpy или scipy есть стандартные функции для этого, которые я не нашла
  • Как выделить из текста ссылки на законы?

    @anysofronova Автор вопроса
    longclaps, а есть что то для автоматической генерации регулярных выражений? .–.
    а то СЛИШКОМ много вариантов упоминания законов и для каждого писать выражение в ручную такое...
  • Как выделить из текста ссылки на законы?

    @anysofronova Автор вопроса
    К сожалению не все такие


    Федеральному агентству кадастра объектов недвижимости
    (С.М.Подобед) ........... (2002-2007 годы)",
    утвержденной постановлением Правительства Российской Федерации от
    13 сентября 2005 г. N 560 (Собрание законодательства Российской
    Федерации, 2005, N 39, ст. 3951).




    В части телекоммуникационной составляющей
    информационно-телекоммуникационной инфраструктуры для федеральных
    органов исполнительной власти в соответствии с постановлением
    Правительства Российской Федерации от 24 ноября 2014 г. N 1240
    "О некоторых вопросах по обеспечению использования сети передачи
    данных органов власти"
    предусмотрен переход на использование сети
    передачи данных органов власти Российской Федерации. Орган
    государственной власти вправе принять решение об использовании в
    порядке, установленном Министерством связи и массовых коммуникаций
    Российской Федерации, сети передачи данных органов власти,
    являющейся элементом инфраструктуры, обеспечивающей
    информационно-технологическое взаимодействие информационных систем,
    используемых для предоставления государственных и муниципальных
    услуг и исполнения государственных и муниципальных функций в
    электронной форме.


    ПОСТАНОВЛЕНИЕ

    ГОСУДАРСТВЕННОЙ ДУМЫ
    ФЕДЕРАЛЬНОГО СОБРАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

    О проекте федерального закона № 184222-7
    "О внесении изменений в статьи 10-1 и 15-4 Федерального
    закона "Об информации, информационных технологиях и о
    защите информации"



    Федеральным законом "О таможенном регулировании в Российской
    Федерации"
    предусматривается, что


    В сфере здравоохранения региональная информатизация
    осуществляется с учетом государственной программы Российской
    Федерации "Развитие здравоохранения", утвержденной постановлением
    Правительства Российской Федерации от 15 апреля 2014 г. N 294
    "Об утверждении государственной программы Российской Федерации
    "Развитие здравоохранения",
    и указов Президента Российской
    Федерации от 7 мая 2012 г. N 598 "О совершенствовании
    государственной политики в сфере здравоохранения" и от 7 мая
    2012 г. N 606 "О мерах по реализации демографической политики
    Российской Федерации"
    и имеет целью повышение качества оказания
    медицинской помощи, в том числе высокотехнологичной, развитие и
    внедрение современных методов диагностики, профилактики и лечения,
    повышение эффективности управления системой здравоохранения.


    Завершить в 2007 году реализацию подпрограммы "Развитие
    электронной компонентной базы" на 2007-2011 годы федеральной
    целевой программы "Национальная технологическая база" на
    2007-2011 годы, утвержденной постановлением Правительства
    Российской Федерации от 29 января 2007 г. N 54.


    Федеральная целевая программа "Развитие электронной
    компонентной базы и радиоэлектроники" на 2008-2015 годы (далее -
    Программа) разработана в соответствии с распоряжением Правительства
    Российской Федерации от 23 июля 2007 г. N 972-р
    .


    Настоящее Положение о системе сертификации средств связи для
    Взаимоувязанной сети связи Российской Федерации разработано в
    соответствии с Федеральным законом от 16 февраля 1995 г.
    N 15-ФЗ "О связи" (Собрание законодательства Российской
    Федерации, 1995, N 8, ст. 600)
    , Федеральным законом от 6 января
    1999 г. N 8-ФЗ "О внесении изменений и дополнений в Федеральный
    закон "О связи" (Собрание законодательства Российской Федерации,
    1999, N 2, ст. 235)
    , Законом Российской Федерации от 10 июня
    1993 г. N 5151-I "О сертификации продукции и услуг" (Ведомости
    Съезда народных депутатов Российской Федерации и Верховного Совета
    Российской Федерации, 1993, N 26, ст. 966; Собрание
    законодательства Российской Федерации, 1996, N 1 , ст. 4)
    ,
    Федеральным законом от 31 июля 1998 г. N 154-ФЗ "О внесении
    изменений и дополнений в Закон Российской Федерации
    "О сертификации продукции и услуг" (Собрание законодательства
    Российской Федерации, 1998, N 31, ст. 3832)
    и является
    основополагающим документом системы сертификации средств связи для
    Взаимоувязанной сети связи Российской Федерации (далее - Система
    сертификации "Связь"), созданной Министерством Российской Федерации
    по связи и информатизации (Минсвязи России).



    В соответствии со статьей 16 Федерального закона
    "О связи"
    все средства связи подлежат обязательной
    сертификации в Системе сертификации "Связь" на соответствие
    установленным стандартам, иным нормам и техническим требованиям.
  • Как удалить некоторые строки из файла?

    @anysofronova Автор вопроса
    Animkim, строки разные, но все состоят из 1-го слова
    только 1 файл обработать на 25 гб
  • Как удалить некоторые строки из файла?

    @anysofronova Автор вопроса
    Biba_neBoba, это все что нужно от этой части программы
    нужно именно на питоне
  • Из-за чего может быть ошибка "'str' object is not callable"?

    @anysofronova Автор вопроса
    planc, наверное я тупая, ноя не вижу где у меня
    tokenize.tokenize.open
    , вижу только
    tokenize.open

    5cbc3bf447446255899898.png
  • Как удалить из текста редко встречающиеся слова?

    @anysofronova Автор вопроса
    мне никто не ставит задачи

    1) тип фала обычный txt
    2) удалить надо потому что строить эмбеддинги по словам которые встречаются в тексте менее 3х раз бессмысленно
    3) нормализация слов уже была произведена (на каждой строке файла уже хранятся нормированные слова)
    4) слово должно встречаться 3 и более раз
    5) если есть опечатки встречающиеся более 3х раз пусть живут, если менее то удалять
  • Как удалить из текста редко встречающиеся слова?

    @anysofronova Автор вопроса
    sim3x, есть файл(25ГБ) мне нужно удалить слова которые на протяжении всего файла встречаются 1 или 2 раза, все остальные оставить на своих местах
  • При работе с multiprocessing появляется ошибка кодировки?

    @anysofronova Автор вопроса
    ScriptKiddo,

    Вот так работает:
    Phrase_1 = Thread(target = Noun_Phrase, args = ('./wiki/wikido1.txt', 'file_1.txt'))
    Phrase_2 = Thread(target = Noun_Phrase, args = ('./wiki/wikiot1do2.txt', 'file_2.txt'))
    Phrase_3 = Thread(target = Noun_Phrase, args = ('./wiki/wikiot2.txt', 'file_3.txt'))
    
    Phrase_1.start()
    Phrase_2.start()
    Phrase_3.start()
    
    Phrase_1.join()
    Phrase_2.join()
    Phrase_3.join()


    Вот так нет:
    data = [
        ('./wiki/wikido1.txt', './wiki/file_1.txt'),
        ('./wiki/wikiot1do2.txt', './wiki/file_2.txt'),
        ('./wiki/wikiot2.txt', './wiki/file_3.txt'),
    ]
    
    with mp.Pool(mp.cpu_count()) as pool:
        pool.starmap(Noun_Phrase, data)
  • Как заставить multiprocessing работать?

    @anysofronova Автор вопроса
    Когда пытаюсь сделать через multiprocessing, jupyter ругается на кодировку (is not UTF-8 encoded)
    Хотя когда использую threading на тех же файлах никаких ошибок не возникает
    Не знаете в чем может быть проблема?
    Перепроверила кодировку файла она точно UTF-8
  • Как заставить multiprocessing работать?

    @anysofronova Автор вопроса
    а я могу оставить вот так? или все таки стоит добавить asyncio?

    data = [
        ('./wiki/wikido1.txt', './wiki/file_1.txt'),
        ('./wiki/wikiot1do2.txt', './wiki/file_2.txt'),
        ('./wiki/wikiot2.txt', './wiki/file_3.txt'),
    ]
    
    with concurrent.futures.ThreadPoolExecutor() as executor:
        res = executor.map(Noun_Phrase, data)


    не совсем понимаю как это все реализовать
  • Как заставить multiprocessing работать?

    @anysofronova Автор вопроса
    А производительность будет той же? Или как с threading?
  • Как заставить multiprocessing работать?

    @anysofronova Автор вопроса
    Там же как раз про threading?
  • Где скачать дамп википедии, разделенный на предложения?

    @anysofronova Автор вопроса
    sim3x, я пыталась его открыть и через браузер и через блокнот, он не открывается просто пустая вкладка, а когда пыталась открыть на ноуте, он начал произвольные перезагрузки, пока не удалила этот файл
  • Как передать функции несколько списков?

    @anysofronova Автор вопроса
    javedimka, он почему то не работает
    import math
    '''Functions'''
    def lagr(k, mx, my):
    	i=0
    	j=0
    	Lagrange=0
    	while i<n:
    		numerator=1
    		denominator=1
    		while j<n:
    			if(i!=j):
    				numerator=numerator*(k-mx[j])
    				denumerator=denumerator*(mx[i]-mx[j])
    				j+=1
    		Lagrange=Lagrange+my[i]*numerator/denumerator
    		i+=1
    	return Lagrange
    '''                          Given                    '''
    n=3
    m=2*n
    a=0
    b=math.pi
    '''                         NUMBER 1                  '''
    i=1
    stepn=(b-a)/(n)
    x=[]
    x.insert(0,a)
    while i<n:
    	x.insert(i,x[i-1]+stepn)
    	i+=1
    '''                         NUMBER 2                  '''
    i=0
    y=[]
    while i<n:
    	y.insert(i,math.sqrt(((math.sin(x[i]))**2)/((math.cos(x[i]))**2)+2))
    	i+=1
    '''                         NUMBER 4                  '''
    i=1
    stepm=(b-a)/(m)
    array=[]
    array.insert(0,a)
    while i<m:
    	array.insert(i,array[i-1]+stepm)
    	i+=1
    '''                         NUMBER 5                  '''
    i=0
    f=[]
    L=[]
    i=0
    while i<m:
    	f.insert(i,math.sqrt(((math.sin(array[i]))**2)/((math.cos(array[i]))**2)+2))
    	i+=1
    i=0
    while i<m:
    	L.insert(i,lagr(array[i],array,f))
    	i+=1
    
    i=0
    while i<m:	
    	print array[i], f[i], L[i]
    	print('')
    	i+=1

    вот весь код