Как исправить данные ошибки Python?

Question

О О @XXI_BEK

Студент

Python

Как исправить данные ошибки Python?

def process(train, categories):
 cats = categories
 cats.append('full')
 mux = pd.MultiIndex.from_product([['Count', 'TF', 'TF-IDF'],['Без стоп-слов', 'Со стоп-словами']])
 summary = dict()

 for category in cats:
  summary[category] = pd.DataFrame(columns=mux)

  stop_words = [None, 'english']
  idf = [False, True]

  indx_stop = {
      'english': 'Без стоп-слов',
      None: 'Со стоп-cловами'
      }

  indx_tf = {
      False: 'TF',
      True: 'TF-IDF'
      }

  for category in cats:
    for stop in stop_words:
      vect = CountVectorizer(max_features=10000, stop_words=stop)
      vect.fit(train[category])
      train_data = vect.transform(train[category])
      summary[category]['Count', indx_stop[stop]] = top_list(vect, train_data, 20)

      for tf in idf:
        tfidf = TfidfTransformer(use_idf = tf).fit(train_data)
        train_fidf = tfidf.transform(train_data)
        summary[category][indx_tf[tf], indx_stop[stop]] = top_list(vect, train_fidf, 20)

  return summary

Как исправить ошибку (на скрине)?

Ошибка:

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-86-aeec6dd651b6> in <cell line: 1>()
----> 1 summ_without_stem = process(twenty_train, categories)
      2 summ_with_stem = process(stem_train, categories)
      3 
      4 for cat in ['full'] + categories:
      5  summ_without_stem[cat].to_excel('without_stem_' + cat + '.xlsx')

<ipython-input-52-471fdaede5b1> in process(train, categories)
     26       vect.fit(train[category])
     27       train_data = vect.transform(train[category])
---> 28       summary[category]['Count', indx_stop[stop]] = top_list(vect, train_data, 20)
     29 
     30       for tf in idf:

KeyError: 'rec.motorcycles'

Вопрос задан более двух лет назад
330 просмотров

5 комментариев

Подписаться Простой 5 комментариев

Алан Гибизов @phaggi Куратор тега Python
Я слабо улавливаю физическую суть происходящего, но в общем есть два пути:

валидация значения ключа до его применения

обработка возникшего исключения

я за обработку исключения, но надо:

максимально сузить поле отлова исключения

осмысленно его обработать, не получив неожиданных сайд-эффектов.
Написано более двух лет назад
Михаил Р. @Mike_Ro Куратор тега Python

Любой код и логирование (втч. ошибки) - нужно писать текстом, а не вставлять скрины.

Написано более двух лет назад
О О @XXI_BEK Автор вопроса

Алан Гибизов, В том то и дело, что ключ этот есть

Суть происходящего - который должен обрабатывать текстовые данные, почему-то бросает ошибку, такого ключа нет.
Я плохо (никак) знаю Python поэтому и решил спросить

Написано более двух лет назад
theurus @theurus

используй отладчик, поставь точку прерывания в нужном месте и посмотри что там на само деле есть

Написано более двух лет назад
О О @XXI_BEK Автор вопроса

theurus, хорошая шутка, в Colab нет отладки

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

18 комментариев

О О @XXI_BEK Автор вопроса
Насколько я понял, ошибка кроется тут

summary[category]['Count', indx_stop[stop]] = top_list(vect, train_data, 20)

Здесь происходит запись в словарь summary значений по ([][]) двойному ключу, причем
Написано более двух лет назад
Максим Припадчев @Maksim_64

О О, Ну это понятно, и из сообщения об ошибке.
summary[category] - вот это ключ словаря.
['Count', indx_stop[stop]] - вот это затем когда ты получил выбрал определнный фрейм, попытка выбора подсета фрейма.
далее выбранному подсету ты присваиваешь значения.
Ну сделай print(cats) до всех циклов. Я не знаю это я так понимаю только часть программы, попробуй cats = category.copy()

Написано более двух лет назад
О О @XXI_BEK Автор вопроса
Максим Припадчев, да, да, только подсет не выбирается, а создается, может в этом ошибка?

['alt.atheism', 'rec.motorcycles', 'talk.politics.guns', 'full']
а это, выдает print cats
Написано более двух лет назад
Максим Припадчев @Maksim_64

О О, Здесь происходит запись в словарь summary значений по ([][]) двойному ключу, причем. Но значениями в словаре у тебя являются pandas dataframe. И пытаешься ты записывать в каждый фрейм который в свою очередь является значениям в твоем словаре.

Написано более двух лет назад
Максим Припадчев @Maksim_64

О О, перед вот этой строчкой summary[category]['Count', indx_stop[stop]] = top_list(vect, train_data, 20)
сделай, print(summary.keys())

Написано более двух лет назад
О О @XXI_BEK Автор вопроса

Максим Припадчев, Сложно...
1. Словарь summary состоит из pandas dataframe (?)
2. Я записываю в каждый фрейм 2 вариации: summary[category]['Count', indx_stop[stop]] = top_list(vect, train_data, 20) со стоп словом и без. Но мне отладчик упорно говорит, нет ключа 'rec.motorcycles'

Написано более двух лет назад
О О @XXI_BEK Автор вопроса

Максим Припадчев,
dict_keys(['alt.atheism'])
dict_keys(['alt.atheism'])
dict_keys(['alt.atheism'])
Вы правы, каким-то образом 3 одинаковых ключа

Написано более двух лет назад
Максим Припадчев @Maksim_64

О О, Конечно, я тебе еще в ответе на это указал. Более того каждый фрейм не простой а имеет иерархичекий индекс. У него не просто колонки, а затем ты итеририруешься по ним и пытаешься заполнить. Перечитай мой ответ. Я тебе не зря указал посмотреть примеры использования CountVectorizer.

summary[category] = pd.DataFrame(columns=mux) Вот это что такое? Это каждое значение твоего словаря фрейм еще и с иерархичесиким индексами.

Написано более двух лет назад
О О @XXI_BEK Автор вопроса

summary[category] = pd.DataFrame(columns=mux) это формирование «таблички» такого типа внутри каждого большого индекса, то есть, таких табличек 4 (cat1 - cat3, full) (прошу прощения за такие слова, но я больше по С/С++, чем python)

Написано более двух лет назад
Максим Припадчев @Maksim_64

О О,
Вот так выглядит каждое значение твоего словаря (фрейм), которые ты пытаешься заполнить, это что бы ты понимал что происходит. Это к слову о декомпозиции.

Написано более двух лет назад
О О @XXI_BEK Автор вопроса

Максим Припадчев, теоритически правильно, осталось понять почему все-таки ошибка

Написано более двух лет назад
Максим Припадчев @Maksim_64

О О, Это не теоретически, это значение твоего объекта, именно твоего, а не как бы твоего, распечайтай после summary[category] = pd.DataFrame(columns=mux), сначала ключи словаря, они там все, а затем значение любого ключа. Сейчас, минут 10 подумаю и найду ошибку, хотя весь код переписывать надо, справишься с этой придет другая.

Написано более двух лет назад
Максим Припадчев @Maksim_64

О О, Не 10 минут не требуется, я уже понял в чем ошибка, сейчас посмотрим поправима ли она.

Написано более двух лет назад
О О @XXI_BEK Автор вопроса

Вроде ничего особо не менял (только табуляцию строк)
ошибку не бросает, но крутит уже 2 минуты именно на этой второй строчке (первую легко прошло)

Такого ужаса не ожидал...

Написано более двух лет назад
Максим Припадчев @Maksim_64
О О, ты можешь использовать обернуть, в try except и код запустится. И даже он там заполняет этот фрейм. Но я тебе еще раз говорю, таким образом заполнять иереархичские фреймы, это безнадега. То есть

try: summary[category]['Count', indx_stop[stop]] = top_list(vect, train_data, 20) except IndexError: pass
И так же ниже в коде, где ты подобную оперцию делаешь. Но все это очень плохой код, мы делаем то что делать не должны. Лишь бы запустилось, все надо переписывать. Фундаментально попытка не правильная.
Написано более двух лет назад

О О @XXI_BEK Автор вопроса

Максим Припадчев, ок, спасибо... Можете еще пояснить NaN это нормально тут, и почему при стеменге очень долго считает (та самая вторая строчка кода на скрине 14 коммента)?

{'alt.atheism':               Count                                              TF  \
      Без стоп-слов Со стоп-словами                   Без стоп-слов   
0        (god, 405)             NaN       (don, 23.028134212098568)   
1     (people, 330)             NaN         (god, 22.7390659634348)   
2        (don, 262)             NaN    (people, 21.992093372266293)   
3      (think, 215)             NaN      (think, 19.74329451753867)   
4       (just, 209)             NaN      (just, 17.438244100003825)   
5       (does, 207)             NaN       (say, 13.934933025414747)   
6    (atheism, 199)             NaN      (does, 13.529289650005731)   
7        (say, 174)             NaN      (know, 12.778648157368789)   
8    (believe, 163)             NaN      (like, 11.853680054917413)   
9   (atheists, 162)             NaN  (religion, 10.659592714019288)   
10      (like, 162)             NaN        (time, 9.52880161781797)   
11  (religion, 156)             NaN       (said, 9.481693846015904)   
12     (jesus, 155)             NaN     (atheism, 9.07019912579126)   
13      (know, 154)             NaN     (believe, 8.86045824397283)   
14  (argument, 148)             NaN       (good, 8.179118655145967)   
15      (time, 135)             NaN        (ve, 7.9196590076244995)   
16      (said, 131)             NaN       (way, 7.6007624135558745)   
17      (true, 131)             NaN        (did, 7.484046074823044)   
18     (bible, 121)             NaN      (bible, 7.332003632101348)   
19       (way, 120)             NaN      (islam, 7.246044059603053)   

                                           TF-IDF                  \
   Со стоп-словами                  Без стоп-слов Со стоп-словами   
0              NaN      (god, 13.339517067126604)             NaN   
1              NaN      (don, 11.143284660635869)             NaN   
2              NaN    (people, 11.03896851681279)             NaN   
3              NaN    (think, 10.439852532165277)             NaN   
4              NaN      (just, 9.826482653437349)             NaN   
5              NaN      (does, 7.924096838404766)             NaN   
6              NaN       (say, 7.876077346828552)             NaN   
7              NaN      (know, 7.190324073904586)             NaN   
8              NaN  (religion, 6.920697244672647)             NaN   
9              NaN   (atheism, 6.546077204489129)             NaN   
10             NaN      (like, 6.524429710853716)             NaN   
11             NaN    (believe, 5.98515896022011)             NaN   
12             NaN      (said, 5.964300060930759)             NaN   
13             NaN     (time, 5.6232439235315885)             NaN   
14             NaN     (islam, 5.611832827522266)             NaN   
15             NaN     (bible, 5.367745881814317)             NaN   
16             NaN      (did, 5.3278080834004475)             NaN   
17             NaN        (ve, 5.252228683691001)             NaN   
18             NaN  (atheists, 5.238206038094362)             NaN   
19             NaN      (good, 5.236403839018066)             NaN   

             Count                          TF                      TF-IDF  
   Со стоп-cловами             Со стоп-cловами             Со стоп-cловами  
0      (the, 4551)   (the, 142.70912068295237)    (the, 58.72946801777127)  
1       (of, 2643)     (to, 85.82286903919766)     (to, 37.63352694429252)  
2       (to, 2636)      (of, 79.1766711187928)     (of, 36.28679525229283)  
3       (is, 2178)   (that, 70.17532080434249)      (is, 33.1365985493515)  
4     (that, 1983)     (is, 66.39741803525008)  (that, 32.398092983642165)  
5      (and, 1682)   (and, 54.327521179137065)     (you, 27.5232309767464)  
6       (in, 1446)     (you, 53.7576690257119)    (and, 26.05382484121586)  
7       (it, 1430)     (it, 52.35320512022453)    (it, 25.985828093531275)  
8      (you, 1122)     (in, 46.67304386398525)    (in, 23.834386086695314)  
9       (not, 978)   (not, 31.960164969406677)    (not, 18.58878035802214)  
10       (be, 803)    (be, 28.434719343279586)   (are, 16.567546360540593)  
11      (are, 796)   (this, 26.78361973051118)  (this, 16.472783673412255)  
12     (this, 789)   (are, 26.658653308584455)    (be, 16.454558146850715)  
13      (for, 756)   (for, 25.636485421179717)  (have, 15.607111062407983)  
14     (have, 712)  (have, 25.121158687534212)   (for, 15.092515163436014)  
15       (as, 688)    (as, 21.455307779470655)    (as, 14.225196597773422)  
16      (but, 588)    (if, 20.285204686409266)  (they, 13.202729049674149)  
17       (or, 565)   (but, 19.520790480236954)    (if, 13.065711167091644)  
18       (if, 536)     (on, 18.52564088806366)   (but, 12.749259503726345)  
19     (they, 495)   (they, 18.47355135690449)  (what, 12.381880863182444)  , 'rec.motorcycles':                 Count                                               TF  \
        Без стоп-слов Со стоп-словами                    Без стоп-слов   
0         (bike, 336)             NaN       (bike, 35.323361821264406)   
1         (just, 196)             NaN       (like, 22.025167861721894)   
2         (like, 194)             NaN       (just, 21.563057746107546)   
3          (dod, 190)             NaN        (don, 16.633851005280857)   
4          (don, 144)             NaN       (know, 16.118731150889516)   
5         (know, 142)             NaN        (dod, 12.871200662458488)   
6         (good, 121)             NaN        (good, 12.55508390667668)   
7         (ride, 118)             NaN      (think, 12.393350415040643)   
8   (motorcycle, 105)             NaN      (right, 11.767497610255504)   
9         (time, 105)             NaN       (ride, 11.323790052647142)   
10       (right, 102)             NaN      (bikes, 11.093137005593368)   
11       (think, 102)             NaN         (ve, 10.705484130396027)   
12       (bikes, 100)             NaN         (new, 9.902179893443986)   
13          (new, 95)             NaN  (motorcycle, 9.648656954755497)   
14       (riding, 94)             NaN        (time, 9.513332060035598)   
15         (make, 92)             NaN      (riding, 9.439508812212402)   
16           (ve, 90)             NaN        (make, 9.384436582768725)   
17          (way, 88)             NaN      (really, 8.811280224659836)   
18       (helmet, 82)             NaN       (going, 8.762596960015445)   
19        (going, 78)             NaN           (ll, 8.71583963822576)   
}

Написано более двух лет назад

Максим Припадчев @Maksim_64

О О, Все достаточно, я тебе сразу говорю открывай туториал по тому как работать CountVectorizer и делай правильно.

Я не буду тебя учить писать код, который никогда не должен быть написан, лишь бы запустиля.

1. У нас объект словарь у которого значения фреймы + иерархичесикие + значения в этих фреймах python объекты. Они не поддерживают векторизацию.В среднем pandas в 100 раз быстрее чем python. На простых оперциях, по мере роста эта коэффициент будет расти не линейно. Так вот у нас нету никакого pandas потому что, как только тип данных колонок (object) то есть один из типов python, то мы не быстрее python, а можем быть только медленнее. Все у нас ничего нету. Посмотри на значения своих колонок мы на них ничего не сделаем.

2. Нет None быть не должно.

3. Декомпозируй задачу, и постепенно выполняй ее правильно. Весь код не годится.

Написано более двух лет назад
О О @XXI_BEK Автор вопроса

Максим Припадчев,
спасибо за все подсказки =) но учить python (да и pandas) ради одной работы, а уж тем более пытаться нормально писать код (по всем правилам Питона, которого вижу второй раз в жизни и надеюсь больше не увижу <), просто по туториалам и видеороликам был набросан код, который не работал (из-за моей криворукости) )
Я не буду тебя учить писать код, который никогда не должен быть написан, лишь бы запустиля.

Бывают ситуации, когда нужно чтобы он просто запустился, отработал и был забыт =) Еще раз повторю — я не Питонист и не Data-аналитик, и то, что в своем большинстве Вы писали мне не понятно, ровно как и Вам будет не понятно, если я заговорю про СУБД: мульти-инсерты, оптимизацию запросов, или что-то из сферы программирования на С/С++, С# или PHP =)
Еще раз спасибо =) и удачи Вам

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 137 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 100 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 86 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 91 просмотр
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 236 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 270 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 171 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 150 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 271 просмотр
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 156 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Я слабо улавливаю физическую суть происходящего, но в общем есть два пути:

валидация значения ключа до его применения

обработка возникшего исключения

я за обработку исключения, но надо:

максимально сузить поле отлова исключения

осмысленно его обработать, не получив неожиданных сайд-эффектов.
Любой код и логирование (втч. ошибки) - нужно писать текстом, а не вставлять скрины.
Алан Гибизов, В том то и дело, что ключ этот есть

Суть происходящего - который должен обрабатывать текстовые данные, почему-то бросает ошибку, такого ключа нет.
Я плохо (никак) знаю Python поэтому и решил спросить
используй отладчик, поставь точку прерывания в нужном месте и посмотри что там на само деле есть
theurus, хорошая шутка, в Colab нет отладки

Answer 1 · 2023-09-14 10:41:22

Ну смотри, как тебе помочь в слепую на этом коде я не знаю, у меня нету возможности дебажить. Смотри,

1. Ты создаешь словарь summary, где ключи это элементы массива cats, а значения pandas фреймы, (Нормальный ход, так делают).

2. Затем ты обращаешься к ключу сначала словаря, а затем выбираешь подсет фрейма и меняешь его. Подсет фрейма надо выбирать методом loc[index, column]. Посмотри в документации. Key Error может , как ключи словаря давать, так и индексы фрейма тоже key error могут давать, если их там нет.

3. Сделай функцию которая делает все для одного фрейма, функция получит фрейм и вернет фрейм. Когда убедишься что все работает, собирай эти фреймы в словарь. В текущем виде понятно, у меня нет данных что бы дебажить, но код плохо читабельный, тебе нужно больше декомпозиции, что бы ты мог проверять, как твой процесс идет, сделай больше функций и самому будет легче и вопрос более точный можно будет задать.

4. CountVectorizer это scikit-learn посмотри там examples, они там супер, рассмотри так же использование Pipeline, на чистом pandas весь процесс не пишут. То есть всю последовательность трансфлормаций собирают в Pipeline, ты в своем коде еще не дошел до тестового сета, но применит трансформации на тестовых данных сам при чем правильно, если все свои трансформации чейнить в Pipeline.

Как исправить данные ошибки Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт