Как итерировать по биграммам?

Question

Timebird @Timebird

Как итерировать по биграммам?

Имеются биграммы из текста, полученные следующим кодом:

token = nltk.word_tokenize(train_words)
bigrams = ngrams(token, 2)
print(list(bigrams))

Вывод (сократил):

[('Вот', 'дом'), ('дом', 'Который'), ('Который', 'построил'), ('построил', 'Джек'), ('Джек', 'А'), ('А', 'это'), ('это', 'пшеница'), ('пшеница', 'Которая'), ('Которая', 'в'), ('в', 'тёмном'), ('тёмном', 'чулане'), ('чулане', 'хранится'), ('хранится', 'В'), ('В', 'доме'), ('доме', 'Который'), ('Который', 'построил'), ('построил', 'Джек'), ('Джек', 'А'), ('А', 'это'), ('это', 'весёлая'), ('весёлая', 'птица-синица'), ('птица-синица', 'Которая'), ('Которая', 'часто'), ('часто', 'ворует'), ('ворует', 'пшеницу'), ('пшеницу', 'Которая'), ('Которая', 'в'), ..., ]

Вопрос: необходимо, допустим, банально проитерировать -- сначала вывести первую биграмму в списке, а потом первое слово первой биграммы списка. Как это сделать?
Пробую банально:

for bigram in bigrams:
    print(bigram)

Но jupyter не выводит вообще ничего. В чём же дело?

Вопрос задан более трёх лет назад
657 просмотров

2 комментария

Подписаться 2 Простой 2 комментария

Lander @usdglander

К вопросу напрямую это не относится, но вы слышали про машину Маркова?

Написано более трёх лет назад
javedimka @javedimka
Отвечая на вопрос как же "вывести первую биграмму в списке, а потом первое слово первой биграммы списка. Как это сделать?"
Раз уж выяснили почему цикл ничего не выводил, то так:
for bigram in bigrams: print(bigram, bigram[0], sep='\n')
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 2

1 комментарий

javedimka @javedimka
Думаю потому что ngrams это функция которая возвращает генератор, а по генератору можно пройтись лишь раз что и делает вызов list(), поэтому дальнейший цикл ничего не делает

>>> def ngrams(): ... for i in [1,2,3]: ... yield i ... >>> s = ngrams() >>> list(s) [1, 2, 3] >>> for i in s: ... print(i) ... >>> s = ngrams() >>> for i in s: ... print(i) ... 1 2 3 >>> list(s) []

upd: да, если смотреть в сорцы то именно это она и делает.
Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 194 просмотра
0

ответов
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 55 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 173 просмотра
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 183 просмотра
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 125 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 219 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 229 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 151 просмотр
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 154 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 113 просмотров
0

ответов
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

К вопросу напрямую это не относится, но вы слышали про машину Маркова?
Отвечая на вопрос как же "вывести первую биграмму в списке, а потом первое слово первой биграммы списка. Как это сделать?"
Раз уж выяснили почему цикл ничего не выводил, то так:
for bigram in bigrams: print(bigram, bigram[0], sep='\n')

Answer 1 · 2017-10-08 04:44:21

Не знаю почему, но вывод print(list(bigrams)) ломает выполнение for, если закомментить, то цикл нормально отработает, но можно ещё как то так:

lst= list(bigrams)
print(lst)
bigrams=iter(lst)

Answer 2 · 2017-10-10 17:57:29

Выше уже ответили - потому что ngrams возвращает генератор, по которому можно пройтись в цикле только один раз. Можете сделать себе N независимых итераторов и экспериментировать)))

from itertools import tee
bgen1, bgen2, bgen3 = tee(ngrams(token, 2), 3)

Как итерировать по биграммам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт