['Г.', 'Кемерово,', 'ул.', 'Терешковой', '58']
['Г.', 'Кемерово,', 'ул.', 'Лукашевского', '58.', '2.']
['г.', 'Кемерово,', 'ул.', 'Юрия', 'Двужильного', '50.']
['г.', 'Кемерово,', 'ул.', 'Ленина', '50']
['Г.', 'Кемерово,', 'ул.', 'Лукашевского', '58.', '2.']захвачен ненужный элемент `2`
docx = zipfile.ZipFile('test.docx')
content = docx.read('word/document.xml').decode('utf-8')
cleaned = re.sub('<(.|\n)*?>', ' ', content)
lol = cleaned.split()
a = [i for i,x in enumerate(lol) if x == 'Г.']
b = [i for i,x in enumerate(lol) if x == 'г.']
def search(indexel):
pprint.pprint(lol[i:i + 6])
search(a+b)