Изначально есть сгенерированный csv файл
for i in range(n):
writer.writerow({'title': f.entries[i].title.encode('utf-8'), 'link': f.entries[i].link.encode('utf-8')})
потом мы его читаем и парсим в список, но он с закодированными символами
vocabulary = open('/Users/andrey/Projects/News-parser/vocabulary.csv').read().lower()
chars = sorted(list(set(vocabulary)))
['\n', '\r', ' ', '"', '#', '&', '(', ')', '+', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', '=', '?', '[', ']', '_', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l',
'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '|', '\x80', '\x81', '\x82', '\x83', '\x84', '\x85', '\x86', '\x87', '\x88', '\x89', '\x8b', '\x8c', '\x8d', '\x8e', '\x8f',
'\x90', '\x91', '\x92', '\x93', '\x94', '\x97', '\x98', '\x9a', '\x9b', '\x9c', '\x9d', '\x9e', '\x9f', '\xa0', '\xa1', '\xa2', '\xa3', '\xa4', '\xa5', '\xa6',
'\xa7', '\xa8', '\xab', '\xad', '\xaf', '\xb0', '\xb1', '\xb2', '\xb3', '\xb4', '\xb5', '\xb6', '\xb7', '\xb8', '\xb9', '\xba', '\xbb', '\xbc', '\xbd', '\xbe', '\xbf', '\xc2', '\xd0', '\xd1', '\xe2']