Есть токенайзер, который на приведенном этапе делит все по пробелам, чтобы потом эти разделенные части текста стали отдельными токенами. Проблема в том, что некоторые сущности, например, даты, не надо делить на пробелы, а на этом этапе нужно все их найти по регулярному выражению и убрать пробелы между его частями. Как это можно сделать?
def tokenize_line(line):
"""
Разбивает строчку line на токены
"""
#Регулярное выражение примерно такое: '\d{1,2}[. ](\d{1,2}|янв(?:аря)?|фев(?:аля)?|мар(?:та)?|апр(?:еля)?|мая|июн(?:я)?|июл(?:я)?|авг(?:уста)?|сент(?:ября)?|окт(?:ября)?}нояб(?:ря)?|дек(?:абря)?)[. ]\d{4}
splitted = line.split()
tokens = []
for word in splitted:
tokens.extend(tokenize_word(word))
return tokens