Почему Beautiful Soup неправильно парсит этот блок?
Вот упрощенный код, на нем баг тоже воспроизводится:
soupIndex = BeautifulSoup('''<div class="vk-comment">
<div class="vk-avatar">
<img src="img.png">
</div>
<div class="vk-comment-name">
Имя автора
</div>
<div class="vk-comment-text">
<p>
Текст коммента
</p>
</div>
<div class="vk-comment-date">
17 минут назад
</div>
</div>''')
template = soupIndex.select_one('.vk-comment')
print(template)
В данной вариации при выводе появляются два лишних div-а... Если длину комментария увеличить в несколько раз, тогда начинает копироваться блок vk-comment-date. Я так понимаю Чем длиннее в символьном представлении этот блок, тем большее количество символов дублируется с конца.
UPD: в качестве парсера по умолчанию стоит html5lib, ОС - Windows 7. Пробовал html parser, там вообще какая-то ахинея творится, тэгу img, например добавляется закрывающий тэг.