Симилар учитывает поведение/интересы пользователей в том числе, если не вообще в первую очередь (см. сколько Unknown у него), точность тоже прихрамывает
в целом для корпусов ничего лучше Википедии не придумали: язык вполне живой (не литературный), далеко не академический
без разметки, или обученного/размеченного, понятное дело, обучится не сильно, поэтому, как правило, такие задачи идут через англоязычный вариант
тем не менее, задача решается не только через корпус, но и через Open Graph, структуру страниц и т.п.