Где и как можно собрать корпус на разных языках для классификатора веб стриниц?

Задача состоит в том, чтобы сделать классификатор сайтов на подобии Similarweb (список категорий)

Как можно собрать корпус для обучения такого классификатора на разных языках? Какие подходы библиотеки для этого лучше использовать? Может кто уже делал для продакшена такие классификаторы, поделитесь опытом: архитектура, алгоритмы, производительноть, стэк технологий, проблемы, подводные камни и т.д?
  • Вопрос задан
  • 171 просмотр
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
Симилар учитывает поведение/интересы пользователей в том числе, если не вообще в первую очередь (см. сколько Unknown у него), точность тоже прихрамывает

в целом для корпусов ничего лучше Википедии не придумали: язык вполне живой (не литературный), далеко не академический

без разметки, или обученного/размеченного, понятное дело, обучится не сильно, поэтому, как правило, такие задачи идут через англоязычный вариант

тем не менее, задача решается не только через корпус, но и через Open Graph, структуру страниц и т.п.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы