@inalan

Где взять датасет (данные) содержащий иронию и сарказм?

Нигде не нахожу размеченные датасеты для русского языка, содержащие сарказм. Везде обыскал (kaggle итп). Может у кого нибудь есть эти данные или знает где найти?
  • Вопрос задан
  • 303 просмотра
Пригласить эксперта
Ответы на вопрос 3
Noizefan
@Noizefan
Сам собери, ты же айтишник

___
можно распарсить соц сети (особенно твиттер) по хештегам #sarcasm
Ответ написан
@rPman
Дико интересно было бы такую базу собрать
в качестве исходной можно взять дамп пикабу https://pikastat.d3d.info/

ищите по тегам сарказм, смайликам в конце и прочему, но руками выверять придется так или иначе
Ответ написан
Комментировать
@namelessanonymous
Готовых наборов, к сожалению, нет. Но можно собрать самостоятельно. Источником может быть любой сайт с комментариями людей, например, twitter.
Часто сарказм сопровождается соответствующим тегом, содержит больше междометий, оценка обычно не соответствует ситуации. Чтобы точно понимать, конечно, нужно задействовать прагматику.
Кроме того, для идентификации сарказма можно использовать наработки из этого репозитория.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы