У нас датасет с именами пользователей, где пользователи граждане СНГ. Основные кластеры - россияне, таджикистанцы, узбекистанцы, армяне, грузины. Задача - быстро проставить им пол, зная имя.
Список самых частых русских имен нашел, использовал, проблем нет.
Но список имен среднеазиатов да и грузин с армянами на русском не нашел. Встроенные библиотеки Python тоже не помогли. Может есть адекватный датасет с именами и полом? Или хотя бы разделенные списки мужских и женских имен?
1) это анализ последовательностей по какому то признаку
2)По моей же ссылке после ввода капчи выпадет еще с 10, и по моему 20 имен это процентов 95 от общей выборки ели не 98, все остальное легко обработать руками
3)Все когда то кто то делал сам. Почему бы вам это не сделать и не выложить готовый датасет?
с самыми частыми именами. Написал простенький парсер на python с библиотекой Beautiful Soup для самых частых имен. Там есть Россия, Армения, Грузия, Узбекистан, но скажем, нет Киргизии и др.