Если я хочу чтобы нейросеть детектировала в тексте "продам единорога", мне нужно скармливать ей длинные тексты с шумом (500-700 символов) где в конце будет о продаже единорога или много коротких разных вариантов о продаже?
evomed, если модерация не проводилась значит датасета нет, а есть сырой набор необработанных данных
если это серьезная задача, а не домашка условно в вузе - проще использовать few shots learning с любой современной БЯМ.