Какой проект по нейросетям с текстом (лингвистика или вокруг) можно реализовать школьнику?

Коллеги, приветствую.

Дети учатся в школе и одна из них хочет в качестве проекта взять что-нибудь "техническое".
Учиться умеют и любят (на python'е кодить немного умеют), и я хотел бы предложить им покопать в сторону нейронных сетей.
Материала для ликбеза я поднакопил, ссылок на литературу для изучения тоже.

Посоветуйте, пожалуйста, с чего можно начать такое обучение (какую задачу взять в качестве проекта). Желательно в работе с текстами (вторая из ребёнков увлекается филологией).

И, на самом деле, любым ссылка на адекватные обучалки, которые сможет понять школьник 10-ого класса (с хорошим уровнем математики), буду тоже благодарен.
  • Вопрос задан
  • 3474 просмотра
Пригласить эксперта
Ответы на вопрос 5
pro_co_ru
@pro_co_ru
Старший инженер-программист
Можно попробовать сделать что-нибудь вроде прогнозирования оценки за сочинение на основе возраста(класса) автора и самого текста сочинения.

Ну и чтобы было ещё интересней, можно заточить нейронную сеть прогнозировать оценки за сочинения по темам касающимся только произведения Война и Мир, Толстого. Как раз для 10-ого класса актуально.

Правда нужно будет где-то раздобыть большое кол-во данных для обучения, сочинения с разными оценками, как двоечные, так и те что на отлично.
Ответ написан
Комментировать
@xdgadd
ML/Python/Cpp
Для начала объясните ученикам, что такое машинное обучение и как оно работает. Разумно будет начать с простейшей линейной регрессии и градиентного спуска, потом перейти к задаче классификации и логистической регрессии, рассказать, почему линейные модели справляются не всегда(практически никогда). Далее расскажите про обычные полносвязные сетки и более хорошие методы оптимизации(sgd, momentum etc.)
После этого ваши ученики будут готовы для встречи со свёрточными и рекуррентными сетями. Про word embeddings(w2d, bag-of-words, tf-idf etc.) можно рассказать прямо по ходу.

Ссылки:
1) https://github.com/goto-ru/Basic_ML, задания рассчитаны на учеников 10-11 классов и студентов 1-2 курсов.
2) word2vec
3) Лабы по RNN: 1, 2.
4) karpathy.github.io/2015/05/21/rnn-effectiveness - очень понятно про рекуррентные сети.
5) CNN in NLP: 1, 2, 3.
6) https://distill.pub/ - простым языком про сложные вещи.
Ответ написан
sgjurano
@sgjurano
Разработчик
Из известных мне, проще всего можно решить задачу распознавания языка документа путем сравнения частотностей символов (по MSE) с известными из тренировочного корпуса.
Ответ написан
Комментировать
@evrog
У меня первокурсники анализируют спам, примеров в Интернете много. Вроде, понимают.

Еще можно закачать анекдотов и сравнивать их, например, со случайными отрывками из литературы и новостей. Скачивать и случайные отрывки нарезать они могут попробовать сами. Заодно вкусят все тяготы лингвистического труда :)

В 11-м классе, если они не сбегут, можно познакомить их с word embeddings и уже скармливать нейронным сетям не просто ключевые слова, а слова "со смыслом" (вектора, то есть).
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
я хотел бы предложить им покопать в сторону нейронных сетей.

любым ссылка на адекватные обучалки, которые сможет понять школьник 10-ого класса

Вы себя - СЛЫШИТЕ?!
PS: нейросети - это формулы вышмата.

UPD:
Тема: определение всех возможных характеристик слова: часть речи, число, падеж и т.д.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы