Что использовать для обучения на питоне?

Question

lexstile @lexstile

Что использовать для обучения на питоне?

Есть 2 базы текстов, одни подходят, вторые нет.
Необходимо обучить сеть, чтобы она могла определять, какой текст подходит, а какой нет(русский/английский).
Мне нужно, чтобы сеть отличала подачу (как написаны тексты) нужных текстов от тех, которые не подходят.
Можно ли решить подобную задачу по средством библиотек на питоне? Какую лучше использовать?

Вопрос задан более трёх лет назад
187 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

4 комментария

lexstile @lexstile Автор вопроса

Правильно понимаю, подобными способами мы сможем решить задачу различия текста, был ли он написан ботом по определенному шаблону или оставлен человеком?

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

lexstile, Если тексты ботов отличаются по обозначенным признакам, то да, вопрос лишь в том с каким процентом ошибок. И это не магия, это просто очень простые синтетические ганглии, выведенные кнутами и пряниками для того, чтобы различать то, что они даже не понимают. Вообще человек способен определить текст бота? Какой процент ошибок даёт человек? Учтите, что если у злоумышленников будет большое число дешёвых попыток потестировать вашу нейронку, они сделают свою нейронку, которая будет идеально обманывать вашу.

Написано более трёх лет назад
lexstile @lexstile Автор вопроса

Сергей Паньков, человек дает 70% правильных ответов.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

lexstile, Ну пробуйте. Более уверенно вам скажет только специалист с филологическим бэкгроаундом и знакомый с концепцией ML

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- вчера
- 93 просмотра
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 146 просмотров
0

ответов
Мобильные устройства

+1 ещё

Простой
Какой девайс взять, чтоб за границей говорить и слушать иностранцев?
- 3 подписчика
- 08 дек.
- 451 просмотр
4

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 212 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 140 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 135 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 251 просмотр
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 294 просмотра
1

ответ
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 189 просмотров
0

ответов
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

чтобы сеть отличала подачу (как написаны тексты)
здесь поподробнее, плиз, что под этим подразумеваете?
Если на выходе все понятно - 0,1 то на входе не совсем все ясно.
Какие будут входные параметры? Например это количество прилагательных или это это слова без ошибок или что-то еще?
101-s, я пока ищу направление.
Есть два текста - один подходит, второй - нет.
ВОт мне нужно решить задачу, чтобы сеть выдавала вероятность, что этот текст подходит.
Привязки к части речи нет. Есть только набор предложений.
Один текст оставлен роботом, второй - человеком.
Мне нужно второй пропускать далее, а первый чтобы мимо шел.

Answer 1 · 2020-04-28 16:01:07

чтобы сеть отличала подачу (как написаны тексты)

Святая наивность!
По такой четкой постановке грех не решить задачу одной строчкой вообще.
Готовой библиотеки для "сравнения подачи текста (как написано)" вы не найдёте.

Пробуйте посчитать суммарную статистику N-грамм для всех подходящих и неподходящих текстов. Возьмите топ этой статистики (m самых часто употребимых в корпусе размеченных текстов n-грамм), зафиксируйте сортировку n-грамм и формируйте m-мерные вектора для каждого текста.
На получившихся векторах обучайте многослойную нейронку.
Экспериментируйте со скрытыми слоями, с размером вектора m, размером обучающей выборки, чтобы избегать переобучения и получить достаточный коэффициент правильных ответов.

Если корпуса маловаты, попробуйте мутировать их смешивая тексты с разбитием по предложениям. Но чудес от этого не ждите, кардинально выборку вы так не увеличите. На какие-то проценты, может быть улучшите прогноз.

А так у яндекса есть какой-то инструментарий.
Вот еще https://www.nltk.org/
Либу для нейронок на питоне вообще найти не проблема. Любую берите с которой проще освоиться.

Можно попробовать с нормализацией слов перед векторизацией поиграться, но вместе с окончаниями может потеряться важное: фамильярность, падежи, лица, деепричастия и прочие обороты.
По-хорошему нужно дать тексты почитать филологу, чтобы он сделал заключение по каким основным критериям разбит корпус. Даже если критерии будут нечеткими, вы, возможно, поймёте допустима ли нормализация, какие фиксипрованные критерии добавить...
Возможно эффективным будет в вектор независимо от частотности добавить матерные слова, просторечивые выражения, неологизмы, признаки наличия сложносочинённых предложений, признаки переусложнённого словообразования и т.д.
Это, в зависимости от назначения вашей системы, может помочь или помешать.

Консультируйтесь со специалистами. Всё на свете нейронками не закидаешь.

Answer 2 · 2020-04-28 21:45:43

Парень, я конечно понимаю, возможно ты еще недостаточно опытен в данной сфере программирования и многие будут бросаться на меня с оскаленными зубами и аргументами о моей неграммотности, но дам тебе совет, просто бери одну строку из текста, далее сделай перебор строки по символам с помощью цикла и во время перебора проверяй не совпадает/ют символ/ы в строке с английскими буквами(можешь создать список с отдельно написанными буквами 'a', 'b', 'c' и т.д). Надеюсь я тебе помог) На самом деле это очень извращенский способ, но тем не менее рабочий :)

Если будет нужна помощь, можешь обратиться сюда: vk.com/yuraafanasiev почти всегда на связи

Что использовать для обучения на питоне?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт