Определение языка текста

Question

Максим @maxout

Средства изучения английского языка

Определение языка текста

Исходные данные: есть сотни тысяч небольших текстов, написанных на всех известных науке языках.
Цель: оставить только те из текстов, которые написаны на русском или английском языке, остальные отбросить.

Как делаю сейчас:
1. С помощью PCRE выкидываю из текста всё, кроме букв (\p{^L}).
2. Так же убираю русские и английские буквы ([а-яa-z]).
3. Если что-то осталось — считаю текст не русским и не английским, соответственно отбрасываю.

В текущем раскладе есть как false positive так и false negative ошибки, это расстраивает.
Первые: в немецком или французском, например, тексте, может по несчастливой случайности не быть ни одного умляута и он посчитается английским.
Вторые: в корректном русском или анлийском тексте может встретиться какое-нибудь, например, имя собственное с умляутом, либо цитата из других языков — текст будет ошибочно отброшен.

Вопрос: не говоря о стопроцентном распознавании языка (оставим это экспертным системам и прочему ИИ), есть ли возможность снизить число ошибок распознавания? Интересуют готовые библиотеки (PHP, perl) / публичные веб-сервисы либо алгоритм, который достаточно прост в имплементации.

Вопрос задан более трёх лет назад
10109 просмотров

2 комментария

Подписаться 6 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Инглекс

Экспресс-курсы английского языка

1 день

Далее
Юлия Грунтович

Английский с нуля. Уроки по 7 минут (Авторская программа)

1 месяц

Далее
Skyeng

Курсы английского языка с нуля

1 день

Далее

Пригласить эксперта

Ответы на вопрос 6

1 комментарий

Комментировать

1 комментарий

2 комментария

Максим @maxout Автор вопроса

русский текст выцепить процентным соотношением — вполне корректно.
а вот с английским поиск по артиклям чересчур ненадёжен.

Написано более трёх лет назад
lugansk @lugansk

>> а вот с английским поиск по артиклям чересчур ненадёжен

the в каких ещё языках есть? для английского типичніе слова, несвойственные другим языкам, могут быть такие: the… was, were… has, had… we, I (только заглавной буквой и отдельным словом), she… or, now, окончания -ed и т.д.

Можно провести частотный анализ текстов или воспользоваться готовым частотным словарём, чтобы выделить 20-30 наиболее используемых слов, отсутствующих или редко употребляемых в остальных языках.

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Средства изучения английского языка

Средний
Где получить английский с техническим уклоном?
- 4 подписчика
- 15 мар.
- 303 просмотра
1

ответ
Средства изучения английского языка

Простой
Как правильно тренировать навык аудирования в английском?
- 1 подписчик
- более года назад
- 522 просмотра
2

ответа
Средства изучения английского языка

Простой
Какие русскоязычные социальные сети, форумы для изучающих английский вы знаете?
- 1 подписчик
- более года назад
- 273 просмотра
0

ответов
Книги

+1 ещё

Сложный
Через какую программу перевести текст цветной с таблицами в электронный вид (Книга Английского Соловов В.Н)?
- 2 подписчика
- более двух лет назад
- 264 просмотра
4

ответа
Linux

+2 ещё

Простой
Апп для заучивания иностранных слов по задаваемому словарю?
- 4 подписчика
- более двух лет назад
- 499 просмотров
3

ответа
Расширения для браузеров

+1 ещё

Простой
Расширение как скрипт puzzle-english?
- 1 подписчик
- более двух лет назад
- 153 просмотра
1

ответ
Средства изучения английского языка

Простой
Как лучше повышать словарный запас?
- 1 подписчик
- более двух лет назад
- 505 просмотров
2

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какие есть хорошие пдф читалки?
- 2 подписчика
- более двух лет назад
- 268 просмотров
2

ответа
Средства изучения английского языка

Простой
Хороший ли метод учить английский язык путём чтения текстов на medium, dev.to и тому подобных площадках?
- 1 подписчик
- более трёх лет назад
- 398 просмотров
1

ответ
Средства изучения английского языка

Простой
Изучение английского через погружение, правильный ли подход?
- 1 подписчик
- более трёх лет назад
- 328 просмотров
2

ответа
Показать ещё Загружается…

Да, про N-граммы в курсе, это жесть и остаётся только на самый крайний случай.
Нашёл PHP-класс с готовыми N-граммами: boxoffice.ch/pseudo/ng.php
Это именно то, что нужно, вопрос снят.

Answer 1 · 2010-11-30 11:05:36

1. Для небольших текстов 100% распознавание невозможно будет в принципе.
2. Для улучшения распознавания надо делать экспертную систему с базой слов и с частотами различных языков.

Но возможно получится воспользоваться Google переводчиком с помощью API или еще каким-нибудь.

Обзор определителей языков есть здесь. Может быть у некоторых есть API.

Answer 2 · 2010-11-30 14:56:26

Можно сравнивать частотный характеристики текстов.

www.statsoft.ru/home/portal/exchange/textanalysis.htm

как видно — одни и те же буквы в разных языках используются с разной частотой — за счёт этого можно улучшить распознавание языка. И отделять, казалось бы неотделимые =) (при достаточном объёме текста, конечно же)

Answer 3 · 2010-11-30 17:37:09

>> 1. С помощью PCRE выкидываю из текста всё, кроме букв (\p{^L}).
>> 2. Так же убираю русские и английские буквы ([а-яa-z]).
>> 3. Если что-то осталось — считаю текст не русским и не английским, соответственно отбрасываю.

В английском тексте могут быть заимствованные слова, сохранившие оригинальное написание café, Übermensch и т.д. Кроме того, текст на языке с латинским алфавитом может набираться без диакритики, если он набирается на компьютере, на котором установлена только английская раскладка.

Сделайте для каждого нужного языка список распространённых в нём служебных слов, местоимений и т.д., которые не используются в остальных языках и проверяйте их наличие в тексте.

К примеру, для итальянского, немецкого, французского замечательно подойдут артикли, местоимения и вспомогательные глаголы (К примеру, немецкий: ein, eine, eines, einem… der, die, das, dem, den… bin, bist, ist, war, wurde… ich, er, sie..., также приставка ge- при окончании -en или -t и т.д.). Только не доверяйте одному найденному слову на 100%, к примеру, bin (нем. = «есмь») есть в английском (напр. «recycle bin», вообще, весело, наверно, немцам английский учить… сравните в этих языках значения слов mist, after, gift).

Кроме того, можно добавлять вероятность, обнаружив типичные для данного языка сочетания букв (для немецкого sch, ei...). Для определения украинского кроме наличия в тексте є, ї, і, ґ, отсутствия ы и ъ можно использовать поиск і в качестве союза.

Если языков немного, то несложно собрать данные об их особенностях.

Ещё можете поэксперементировать с Google Language API (пример).

Кроме того, можете погуглить «language identifier», может найдётся что-то готовое подходящее.

Answer 4 · 2010-11-30 10:22:40

А если считать частоту символов? Т.е. посчитать процент русских букв, английских и прочих?
От французского без умляутов это не спасет, а вот с русским текстом поможет.
Далее, проверка на английский: поискать в тексте слова the, is, a (Может что-то еще часто употребляемое). Не знаю, есть ли они в других языках, но в тексте на английском должны быть.

Answer 5 · 2010-11-30 12:42:46

Насчёт имен собственных — нужно анализировать не только частоту символов, но и их локализацию. Т.е. если у нас остались какие-то буквы помимо русских и английских — ищем их в тексте. Если они рядом, и процент их меньше «порога срабатывания»(коэффициенты для «рядом» и «порог срабатывания» подобрать экспериментально), то игнорируем эти посторонние буквы при определении языка.

Answer 6 · 2010-11-30 15:58:49

посмотрите вот этот топик, я думаю идею можно очень легко адаптировать для определения языка.
habrahabr.ru/blogs/php/107945/

Определение языка текста

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт