В общем у меня получился нижеприведенный класс, позволяющий расставлять знаки "тире" в местах переноса слов по правилам русского языка.
Класс работает на основе алгоритма Христова, и написан на языке C#.
Запускать на выполнение нижеприведенный код можно строкой:
word = PasteDashes.SeparateWord(word);
Возможно кому пригодиться в будущем.
-------------------------------------------------------
public static class PasteDashes
{
// Метод проверки, есть ли в строке гласные?
private static bool isNotLastSep(string subStr)
{
string vowel = "аеёиоуыэюя";
var b = false;
for (var i = 0; i < subStr.Length; i++)
{
if (vowel.IndexOf(subStr.Substring(i, 1)) != -1)
{
b = true;
break;
}
}
return b;
}
// Метод разбиения слова на слоги
private static List<string> addSeparator(string tmpS, List<string> sepList)
{
sepList.Add(tmpS);
//tmpS = "";
return sepList;
}
// Метод убирания знаков тире после первой буквы и перед последней (если там есть знаки тире)
private static string ConnectFirstAndLastLettersToSyllables(string word)
{
if (word[1] == '-')
word = word.Remove(1, 1);
if (word[word.Length - 2] == '-')
word = word.Remove(word.Length - 2, 1);
return word;
}
//Основной метод работающий по алгоритму Христова
public static string SeparateWord(string word)
{
string vowel = "аеёиоуыэюя";
string voiced = "бвгджзлмнрхцчшщ";
string deaf = "кпстф";
string brief = "й";
string other = "ьъ";
string consonant = "бвгджзйклмнпрстфхцчшщ";
string letter, syllable = "";
var syllables = new List<string>();
for (var i = 0; i < word.Length; i++)
{
letter = word.Substring(i, 1);
syllable += letter;
bool l;
if (word.Length != i + 1)
{
var k = word.Substring(i + 1, 1);
Regex rgx = new Regex("[А-Яа-я]");
l = rgx.IsMatch(k);
}
else
l = false;
if (l)
{
// Проверка на признаки конца слогов
// Если буква равна 'й' и она не первая и не последняя и это не последний слог
if (
(i != 0) &&
(i != word.Length - 1) &&
(brief.IndexOf(letter) != -1) &&
(isNotLastSep(word.Substring(i + 1)))
)
{
syllables = addSeparator(syllable, syllables);
syllable = "";
//continue;
}
// Если текущая гласная и следующая тоже гласная
// EDIT: этот блок необходим если задача - корректно разбить слово на фонетические слоги,
// и не нужен если задача - разбить слово на части, которые можно переносить
//if (
// (i < word.Length - 1)
// && (vowel.IndexOf(letter) != -1) &&
// (vowel.IndexOf(word.Substring(i + 1, 1)) != -1)
// )
//{
// syllables = addSeparator(syllable, syllables);
// syllable = "";
// // continue;
//}
// Если текущая гласная, следующая согласная, а после неё гласная
if (
(i < word.Length - 2) &&
(vowel.IndexOf(letter) != -1) &&
(consonant.IndexOf(word.Substring(i + 1, 1)) != -1) &&
(vowel.IndexOf(word.Substring(i + 2, 1)) != -1)
)
{
syllables = addSeparator(syllable, syllables);
syllable = "";
// continue;
}
// Если текущая гласная, следующая глухая согласная, а после согласная и это не последний слог
if (
(i < word.Length - 2) &&
(vowel.IndexOf(letter) != -1) &&
(deaf.IndexOf(word.Substring(i + 1, 1)) != -1) &&
(consonant.IndexOf(word.Substring(i + 2, 1)) != -1) &&
(isNotLastSep(word.Substring(i + 1)))
)
{
syllables = addSeparator(syllable, syllables);
syllable = "";
// continue;
}
// Если текущая звонкая или шипящая согласная, перед ней гласная, следующая не гласная и не другая, и это не последний слог
if (
(i > 0) &&
(i < word.Length - 1) &&
(voiced.IndexOf(letter) != -1) &&
(vowel.IndexOf(word.Substring(i - 1, 1)) != -1) &&
(vowel.IndexOf(word.Substring(i + 1, 1)) == -1) &&
(other.IndexOf(word.Substring(i + 1, 1)) == -1) &&
(isNotLastSep(word.Substring(i + 1)))
)
{
syllables = addSeparator(syllable, syllables);
syllable = "";
// continue;
}
// Если текущая другая, а следующая не гласная если это первый слог
if (
(i < word.Length - 1) &&
(other.IndexOf(letter) != -1) &&
((vowel.IndexOf(word.Substring(i + 1, 1)) == -1) ||
(isNotLastSep(word.Substring(0, i))))
)
{
syllables = addSeparator(syllable, syllables);
syllable = "";
//continue;
}
}
}
syllables = addSeparator(syllable, syllables);
string finalWord = string.Join("-", syllables);
finalWord = ConnectFirstAndLastLettersToSyllables(finalWord);
return finalWord;
}
}