Профиль пользователя заблокирован сроком с 20 сентября 2021 г. и навсегда по причине: систематические нарушения правил сервиса
Ответы пользователя по тегу Автоматизация обработки текста
  • Как получить в массив все частицы, предлоги и союзы русского языка?

    samodum
    @samodum
    Какой вопрос - такой и ответ
    Частиц, предлогов и союзов не так много и они не изменяют свою форму. Поэтому самое грамотное и правильное решение - это составить список этих слов. И работать будет моментально, и библиотек с зависимостями никаких не нужно
    Ответ написан
    Комментировать
  • Как можно сократить текст?

    samodum
    @samodum
    Какой вопрос - такой и ответ
    А чё сразу 32 символа? Давай запихнём всё в один символ, а потом распакуем его в "Войну и мир"?
    Это всё оттого, что вы, джуны, не понимаете что такое шифрование и что такое хэширование. Буква "Ш" на вас действует магическим образом. Java и JavaScript тоже путаешь?
    Вот что бывает, если в школе энтропию не учить
    Ответ написан
  • Как из текста со смешанным алфавитом сделать нормальный?

    samodum
    @samodum
    Какой вопрос - такой и ответ
    Я решал такую задачу, но давно, более 10 лет назад.
    Вот ссылка на мою статью на хабре: https://habr.com/ru/post/86303/
    Предполагаем, что в одном слове нельзя смешивать кириллицу и латиницу вместе. Слово должно состоять либо только из кириллицы, либо из латиницы. Если есть смешивание алфавитов, то надо привести слово к нужной кодировке.
    Идея простая: программа пытается определить язык, на котором написано слово путём определения вхождения однозначно русских букв, таких как Ё, Ж, З, Ф, Я и т.д., и так же для английского: F, L, Q, S, V, W, Z и т.д.
    После этого в слове принудительно заменяются все неоднозначные буквы (А, О, Е, У, Y, Х, X...) на соответствующие буквы того языка, который мы определили.
    Можно пойти другим путём. Привести слово сначала к латинской кодировке, затем к латинице. И каждое из слов проверить в словаре. Если такое слово там найдено, то применить это слово. Надо будет доработать тот мой алгоритм, займусь как-нибудь.
    Надеюсь, понятно объяснил.
    Ответ написан
    Комментировать
  • Что нужно изучить для разработки указанной программы?

    samodum
    @samodum
    Какой вопрос - такой и ответ
    В любом языке есть работа с файлами.
    Выбирай любой язык
    Ответ написан
    Комментировать
  • Как распознать Имя и Отчество из текста?

    samodum
    @samodum
    Какой вопрос - такой и ответ
    У меня есть такой сервис, но он для внутреннего пользования.
    Допилю внешнее API, тогда поделюсь. А пока не могу.
    Присылайте тестовые ФИО в комменты сюда, покажу ответы, буду отлаживать.

    5d546026a0c7c215129656.png
    Ответ написан
    Комментировать
  • Библиотека, которая поможет понять, что "ответы" и "OtBETЫ" - это одно и тоже?

    samodum
    @samodum
    Какой вопрос - такой и ответ
    "одно и то же" и "одно и тоже" - не одно и то же.

    Моя древняя статейка на эту тему
    https://m.habr.com/ru/post/86303/
    Ответ написан
    Комментировать