@OlenaKarelina

Как выбрать или создать инструмент для извлечения логина, пароля, емейла из текстов разной структуры?

Нужно выбрать или создать инструмент для извлечения из текстов разной структуры (таких как парсинг Telegram-каналов, парсинг Twitter-страниц, слитые на хакерские форумы базы данных и прочее) логинов, паролей, емейлов.
Ясно, что можно использовать регулярные выражения. Но для текстов из разных источников регулярные выражения будут разными и при появлении нового источника нужно будет для него писать регулярное выражение. Стоит задача создать или найти такой метод искусственного интеллекта, которые бы распознавал и извлекал названную информацию из текстов разной структуры.
Напишите, пожалуйста, каковы подходы к решению такой задачи? А возможно, она уже решена в каком-то приложении...
  • Вопрос задан
  • 65 просмотров
Пригласить эксперта
Ответы на вопрос 3
Stalker_RED
@Stalker_RED
Информационный поиск, как подраздел анализа естественного языка - тема большая и сложная, по ней куча учебников и научных работ. У яндекса часть нароаботок в опенсорце, можете посмотреть, и определите в какую сторону копать.
https://habr.com/ru/company/yandex/blog/219311/
Ответ написан
Комментировать
Lucian
@Lucian
https://t.me/MakeFreelance
Регулярные выражения вполне подходят, нужно уметь ими пользоваться.
Ответ написан
Комментировать
samodum
@samodum
Какой вопрос - такой и ответ
Для начала дайте ссылки на примеры таких телеграм каналов с такой информацией, чтобы понимать с какими данными надо работать
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы