Как сортировать разные телефонные номера?

Question

Илья Родионов @ZloyKishechnik

Как сортировать разные телефонные номера?

Здравствуйте!
Возник вопрос: есть файл с >10000 строк.
.txt
В файле данные в виде:

Имя Фамилия : 899999999

- телефонный номер
то есть файл состоит из имени, фамилии и телефонного номера.
но дело в том, что не всегда этот номер выглядит в формате 8999...
иногда он записан как +7...
иногда - 7....
иногда 99999999 (то есть без 8/7/+7)
порой телефонный номер записан даже так(!) 8-девять-123-ноль-123
а иногда вместо телефона записано "Иванов Иван : нет телефона (есть телефон)" или любой другой текст.

так возникает вопрос: как научить питон(?) выбирать, что из этого телефон, а что - нет.

понимаю, как это можно было бы реализовать, имея всего 1 формат номера - 8999... или 7999..
но когда а) - они разные б) - не всегда чисто в цифровом виде (9-ноль-12) с) не всегда вообще телефоны - тут я запутываюсь.
была мысль обучить питон с помощью нейросетей(?), но в этом я совсем не понимаю.
а библиотек, которые работают с телефонными номерами, как я понял, тоже нет..

Заранее спасибо за ответ!

Вопрос задан более трёх лет назад
1081 просмотр

7 комментариев

Подписаться 1 Простой 7 комментариев

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Считываешь построчно, разбиваешь строку по символу ':' на два элемента, из второго удаляешь все нецифровые символы, проверяешь длину полученной строки и отбрасываешь первую цифру, если символов 11.

Написано более трёх лет назад
Илья Родионов @ZloyKishechnik Автор вопроса

Сергей Горностаев, а если это "89-ноль-12323454" - ведь это тоже номер телефона.
а если я отброшу "ноль", то не смогу сохранить номер.
да и человек же может написать "12345678911" - это 11 символов, но не телефонный номер

Написано более трёх лет назад
Илья Родионов @ZloyKishechnik Автор вопроса

Сергей Горностаев, если бы изначально знал, что файл содержит или только телефонные номера, или только не-телефонные-номера, то эту бы проверку (на "12345678911" не надо было бы делать) а так..

Написано более трёх лет назад
Animkim @Animkim

Илья Родионов, тогда дайте определение телефонного номера, чем 12345678911 не номер? Если номера мобильные и только ру то первые три цифры от 900 до 999.
Ещё под рукой можно держать все коды городов РФ, опять же если номера РФ, коды стран тоже в свободном доступе.
Если задача одноразовая, то самый простой вариант отобрать по нескольким правилам все 100% номера, остальное загнать в файл Эксель и пусть кто-то руками разберёт редкие кейсы.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Илья Родионов, в вопросе стояла задача отсортировать записи по телефонам, что не предполагает проверки телефона на валидность. Что алгоритм должен делать в случае обнаружения последовательности цифр не являющихся телефоном? А номер телефона записанные без кода города валидными являться могут? А номер другого государства? А номер записанный как "восемдевятьсотдваодинвосеьсотодинтристадвадцатьтри"? Если нет чётко определённых границ форматов, то самый дешёвый и быстрый вариант - нанять студентку, которая всё перебьёт в заданный формат руками.

Написано более трёх лет назад
sim3x @sim3x

Для обучения нужна выборка по-больше
Выбросы в текущей проще нормализовать руками

Написано более трёх лет назад
Илья Родионов @ZloyKishechnik Автор вопроса

Animkim, Сергей Горностаев, тогда буду перебирать все номера, а если они "не из рф" - писать в другой файл
так же, как и номера 9-ноль-1, а потом руками перебирать

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 1 подписчик
- 19 часов назад
- 122 просмотра
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 203 просмотра
0

ответов
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 61 просмотр
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 179 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 192 просмотра
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 130 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 228 просмотров
0

ответов
Мобильные устройства

+1 ещё

Простой
Какой девайс взять, чтоб за границей говорить и слушать иностранцев?
- 6 подписчиков
- 08 дек.
- 627 просмотров
6

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 231 просмотр
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 153 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Считываешь построчно, разбиваешь строку по символу ':' на два элемента, из второго удаляешь все нецифровые символы, проверяешь длину полученной строки и отбрасываешь первую цифру, если символов 11.
Сергей Горностаев, а если это "89-ноль-12323454" - ведь это тоже номер телефона.
а если я отброшу "ноль", то не смогу сохранить номер.
да и человек же может написать "12345678911" - это 11 символов, но не телефонный номер
Сергей Горностаев, если бы изначально знал, что файл содержит или только телефонные номера, или только не-телефонные-номера, то эту бы проверку (на "12345678911" не надо было бы делать) а так..
Илья Родионов, тогда дайте определение телефонного номера, чем 12345678911 не номер? Если номера мобильные и только ру то первые три цифры от 900 до 999.
Ещё под рукой можно держать все коды городов РФ, опять же если номера РФ, коды стран тоже в свободном доступе.
Если задача одноразовая, то самый простой вариант отобрать по нескольким правилам все 100% номера, остальное загнать в файл Эксель и пусть кто-то руками разберёт редкие кейсы.
Илья Родионов, в вопросе стояла задача отсортировать записи по телефонам, что не предполагает проверки телефона на валидность. Что алгоритм должен делать в случае обнаружения последовательности цифр не являющихся телефоном? А номер телефона записанные без кода города валидными являться могут? А номер другого государства? А номер записанный как "восемдевятьсотдваодинвосеьсотодинтристадвадцатьтри"? Если нет чётко определённых границ форматов, то самый дешёвый и быстрый вариант - нанять студентку, которая всё перебьёт в заданный формат руками.
Для обучения нужна выборка по-больше
Выбросы в текущей проще нормализовать руками
Animkim, Сергей Горностаев, тогда буду перебирать все номера, а если они "не из рф" - писать в другой файл
так же, как и номера 9-ноль-1, а потом руками перебирать

Answer 1 · 2017-11-23 19:52:24

Не могу подсказать никакой библиотеки для работы с числительными на русском (да и на любом другом языке), но вы не думали сделать парсер попроще?
Что-нибудь вроде:

import re


REPLACEMENT = {
	'ноль': '0',
	'один': '1',
	'два': '2',
	'три': '3',
	'четыре': '4',
	'пять': '5',
	'шесть': '6',
	'семь': '7',
	'восемь': '8',
	'девять': '9'
}


PHONE_REGEX = re.compile('(\+)?\d{10,11}')


def parse_phones(file_path):
	parsed = []
	unparsed = []
	with open(file_path, 'r') as file:
		for line in file:
			name, phone, *_ = line.split(':')
			name = name.strip()
			phone = phone.strip()
			for key, value in REPLACEMENT.items():
				phone = phone.replace(key, value)
			if PHONE_REGEX.match(phone):
				phone_len = len(phone)
				if phone_len == 10:
					phone = '+7' + phone
				elif phone_len == 11:
					phone = '+7' + phone[1:]
				parsed.append((name, phone))
			else:
				unparsed.append(line)
	return parsed, unparsed

Вместо засовывания в списки можно сразу писать в файлы. Как минимум, это уменьшит количество "неизвестных" номеров.

Answer 2 · 2017-11-23 22:02:33

Dimonchik @dimonchik2013

non progredi est regredi

num = ''.join([x for x in num if x.isdigit()])

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2017-11-24 11:59:19

1. Отфильтровать все, что точно не телефон (тексты "нет телефона" и т.д.)
2. Превратить цифры, записанные словами, в числа.
3. Оставить в тексте только цифры и "+".

Если в датасете гарантированно, что с цифрами могут быть только телефоны (нет ip-адресов, почтовых индексов, паспортных данных и прочего) - то должно работать.

Как сортировать разные телефонные номера?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт