Как сделать равномерное распределение фамилий по группам?

Question

WebDeveloper2016 @WebDeveloper2016

Как сделать равномерное распределение фамилий по группам?

Есть очень необычная и как оказалось довольно сложная задачка. Дано: список фамилий. Требуется распределить их по буквенным группам аля А-В с таким расчетом например что если много фамилий начинающихся на А, В, Д, Е, Ц, и мало на остальные буквы, то группы должны сформироваться А-Б, В-Д, Е-Ж, З-Ц, Ч-Я. Мучаюсь с этим уже долго. Никак не могу придумать нормальный алгоритм... Единственное что я пока смог сделать это просто раскидать их на группы типа [ ( 'А' , [ 'Аааа', 'Аббб', ] ), ]. Также уточню что неважны буквы идущие после первой. Главное распределить по первой букве. Ну и я это делаю на питоне, но буду рад решению на любом языке (если конечно смогу его понять :D).

П.С. Вот, если поможет что я смог накидать. Это конечно не то что нужно, но кажется я на правильном пути...

def distribute(employees):
    letters = []

    for i in range(ord('А'), ord('Я') + 1):
        c = chr(i)
        c_employees = [e for e in employees if e[0].upper() == c]
        letter = (c, c_employees)
        letters.append(letter)

    return letters

upd. Кажется решил.

def flatten(sequence):
    for item in sequence:
        if isinstance(item, collections.Iterable) and not isinstance(item, (str, bytes)):
            yield from flatten(item)
        else:
            yield item

def distribute_by_letters(employees):
    letters = []
    count = 0

    for i in range(ord('А'), ord('Я') + 1):
        c = chr(i)
        c_employees = [e for e in employees if e[0].upper() == c]
        letter = (c, c_employees)
        letters.append(letter)

        if len(c_employees) != 0:
            count += 1

    avg = len(employees) / count
    return (letters, round(avg))

def distribute_by_groups(letters_info):
    letters, avg = letters_info
    groups = []
    i = 0

    while i < len(letters):
        group_employees = []
        j = i
        count = 0

        while count < avg and j < len(letters):
            group_employees.append(letters[j])
            count += len(letters[j][1])
            j += 1

        empty_letters = itertools.takewhile(lambda l: len(l[1]) == 0, letters[j:])
        group_employees.extend(list(empty_letters))

        begin_letter = letters[i][0]
        end_letter = group_employees[-1][0]
        group_name = '%s-%s' % (begin_letter, end_letter)

        i += len(group_employees)
        group_employees = [l[1] for l in group_employees]
        group_employees = list(flatten(group_employees))
        group = (group_name, group_employees)
        groups.append(group)

    return groups

Вопрос задан более трёх лет назад
1081 просмотр

3 комментария

Подписаться 2 Оценить 3 комментария

Андрей @OLS

Задано ли количество групп перед началом процесса разбиения ?

Написано более трёх лет назад
WebDeveloper2016 @WebDeveloper2016 Автор вопроса

Андрей: нет, группы должны динамически сформироваться. В этом весь смысл.

Написано более трёх лет назад
abcd0x00 @abcd0x00

Требуется распределить их по буквенным группам аля А-В с таким расчетом например что если много фамилий начинающихся на А, В, Д, Е, Ц, и мало на остальные буквы, то группы должны сформироваться А-Б, В-Д, Е-Ж, З-Ц, Ч-Я.

Не понял принцип группирования. Какая-то противоречивая муть. Как там могут буквы В и Д образовывать одну группу? Тогда уж А и В должны образовывать одну группу. Либо оно изначально такое, либо ты его так описал сюда.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

WebDeveloper2016 @WebDeveloper2016 Автор вопроса

Вроде не работает... Ну в смысле код генерирует одну группу в которую входят все фамилии. Вот сейчас например получилась группа В-Ч. Там я правда только 6 тестовых фамилий ввел. Но все равно фамилии на разные буквы были, следовательно групп все равно должно было получиться несколько. Плюс так или иначе группы должны охватывать весь алфавит, даже если на какие то буквы там нет фамилий.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

WebDeveloper2016: расскажите зачем это, для чего будет использоваться алгоритм? А то я чувствую здесь не столько алгоритмическую, сколько архитектурную проблему.

Написано более трёх лет назад
WebDeveloper2016 @WebDeveloper2016 Автор вопроса

Сергей Горностаев: это тестовое задание при устройстве на работу. Точнее часть его. По факту там не только фамилии, а модели сотрудников, но я это опустил тут. Не суть. Использоваться как и любое тестовое задание никак не будет :D. Ну точнее так то это сайт на django крошечный.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

WebDeveloper2016: тогда понятно откуда такие странные требования, типа пустых групп.

Написано более трёх лет назад
WebDeveloper2016 @WebDeveloper2016 Автор вопроса

Сергей Горностаев: пустых групп быть не должно. А пустые буквы быть могут. Т.е. может например сформироваться группа А-Е, где допустим с А по Г никаких фамилий нет, но они все равно должны быть включены в группу. Заказчик хочет вывести список фамилий с пагинацией (как раз те самые группы).

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

WebDeveloper2016: я бы за это тестовое задание начал бы уже брать тестовую зарплату :D

Написано более трёх лет назад
WebDeveloper2016 @WebDeveloper2016 Автор вопроса

Сергей Горностаев: Да вот мне тоже кажется что они немного прифигели со сложностью задания...

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- вчера
- 136 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 219 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 596 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 515 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 290 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 536 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 220 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 127 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 335 просмотров
1

ответ
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 317 просмотров
0

ответов
Показать ещё Загружается…

Задано ли количество групп перед началом процесса разбиения ?
Андрей: нет, группы должны динамически сформироваться. В этом весь смысл.
Требуется распределить их по буквенным группам аля А-В с таким расчетом например что если много фамилий начинающихся на А, В, Д, Е, Ц, и мало на остальные буквы, то группы должны сформироваться А-Б, В-Д, Е-Ж, З-Ц, Ч-Я.

Не понял принцип группирования. Какая-то противоречивая муть. Как там могут буквы В и Д образовывать одну группу? Тогда уж А и В должны образовывать одну группу. Либо оно изначально такое, либо ты его так описал сюда.

Answer 1 · 2016-11-23 12:48:58

Допустим есть 100 человек, их фамилии начинаются на 5 букв т.е. в среднем на букву должно быть 20 чел. Делаем цикл с проверкой если в следующей букве меньше 20 чел, значит можно объединять.

Answer 2 · 2016-11-23 13:01:47

Выкатил для теста из доменного каталога список фамилий всех сотрудников (550 человек) в файл users.txt.

def chunks(l, n):
    for i in range(0, len(l), n):
        yield l[i:i + n]

#Считываем, убираем дубликаты, сортируем
names = sorted({line.strip() for line in open('users.txt', encoding='utf-8')})
#Разбиваем на примерно равные части и генерируем словарь,
#ключом которого служат первая буква первой и последней фамилии в списке.
catalog = {'{}-{}'.format(item[0][0], item[-1][0]):item for item in chunks(names, 100)}

Обновление: Предыдущий вариант допускает пересечение групп. Поэтому я накидал другой.

from itertools import groupby
from operator import itemgetter

# Разбиваем на группы по первой букве
def chunks(items):
    for letter, names in groupby(sorted(items), key=itemgetter(0)):
        yield list(names)


# Сливаем вместе группы меньше min_len в группы не больше max_len
def reshape(items, min_len, max_len):
    buffer = []
    for item in items:
        if len(buffer) >= max_len:
            yield sorted(buffer)
            buffer = []
        if len(item) <= min_len:
            buffer += item
        else:
            yield item
    yield sorted(buffer)

            
#Считываем и сортируем
names = sorted(line.strip() for line in open('users.txt', encoding='utf-8'))
#Разбиваем на примерно равные части
groups_list = reshape(chunks(names), 50, 100)
#генерируем словарь ключом которого служат первая буква первой и последней фамилии в списке
catalog = {'{}-{}'.format(item[0][0], item[-1][0]):item for item in groups_list}

Answer 3 · 2016-11-24 01:36:36

Посчитайте сколько фамилий начинается с каждой из букв. Затем, начиная с буквы А, объединяйте буквы пока добавление следующей буквы не вызовет переход за границу выбранного вами размера группы. Начиная с этой буквы формируйте следующую группу, так вплоть до конца алфавита. Число групп можно определить как общее число фамилий, поделенное на целевой размер группы.

Как сделать равномерное распределение фамилий по группам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт