Как агрегировать данные по элементам вложенного массива?

Question

Mark Berestov @Mark_Beresrtov

Python

Как агрегировать данные по элементам вложенного массива?

Из стороннего сервиса выгружаются данные в виде json(csv):

[{ "customer_id": "5f9d7b0a100400c6f00ad1cb",
  "customer_pet": "cat",
  "customer_cat_color": "gold",
  "customer_cat_name": "",
  "timestamp": "2023-05-15 12:22:22.111241 UTC",
  "list_cart": [
    "cart_1",
    "cart_2",
    "cart_3" ]},
  {"customer_id": "5f9d7b0a100400c6f00ad1cb",
  "customer_pet": "cat",
  "customer_cat_color": "gold",
  "customer_cat_name": "",
  "timestamp": "2023-05-15 13:33:33.111241 UTC",
  "list_cart": [
    "cart_3",
    "cart_7",
    "cart_1" ]}
]

Как лучше посчитать посчитать кол-во клиентов с каждым элементом из list_cart?
Т.е. итог нужен в виде
item count
cart_1 ---2
cart_2 ---1
cart_3 ---2
cart_7 ---1

Сейчас вижу вариант добавить уникальный id_event каждому событию и развернуть массив присваивая каждому элементу из list_cart значения id_event, customer_id и сформировать таким образом таблицу/датафрейм с которым работать.

Возможные технологии - Node.js/Python/Pandas/SQL(желательно MS SQL, но можно PostgreSQL и др. диалекты)/Mongo

Вопрос задан более трёх лет назад
87 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 161 просмотр
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 104 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 114 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 380 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 244 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 691 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 560 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 312 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 585 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 231 просмотр
2

ответа
Показать ещё Загружается…

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента.

Answer 1 · 2023-05-16 20:06:17

Ну пустяковая для pandas проблема.

import pandas as pd
import numpy as np

data = [{ "customer_id": "5f9d7b0a100400c6f00ad1cb",
  "customer_pet": "cat",
  "customer_cat_color": "gold",
  "customer_cat_name": "",
  "timestamp": "2023-05-15 12:22:22.111241 UTC",
  "list_cart": [
    "cart_1",
    "cart_2",
    "cart_3" ]},
  {"customer_id": "5f9d7b0a100400c6f00ad1cb",
  "customer_pet": "cat",
  "customer_cat_color": "gold",
  "customer_cat_name": "",
  "timestamp": "2023-05-15 13:33:33.111241 UTC",
  "list_cart": [
    "cart_3",
    "cart_7",
    "cart_1" ]}
]

df = pd.DataFrame(data)
print(df['list_cart'].explode().value_counts())

Все результат как ты хотел, ну и вдобавок глянь на фрейм колонку list_cart можно, распарсить, как надо под любые нужды. Для других операций группировок и т.д.

Answer 2 · 2023-05-16 21:20:42

выгружаются данные в виде json(csv):

Я вижу 2 стратегии как с этим работать.

1) Как с чистым JSON документом. Можно работать языком запросов JsonPath. И выбирать и трансформировать узлы Json многократно до полного формирования результата.

2) Как с дата-фреймом технологии Pandas, Databricks/Spark. Судя по внешнему виду это Пандас
загрузит успешно. Насчет Датабрикс я не уверент. Тот точно работает с Json-Lines а не с таким деревом где
есть единый корень. У дата-фрейма есть свойства SQL-курсора. Тоесть по нему можно бегать и выбирать
данные. Или другой датафрейм. И датафрейм обычно имеет больший запас прочности по объему данных.

Какую стратегию выбрать - это больше вопрос к автору. Вот что он лучше знает - то пускай и выбирает.

Answer 3 · 2023-05-16 19:58:09

В цикле.
Все операции над массивами производятся в цикле.

Чтобы посчитать количество элементов, вам не нужно Node.js/Pandas/MS SQL,PostgreSQL и их диалекты/Mongo а так же SQL, JAVASCRIPT и MONGODB

Также, перебор массива в цикле с трудом можно отнести к DATA SCIENCE.
Скорее - к первому классу начальной школы программирования.

Попробуйте освоить эту чрезвычайно сложную операцию.
В одном цикле вы перебираете записи массива, и в еще одном, вложенном, цикле перебираете list_cart и создаете новый массив, в котором ключом является элемент из list_cart, а значением - счетчик.

Как агрегировать данные по элементам вложенного массива?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт