Задать вопрос

Denis

data engineer

20

вклад
66

вопросов
41

ответ
44%

решений

Комментарии

Какой подход для фильтрации таблиц лучше?

Denis @denislysenko Автор вопроса

Алан Гибизов, это просто задание, которое нужно выполнить

Написано более трёх лет назад
Какой подход для фильтрации таблиц лучше?

Denis @denislysenko Автор вопроса

Да, в этом, определенно, есть смысл. Я правильно понимаю, что averages это словарь, в котором ключ - это movieId, a значение - это средний рейтинг это фильма?
И есть ли какой-нибудь другой способ сортировки data_movies, просто, этот метод сортировки почему-то не работает? И как можно добавить в таблицу data_movies значения рейтингов?

Написано более трёх лет назад

Как изменить файл сsv в файл parquet?

Denis @denislysenko Автор вопроса

denizen,
вот мое задание:
написать консольную утилиту converter.py, поддерживающую аргументы командной строки.

python convert.py [--csv2parquet | --parquet2csv ] | [--get-schema ] | [--help]

утилита поддерживает
- режим конвертации из csv в parquet
- режим конвертации из parquet в csv
- получение схемы паркет файла
- вывод справки по ее использованию

это код convert.py

import pandas as pd
import argparse

from pyarrow.parquet import read_schema
import json



parser = argparse.ArgumentParser()
parser.add_argument('--csv2parquet',
                    nargs=2,
                    help='csv to parquet'
)
parser.add_argument('--parquet2csv',
                    nargs=2,
                    help='parquet to csv'
                    )
parser.add_argument('--get_schema',
                    help='to get a schema'
                    )


args = parser.parse_args()
print(args)

# csv_to_parquet
def csv_to_parquet(src_filename, dst_filename):
    df = pd.read_csv(src_filename)
    df.to_parquet(dst_filename)

# parquet_to_csv
def parquet_to_csv(src_filename, dst_filename):
    df = pd.read_parquet(src_filename)
    df.to_csv(dst_filename)

# get schema
def get_schema(filename):
    schema = read_schema(filename)
    schema_dict = json.loads(schema.metadata[b'org.apache.spark.sql.parquet.row.metadata'])['fields']
    print(schema_dict)



# !!!!! main condition
if args.csv2parquet is not None:
    csv_to_parquet(args.csv2parquet[0], args.csv2parquet[1])
elif args.parquet2csv is not None:
    parquet_to_csv(args.parquet2csv[0], args.parquet2csv[1])
elif args.get_schema is not None:
    get_schema(args.get_schema)

Написано более трёх лет назад

Как изменить файл сsv в файл parquet?

Denis @denislysenko Автор вопроса

denizen, example.csv и example123.parquet это пути к файлам, str

Написано более трёх лет назад
Как изменить файл сsv в файл parquet?

Denis @denislysenko Автор вопроса

Влад Григорьев, То есть, мне нужно дописать df.save() ?

Написано более трёх лет назад
Запросы mysql выдают ошибку. Что делать?

Denis @denislysenko Автор вопроса

а что с этим делать?

Написано более трёх лет назад
Как написать 3 SQL запроса (чистых, а не проверками в коде)?

Denis @denislysenko Автор вопроса

Ок. Спасибо

Написано более трёх лет назад
Как написать 3 SQL запроса (чистых, а не проверками в коде)?

Denis @denislysenko Автор вопроса

Можете дать комментарии каждому запросу?

Написано более трёх лет назад
Как написать скрипт на PHP, который выводит дерево с отступами?

Denis @denislysenko Автор вопроса

Это уже готовое решение?

Написано более трёх лет назад
Как написать скрипт?

Denis @denislysenko Автор вопроса

Denis Melnikov, не знаю как сделать это.

Написано более трёх лет назад
Делаю сайт на Django. При нажатии на кнопку опубликовать возникает ошибка. Как решить это?

Denis @denislysenko Автор вопроса

Спасибо

Написано более трёх лет назад

Самые активные сегодня

Захар Буров
- 1 ответ
- 1 вопрос
Zerg89
- 2 ответа
- 0 вопросов
ton1
- 2 ответа
- 0 вопросов
Drno
- 2 ответа
- 0 вопросов
shurshur
- 1 ответ
- 0 вопросов
Gromov21
- 1 ответ
- 0 вопросов

Войдите на сайт