Как эффективно читать сжатый лог файл с S3 бакета в Ruby?

Question

d'Ivan @2ord

Как эффективно читать сжатый лог файл с S3 бакета в Ruby?

На бакете S3 находится сжатый файл размером до 20 ГБ, сжатый Zstd. Расжатый контент представляет из себя крупный лог файл (текстовый), который нужно обработать построчно.

Можно ли читать поблочно?
Идеально, если можно использовать как экземпляр от класса File, который умеет читать файл построчно.
Тогда можно просто читать:

file.each_line do |line|
  process line
end

Необходимо наиболее эффективно (с точки зрения использования CPU/Mem/Disk/Net) читать файл.
Среда исполнения: Линукс. Рассматривается Docker, так что можно потенциально включить необходимое ПО.

Добавлено
Скачивать файл на локальную файловую систему может быть долго. Может, можно считывать напрямую с S3?

Вопрос задан более года назад
107 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Thinknetica

Профессиональная разработка на Ruby on Rails

9 месяцев

Далее
Хороший программист

Интенсив по Ruby on Rails

5 месяцев

Далее
Thinknetica

Оптимизация Ruby/Rails-приложений

9 недель

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

d'Ivan @2ord Автор вопроса

Спасибо за ответ.
Чем может помочь Apache Spark с учётом того, что нужно для Ruby MRI?
Во-вторых, не перебор ли?

Как всё это будет взаимодействовать с S3? Предполагается скачивать локально или этот фреймворк работает и с файлами S3? А даже если и так, то нет намерения использовать Джаву.

Написано более года назад
d'Ivan @2ord Автор вопроса

я-бы посоветовал перепаковать в bzip2
это бессмысленная трата ресурсов. Zstd эффективен, особенно в скорости расжатия.

Написано более года назад
mayton2019 @mayton2019

Иерокопус Таманский, я к сожалению не специалист по Ruby.

Ваша задача выглядит как типичная задача на BigData.

Я не буду спорить по поводу сравнения zstd и прочее. На это может ответить только практика
и бенчмарки. Если вы будете читать из Ruby в 1 поток - то используйте zstd.

Написано более года назад
mayton2019 @mayton2019

Вот тут есть примеры S3/Ruby https://docs.aws.amazon.com/sdk-for-ruby/v3/develo... можно поискать API

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Amazon Web Services

+1 ещё

Простой
Где NATятся адреса в кубернетесе?
- 1 подписчик
- 19 июн.
- 210 просмотров
2

ответа
Django

+1 ещё

Простой
Как проверять файлы в S3 хранилище?
- 3 подписчика
- 02 июн.
- 2503 просмотра
4

ответа
Linux

+3 ещё

Средний
Как локально установить плагин для vagrant?
- 1 подписчик
- 22 мая
- 133 просмотра
0

ответов
Amazon Web Services

Простой
Как оплачивать услуги AWS?
- 1 подписчик
- 21 апр.
- 359 просмотров
1

ответ
Amazon Web Services

Простой
Как завершить cервис на AWS?
- 1 подписчик
- 08 апр.
- 138 просмотров
1

ответ
Amazon Web Services

Простой
В чём может быть проблема при скачивании файла с S3 storage AWS?
- 1 подписчик
- 01 апр.
- 82 просмотра
1

ответ
Amazon Web Services

Средний
Какое техническое решение позволяет хранить неограниченный объём, но размер «объекта» — до 5Тб, откуда такое число?
- 1 подписчик
- 15 мар.
- 120 просмотров
2

ответа
Amazon Web Services

Средний
Как отредактировать процедуру в Amazon Redshift?
- 1 подписчик
- 24 янв.
- 28 просмотров
0

ответов
Системное администрирование

+2 ещё

Средний
Есть ли готовое решения для инкрементного резервное копирования бакетов s3 и если нет, то почему это никому не нужно?
- 2 подписчика
- 08 янв.
- 425 просмотров
3

ответа
Сжатие данных

Простой
Почему не существует туннеля в котором трафик сжимается?
- нет подписчиков
- 25 дек. 2024
- 211 просмотров
2

ответа
Показать ещё Загружается…

Разработчик PHP/Go

ЭТП ГПБ / VESNA

До 220 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

Answer 1 · 2024-01-17 22:25:55

Фреймворк Apache Spark судя по документации умеет работать с zstd.

https://spark.apache.org/docs/latest/configuration.html

Я имею в виду что он может извлекать сведентья из архива не распаковывая.
Но если выбирать между форматами то я-бы посоветовал перепаковать в bzip2.
Он судя по документации - splittable, тоесть несколько Workers смогут работать
с архивом одновременно и независимо и таким образом ваш парсер будет быстрее в разы.

Как эффективно читать сжатый лог файл с S3 бакета в Ruby?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт