Парсинг целого стринга на различные аттрибуты(производительность)?

Question

Therapyx @Therapyx

Data Science

Парсинг целого стринга на различные аттрибуты(производительность)?

Так как с .НЕТ перешел на Java(по работе) не совсем знаком с эффективными медотами для работы с текстом. Суть заключается в том, что данные очень огромные, считывание идет из 5 огромных файлов, которые передаются в функцию целыми строками. Пусть это будет String data;

Такого типа: String data = "H 534624325 [3] 4234 32.5"
итд, как видно все разделенно простым пробелом. Сперва идет string, int, string, double

Т.е. все это надо передать в функцию someFunction(string, int, string, double) в разбитом состоянии.
напоминаю: Данные текут десятками гигабайт. На что лучше всего мне смотреть в этой ситуации? Подскажите подходящие функции, как более еффективно работать с такими вещами учитывая малейшие погрешности в производительности? Статьям тоже рад. Заранее спасибо :)

upd: наткнулся сейчас в поисках гугла на StringTokenizer, но опять же боюсь, что постоянная инициализация 5-10 аттрибутов и передача их в другую функцию будут не достаточно эффективной.

Вопрос задан более трёх лет назад
384 просмотра

2 комментария

Подписаться 3 Оценить 2 комментария

Therapyx @Therapyx Автор вопроса

Ivan Sokolov: там не обходимо считывать 5 фаилов сразу еще и делать сортировки для этого всего месива)) Пока что я написал статичный класс, в который идет этот сплит через стрингтокенайзер и заполняет нужные поля. Ибо помимо просто обычного сплита, там еще и данные разные и основываясь на них надо делать тот или иной парс. Но пока еще по скорости не тестил. Это уже в понедельник...) Думаю просто с таким раскладом как обычный сплит, создаванием кучи аттрибутов и постоянными ифелсами на кучу листов будет плохим нерением, но его я тоже потещу... :) Я в функциях жавы очень слаб, синтаксис очень похож на с++, поэтому за день более менее привык. А вот тонкостей еще не знаю.

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

Ivan Sokolov: да, просто там фаилы разбиты, ибо так как они слишком огромные, рабоать с ними почти невозможно. Поэтому надо делать что-то по типу джоинов в SQLe только с фаилами. Показать к сожалению возможности нету. Но суть вопроса сводиться к пару строкам кода и это вот есть функция которая принимает параметр String data и в этой дате находится всего 1 строка из одного из многих фаилов, которая отправляется в разобранном виде в другую функцию, только там уже будет не жава.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Skillbox

Java-разработчик

8 месяцев

Далее
ProductStar

Профессия: Java-разработчик

9 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Therapyx @Therapyx Автор вопроса

я понимаю это, но меня интерисуют именно нюансы кода в жаве.

Написано более трёх лет назад
Rou1997 @Rou1997

Therapyx: Медленно на жаве.

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

Rou1997: там в деле еще кафка и все продукты фирмы для биг дейты. Жава это как интерфейс между ними. Но это опять не имеет никакого отношнеия к вопросу.

Написано более трёх лет назад
sirs @sirs

Rou1997: Медленно по сравнению со сферическим конем в вакууме?

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек.
- 147 просмотров
1

ответ
Java

+2 ещё

Простой
Как изменить версию транзитивной зависимости в maven?
- 1 подписчик
- 08 дек.
- 79 просмотров
0

ответов
Java

+1 ещё

Средний
Как добавить цепочку сертификатов pkcs12 в java8 для взаимной аутентификации TLS?
- 2 подписчика
- 04 дек.
- 111 просмотров
0

ответов
Программирование

Простой
Какие технологии/ИИ есть для клонирования русской речи?
- 12 подписчиков
- 02 дек.
- 695 просмотров
1

ответ
Программирование

+2 ещё

Средний
Возможно ли написать программу, которая будет удалять все данные с дисков?
- 3 подписчика
- 19 нояб.
- 1041 просмотр
11

ответов
Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб.
- 100 просмотров
1

ответ
Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт.
- 150 просмотров
1

ответ
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 171 просмотр
2

ответа
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 170 просмотров
1

ответ
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 292 просмотра
3

ответа
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Java Developer

ИТРУМ • Ростов-на-Дону

от 75 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Ivan Sokolov: там не обходимо считывать 5 фаилов сразу еще и делать сортировки для этого всего месива)) Пока что я написал статичный класс, в который идет этот сплит через стрингтокенайзер и заполняет нужные поля. Ибо помимо просто обычного сплита, там еще и данные разные и основываясь на них надо делать тот или иной парс. Но пока еще по скорости не тестил. Это уже в понедельник...) Думаю просто с таким раскладом как обычный сплит, создаванием кучи аттрибутов и постоянными ифелсами на кучу листов будет плохим нерением, но его я тоже потещу... :) Я в функциях жавы очень слаб, синтаксис очень похож на с++, поэтому за день более менее привык. А вот тонкостей еще не знаю.
Ivan Sokolov: да, просто там фаилы разбиты, ибо так как они слишком огромные, рабоать с ними почти невозможно. Поэтому надо делать что-то по типу джоинов в SQLe только с фаилами. Показать к сожалению возможности нету. Но суть вопроса сводиться к пару строкам кода и это вот есть функция которая принимает параметр String data и в этой дате находится всего 1 строка из одного из многих фаилов, которая отправляется в разобранном виде в другую функцию, только там уже будет не жава.

Answer 1 · 2016-08-12 17:29:51

Попробуйте использовать Google Guava Splitter.

P.S. Если честно то кажется, что Вы занимаетесь преждевременной оптимизацией. Обычно пишут самый простой/быстрый/очевидный вариант и проверяют как работает под нагрузкой, а уже потом при необходимости начинают его улучшать.

Answer 2 · 2016-08-12 13:27:41

Rou1997 @Rou1997

Многопоточность и многоядерность, диск SSD, бинарный поиск.

Ответ написан более трёх лет назад

4 комментария

Парсинг целого стринга на различные аттрибуты(производительность)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт