Как лучше хранить данные для последующей обработки?

Question

Kroid @Kroid

Как лучше хранить данные для последующей обработки?

Начал играться с анализом языковых данных и такой вопрос возник - как обычно хранят данные перед обработкой? Есть, к примеру, сотня гигов текстовых файлов, данные в которых разделены табами. И я пока не знаю, что именно мне в них понадобится. Можно их распарсить и залить в постгрес или монгу, а в дальнейшем брать оттуда огромнейшие выборки (использовать курсор?) и что-то с ними делать. Или оставить как есть, а как что понадобится - парсить каким-нибудь хадупом или чем-то вроде того.

В общем - поделитесь кто знает, как рабочий процесс происходит в этой области. Может, есть статьи по теме хорошие?

Вопрос задан более трёх лет назад
2930 просмотров

Комментировать

Подписаться 13 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Kroid @Kroid Автор вопроса

Dmitry спасибо за такой подробный ответ.

Задача на самом деле довольно размытая: мне интересно, можно ли с помощью технологий сделать более эффективным изучение английского языка, чем с помощью традиционных методов. Не в смысле интерактивности, вроде "наведи мышкой на слово, появится перевод", а за счет большой базы даных и определенных алгоритмов.

Для начала я пытаюсь составить нормализованный словарь с частотностью, толкованием и примерами употребления, также отсортированных по частотности. Дальше можно попробовать найти минимальный список слов, зная который, можно изучить все остальные без перевода на русский.

При этом я не лингвист и не специалист по анализу данных, так что может чушь несу. Но довольно интересно этим заниматься в свободное время. А за ссылки спасибо.

P. S. Пока писал, вспомнил, как некоторые лингвисты пытались из 8 английских слов объяснить все остальные. Интересно, что стало с тем экспериментом.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

DevOps

+2 ещё

Средний
Возможно ли несколько Hadoop на одной машине?
- 1 подписчик
- 11 дек. 2024
- 91 просмотр
0

ответов
Big data

+1 ещё

Средний
Откуда брать наборы данных для наполнения базы?
- 1 подписчик
- 10 дек. 2024
- 124 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Кто-нибудь запускал llama 3.1 405b?
- 1 подписчик
- более года назад
- 267 просмотров
1

ответ
Искусственный интеллект

+1 ещё

Средний
Как можно максимально уменьшить размер данных?
- 3 подписчика
- более года назад
- 521 просмотр
1

ответ
Алгоритмы

+1 ещё

Простой
Как крупные веб сервисы хранят массивы данных?
- 1 подписчик
- более года назад
- 150 просмотров
1

ответ
Нейронные сети

+3 ещё

Средний
Какие есть стандартные наборы данных для тестирования и сравнения нейронных сетей?
- 1 подписчик
- более двух лет назад
- 116 просмотров
2

ответа
PostgreSQL

+3 ещё

Средний
Какую БД выбрать для хранения и обработки большого кол-ва сообщений?
- 1 подписчик
- более двух лет назад
- 272 просмотра
1

ответ
Big data

Простой
Какой процент распознавания точности артикула штучного товара на витрине по его внешнему виду считается «хорошим» а какой — «отличным»?
- 1 подписчик
- более двух лет назад
- 111 просмотров
1

ответ
Big data

Средний
Как эффективно составить гистограмму слов (big data)?
- 1 подписчик
- более двух лет назад
- 127 просмотров
4

ответа
Data Mining

+1 ещё

Средний
Система управления майниг — ЦОДом, такое вообще существует?
- 2 подписчика
- более двух лет назад
- 161 просмотр
2

ответа
Показать ещё Загружается…

Тестировщик

Точка Банк

До 330 000 ₽

Data Scientist

Strikt

До 100 000 ₽

Инженер-программист в МТС

Changellenge >> • Москва

от 100 000 до 100 000 ₽

Answer 1 · 2014-12-22 14:21:01

Хранение данных в BigData порой граничит с искусством. В целом, тут как и везде -- всё зависит от задачи, которая ставится. В любом случае, работа/анализ с текстовыми данными неминуемо приведет вас к Инвертируемому индексу (причем к нескольким).

Если пока вкратце, то вам надо проиндексировать содержимое "сырых данных" (файлы, веб, БД, etc). Пока проиндексировать как есть, без изменения самих данных. Если это реально BigData, то надо подумать о распределенном индексе, понимать стоит ли (а если да, то как) реплицировать индекс (но это уже вопрос производительности).

Так же, для работы и анализа вам обязательно понадобится такой же по структуре индекс, с той лишь разницей, что данные, которые в нем будут храниться, необходимо нормализовать. Как минимум к токенам (словам) применить алгоритм стемминга (или лемматизация, если хотите получить лучшее качество).

Опять же, в зависимости от задач (направления анализа) вам надо подумать о тезаурусах, для решения синонимии терминов в вашем индексе. Но, это я уже пошел в сторону более глубокого анализа данных. Там много что вам понадобится.

Если бы был пример конкретной задачи, то я бы по конкретнее написал о инструментах, подходах, методах.

Немого ссылок:
1. По информационному поиску / анализу данных читайте вот это:
Введение в информационный поиск, Маннинг
Обработка неструктурированных текстов. Поиск, орга...
2. Импорт / фреймворки / библиотеки индексирования и поиска:
Apach Solr
Apach Tika
3. Инвертированный индекс

PS: всё же хотелось бы узнать о конкретной задачи, тогда было бы больше конкретики.

UPD: в ряде случаев в BigData надо манипулировать графовой структурой данных. Соответственно, посмотрите в сторону соответствующих СУБД, например neo4j. Главное требования к СУБД в BigData -- минимализм функционала, иначе на больших данных работать будет всё крайне медленно.

Как лучше хранить данные для последующей обработки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт