Задать вопрос

mayton2019

Bigdata Engineer

1382

вклад
26

вопросов
2788

ответов
19%

решений

Комментарии

Как быстро получить случайное слово из файла на 12 ГиБ?

mayton2019 @mayton2019

luaPower, подожди-подожди. Зачем я буду брать следующее слово? По какому закону или по какой формуле? Автор поставил задачу о случайности. Обычно имеется в виду линейное распределение вероятностей. Это означает что все слова - равновероятны.

Мне тут пока предлагают алгоритмы которые просто нарушают линейную вероятность.

Написано более двух лет назад
Как быстро получить случайное слово из файла на 12 ГиБ?

mayton2019 @mayton2019

Кирилл Гусарев, че там на обычном? 1 Гб?

Написано более двух лет назад
Как безболезненно изменить модель mysql в существующей бд?

mayton2019 @mayton2019

sajtim, я боюсь что хабр не занимается программой обучения.

Написано более двух лет назад
Как быстро получить случайное слово из файла на 12 ГиБ?

mayton2019 @mayton2019

Интересно что никому в голову не пришло просто в хеш-мапу это все загрузить. И решить проблему.
Накладные можно пообсуждать отдельно но в конце концов у любой задачи есть цена разработки
и цена эксплуатации

Может эта задача - одноразовая. Или запускается 1 раз в квартал. Или просто - временное решение.

Написано более двух лет назад
Пытаюсь реализовать порционную загрузку файла. Где кроется ошибка в коде?

mayton2019 @mayton2019 Куратор тега Java

Добавь логгирование в этот метод.

P.S. В голове крутится - "судачки порционные... а-ля натюрель"

Написано более двух лет назад
Как безболезненно изменить модель mysql в существующей бд?

mayton2019 @mayton2019

Честно говоря - тут какая-то авантюра. Ну скажи кто тебя неопытного будет заставлять изменять модель какой-либо ценной БД ? А?

Если она не-ценная. Учебная или тестовая - да бери хоть развали ее до основания.

Если она под нагрузкой 24/7 и в ней крутятся деньги - то ее сопровождают админы и безопасники и тебя туда не допустят.

И об чём тогда вообще вопрос?

Иди на курсы MySQL. Курсы разработки и администрирования.

Написано более двух лет назад
Как быстро получить случайное слово из файла на 12 ГиБ?

mayton2019 @mayton2019

jcmvbkbc, ну тут надо поработать. Добавить оффсеты как хотел автор.
Только уже не на каждое слово а на каждый partition с одиаковой длиной слова.

Написано более двух лет назад
Что выбрать для подкачки?

mayton2019 @mayton2019

xotkot, хорошо. Расскажешь потом какой у тебя дьявол.

Написано более двух лет назад
Что выбрать для подкачки?

mayton2019 @mayton2019

xotkot, чел я этой теме в жизни посвятил не более 30 минут когда Оракл настраивал.
Почитал install guide. Там тупо табличка. Взял рекомендации из таблички. Вбил. И все тут.

Всю остальную жизнь меня местоположение свопа и его размер волновал также как и индейцы волновали шерифа

:)))

Написано более двух лет назад
Есть у кого список популярных слов в Русском языке и синонимы к ним?
mayton2019 @mayton2019
Александр Андропов, ну тут для тебя предметная область должна быть более известная чем для меня. Я думаю отношение синонима - симметрично.

Тоесть

слово|синоним1,синоним2
равносильно тому что

синоним1|слово синоним2|слово

Написано более двух лет назад
Что выбрать для подкачки?

mayton2019 @mayton2019

Muxauko, да я не против. Можешь даже вообще грохнуть своп.

Написано более двух лет назад
Как быстро получить случайное слово из файла на 12 ГиБ?

mayton2019 @mayton2019

Dmitrii, еще вариант - сортировать слова по длине. И будет вобщем-то разновидность моего
алгоритма. Только вместо 20 файлов - 1 большой файл.

Написано более двух лет назад
Есть у кого список популярных слов в Русском языке и синонимы к ним?

mayton2019 @mayton2019

Можно взять современные статьи и блоги. И просто посчитать % попаданий в слова 100Мб справочника. И потом автоматически отбросить те слова которые имели малый rate.

Здесь можно будет даже регулировать размер. Например отсеять 90Мб и оставить только самые популярные.

Написано более двух лет назад
Что выбрать для подкачки?

mayton2019 @mayton2019

Muxauko, я исхожу из предположения что Федора все таки посчитала сумму. И 8+5.7 это и был желаемый размер свопа. А если кидать на локальный диск то уже без разницы там 5 будет или 14. Ну что за копейки торговаться?

Написано более двух лет назад
Есть у кого список популярных слов в Русском языке и синонимы к ним?

mayton2019 @mayton2019

Александр Андропов, ааа.

Написано более двух лет назад
Есть у кого список популярных слов в Русском языке и синонимы к ним?

mayton2019 @mayton2019

Я-бы не отказывался от 100Мб. В конце концов чем богаче база - тем качественее
сработает твой алгоритм (не знаю чего).

Или попробуй взять эти 100Мб и как-то проредить или ужать.

Написано более двух лет назад
Что выбрать для подкачки?

mayton2019 @mayton2019

Вот я-бы убрал оба. И сделал бы swap длиной в 16Gb на основной файловой системе как обычный файл.

В конце концов живем в 21 веке. И отдельный партишен под свап уже никому не нужен. Ну по крайней
мере перформанс issue уже давно никто не заводит. На файлах все прекрасно и быстро работает.

А потом докупишь еще памяти и еще растянешь больше файл.

Написано более двух лет назад
Как быстро получить случайное слово из файла на 12 ГиБ?

mayton2019 @mayton2019

В данном методе мы будем с большей вероятостью стрелять по "длинным" словам.

Коротким - не повезло. Вряд-ли такое распределение случайности можно считать честным.

Написано более двух лет назад
Как максимально быстро перенести данные между двумя идентичными таблицами в разных схемах?

mayton2019 @mayton2019

d-stream, bulk это чем будет отличаться от insert into select?

Написано более двух лет назад
Как быстро получить случайное слово из файла на 12 ГиБ?

mayton2019 @mayton2019

Кирилл Гусарев, пфф... А генерация индексов подходит? :)))

Написано более двух лет назад

Самые активные сегодня

Алексей @Hamx
- 2 ответа
- 0 вопросов
Drno
- 2 ответа
- 0 вопросов
Михаил Ливач
- 2 ответа
- 0 вопросов
Ан Оп
- 2 ответа
- 0 вопросов
#
- 1 ответ
- 0 вопросов
Zettabyte
- 1 ответ
- 0 вопросов

Войдите на сайт