Как найти все палиндромы в терабайтном файле?

Question

xperious @xperious

Алгоритмы

Как найти все палиндромы в терабайтном файле?

здравствуйте, подскажите алгоритм поиска всех слов-палиндромов в файлах большого размера? ну или хотя бы уникальных чисел в гигантском массиве(который не влезает в оперативную память)

Вопрос задан более трёх лет назад
269 просмотров

6 комментариев

Подписаться 1 Простой 6 комментариев

xperious @xperious Автор вопроса

Лентяй, ну, пускай слова просто построчно записаны

Написано более трёх лет назад
sim3x @sim3x

Читать построчно
Вносить информацию в Postgresql
Делать поиск по бд

Но расчитывать на большую скорость не стоит

Еще можно попробовать использовать shpinxsearch
Или даже начать с него

Написано более трёх лет назад
xperious @xperious Автор вопроса

Лентяй, да я вот думаю: а как эффективно искать в нескольких файлах? не в цикле ж каждый с каждым сравнивать?

Написано более трёх лет назад
xperious @xperious Автор вопроса

Лентяй, а бд как работает?) меня именно алгоритм интересует

Написано более трёх лет назад
xperious @xperious Автор вопроса

Лентяй, работал... но алгоритмами, которые в основе, не интересовался

Написано более трёх лет назад
SeptiM @SeptiM

Для поиска числа уникальных элементов можно воспользоваться алгоритмом HyperLogLog. Подробнее здесь: antirez.com/news/75

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Архитектор ПО

4 месяца

Далее
Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 250 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 166 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 191 просмотр
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 164 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 303 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 169 просмотров
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 153 просмотра
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 243 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 191 просмотр
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 309 просмотров
3

ответа
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Reverse engineer

Brain Shells

от 3 000 до 5 000 $

Лентяй, ну, пускай слова просто построчно записаны
Читать построчно
Вносить информацию в Postgresql
Делать поиск по бд

Но расчитывать на большую скорость не стоит

Еще можно попробовать использовать shpinxsearch
Или даже начать с него
Лентяй, да я вот думаю: а как эффективно искать в нескольких файлах? не в цикле ж каждый с каждым сравнивать?
Лентяй, а бд как работает?) меня именно алгоритм интересует
Лентяй, работал... но алгоритмами, которые в основе, не интересовался
Для поиска числа уникальных элементов можно воспользоваться алгоритмом HyperLogLog. Подробнее здесь: antirez.com/news/75

Answer 1 · 2017-11-30 18:04:48

Для Python можно использовать библиотеку pandas. Pandas позволяет загружать файл итеративно. Выглядит примерно так:

import pandas as pd

chunks = pd.read_csv('path_to_file',  chunksize=150000)
for chunk in chunks:
    # do whatever you want
    pass

Answer 2 · 2017-11-30 19:48:21

В большинстве ЯП поддерживается чтение некоторого количества байт с определённого места из файла.
Т.е. можно открыть файл (не считать его весь, а только открыть), после этого в цикле читать по N байт и итерировать по ним. Дальше уже дело за алгоритмом, который принимает по одному символу и пытается в потоке символов вычислить палиндром. Т.е. это машина состояний. Думаю там нужен стэк ограниченного размера с выталкиванием самых старых символов при поступлении новых.

// псевдокод
file = open("my_big_file.txt","r");
buffer = byte[1024];
palindrome_scanner = new PalindromeScanner(4, 64); // min and max palindrome size
while(canRead($file)){
    buffer = fread(file, &buffer);
    for(int i=0; i<2024; i++){
        palindrome_scanner->next(buffer[i]);
    }
}

Answer 3 · 2017-12-01 13:14:29

Если слова в вашем файле записаны построчно, то вам нужно просто читать файл построчно, таким образом в памяти всегда будет только одно слово.

Проверка слова на палиндром производиться сравнением слова с ним же, но инвертированным.

Если слово является палиндромом - пишем его в другой файл.

После прохождения по всему файлу нам нужно будет выбрать из найденных палиндромов уникальные (если есть такое требование), это можно сделать с использованием ассоциативного массива или префиксного дерева со счётчиками в каждой вершине.

На практике алгоритм можно сильно ускорить если читать и писать строки не по одной, а батчами - ценой будет увеличенное потребление памяти.

Answer 4 · 2017-12-02 10:03:41

https://arxiv.org/abs/1506.04862

Там структура данных, линейная по памяти с суффиксным бором и деревом. Очень эффективная. Остается, правда, придумать, как ее на терабайт отмасштабировать.

Как найти все палиндромы в терабайтном файле?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт