Как исключить повторение записей в большом списке?

Question

PO6OT @woonem

Как исключить повторение записей в большом списке?

Допустим есть такой код:

<?php
function getlist($string){
 if($string>0 && file_exists('./list.txt') && filesize('./list.txt')>=($string*2)){
  $list=fopen('./list.txt', 'a+');
  fseek($string*2-2);
  return fgets($list, 1);
 }
}

function putlist($data){
 if($data){
  $data=substr($data, 0, 1);
  file_put_contents('./list.txt', $data."\n", FILE_APPEND);
 }
}

Это упрощённый вариант, нет блокировок.
Тут вводимая строка сокращается до одного символа, но в реальности будет больше и строк будет много (list.txt больше 1 ТБ).

Как избежать повторения строк без потери производительности?

Можно попробовать так:

$data=$_GET['data']; //$data=='d';
for($i=1; $d=getdata($i), $d; $i++){
 if($d===$data){
  $cancel=true;
  break;
 }
}
if(!$cancel)
 putdata($data);

Но при больших объёмах данных такой способ не подходит.
Как, например, google убирает повторяющиеся ссылки из индексирования?

Вопрос задан более трёх лет назад
303 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

13 комментариев

PO6OT @woonem Автор вопроса

по примеру решения разве не понятно, что надо на лету?

Написано более трёх лет назад
Алексей Ostin @nitso

Вадим Егоров: создавайте индекс. Если бы вы STDIN парсили - было бы понятно, что на лету. А так - просто файл какой-то

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

Алексей Ostin: а как индекс поможет находить строку с определённым содержанием?
я в технологиях БД не разбираюсь, объясните, что за индекс

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

Алексей Ostin: вы уверены, что MapReduce это то, что мне нужно?
По моему, он будет не быстрее моего способа.
А распараллеливания я там не заметил. Может я не на те статьи попал.

Написано более трёх лет назад
Алексей Ostin @nitso

По поводу индекса, вы "сворачиваете" вашу большую базу в структуру, занимающую на порядки меньше места. Например, для каждой строки считаете хэш. С той лишь целью, чтобы не выполнять поиск по всему файлу, а искать по базе с хешами.

Кстати говоря, возможно, вам моможет стандартная POSIX-утилита uniq.

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

Алексей Ostin: дело в том, что длинна строки меньше 32 байт

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

Алексей Ostin: uniq применима только после добавления в файл повторения, а мне надо проверить на уникальность строку до её добавления в список

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

Алексей Ostin: я думаю, может сделать посимвольное дерево?
типа есть такие строки:

asd
aft
bsd

создаётся дерево:

a[ s[ d ] f[ t ] ] b[ s[ d ] ]

нужно вставить строку ast (+ найдено, - не найдено):

+a[ +s[ -t ] ]

Написано более трёх лет назад
Алексей Ostin @nitso

А алфавит заранее известен? 32 байта - это 10^77 (2^(32*8)) уникальных бинарных значений - в память наверняка не влезет. md5, например - вдвое меньше

Более того, PHP-структура займет еще больше в памяти. Если есть уверенность, что список всех уникальных значений влезет в память - достаточно просто ключей (array('asd' => null)).

И еще раз про готовые утилиты:
sort -us -o uniq.txt list.txt

Написано более трёх лет назад
Алексей Ostin @nitso

Про uniq только сейчас прочитал. Если данные только планируются, почему не писать в базу? Шардинг + уникальный индекс. Про производительность вставки данных в уникальный индекс, например, mysql dba.stackexchange.com/questions/34837/unique-inser...

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

Алексей Ostin: я это хочу для хранения ссылок для индексации
там же террабайты одних только ссылок
уверены, что будет нормально работать?

Написано более трёх лет назад
Алексей Ostin @nitso

Будет у вас таблица с доменами (ну не думаю, что больше 30 млн насобираете) - это фигня. Нормально шардится по зоне. А таблица с путями отлично шардится по доменам.

Можно попробовать nosql какой-нибудь. Apache Lucene (Elasticsearch), например.

Написано более трёх лет назад
Алексей Ostin @nitso

расскажите, как терабайт насобираете :)

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 1 подписчик
- 6 часов назад
- 73 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 100 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 269 просмотров
0

ответов
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 172 просмотра
2

ответа
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 316 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 280 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 264 просмотра
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 265 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 171 просмотр
1

ответ
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 215 просмотров
4

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2015-10-19 15:52:44

Вам для разового применения (почистить базу) или для постоянного использования?

Можно разбить весь объем на пачки и применить подход map-reduce (как раз как Google)
Можно один раз пройтись по всем данным и построить индекс, чтобы использовать его в дальнейшем
А можно просто положить все данные в какую-либо базу данных, поддерживающую этот функционал из коробки

Как исключить повторение записей в большом списке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт