Как взять часть файла?

Question

Алексей Фирсов @lesha_firs

PHP

Как взять часть файла?

Задача стоит следующая. Есть файл примерно окало 50-70тс строк, строки разной длины.
Нужно взять случайную строку из файла, но при этом сам файл не загружать в поток. так как его размер 150метров. а нужна одна случайная строка.

Были попытки передвигать внутренний указатель файла на количество байт.
Но так как строка разная, то может возятся 2 строки куском.

Чет я прегрустнул, в голову вообще не чего не лезет. Может кто знает или сталкивался?

Вопрос задан более трёх лет назад
3935 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 9

5 комментариев

avalak @avalak

Набросал proof of concept. Код на pastebin, qa16446.tar.lzma. В архиве код + тестовые данные. Основную идею оно отражает.

Написано более трёх лет назад
try4tune @try4tune

Восхищаюсь такими людьми! Сидишь, тут опа!, кому-то нужна помощь. Запустил редактор, набил тестовых данных, написал код, проверил, выложил.

Написано более трёх лет назад
Анатолий @taliban

Зачем человеку парсить файл полностью, если нужна всего одна строка? Не проще ли пропарсить одну строку начиная со случайного места + некий мусор от этого случайного места до следующей строки?

Написано более трёх лет назад
avalak @avalak

@taliban, я не предлагаю каждый раз парсить файл полностью. Всего 1 раз строится индекс, сохраняется в файл, далее используются эти данные. Это позволяет предсказуемо просто получить доступ к любой строке по её номеру (первый плюс). И нет необходимости каждый раз парсить файл в поисках подходящего фрагмента-строки (что в некоторых случаях может быть медленнее, чем использование индекса).

Можно сказать что это два альтернативных решения. Всему своё время и место.

Написано более трёх лет назад
avalak @avalak
Справедливости ради стоит заметить что получить случайную строку можно и без использования индекса, алгоритмов (вариант shsweb), лишь используя стандартные средства php. Вариант без индекса.

Вариант с индексом (1000 запусков)

real 0m43.108s user 0m26.154s sys 0m14.333s

Вариант без индекса (1000 запусков)

real 0m43.902s user 0m26.150s sys 0m14.161s

Потребление памяти в обоих случаях ~0.31-0.32mb.

Итог: потребление памяти и время выполнения примерно одинаковое.
Написано более трёх лет назад

Комментировать

3 комментария

shsweb @shsweb

1. Единожды пропарсить файл на предмет поиска максимальной длины строки, Получить MaxLen.
2. Сгенерировать случайный указатель внутри файла
3. Считать блок (2*MaxLen+2 перевода строки) из файла
4. Найти в нем строку между "\n" и "\n"
5. Выдать строку.

Написано более трёх лет назад
Анатолий @taliban

1. Берете случайную позицию от 0 до <file_length>
2. Считываете по байту пока не наткнетесь на \n
3. Считываете по байту в некий буфер пока не наткнетесь на \n
4.!!!
5. PROFIT!

Написано более трёх лет назад
Алекс Бунин @azxc

taliban примерно правильно описал. Я бы только не по байту считывал, а сразу блоками (и внутри блока искал), а то иначе слишком уж медленно будет работать.

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 193 просмотра
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 428 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 242 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 188 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2457 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 324 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 180 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 248 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 282 просмотра
3

ответа
Показать ещё Загружается…

Answer 1 · 2012-02-14 08:00:58

Если нельзя загнать данные в базу, то могу предложить велосипед-костыль. Можно построить индекс (файл с парами смещение: длина, данные выровнять) и использовать его для доступа к строкам.

Answer 2 · 2012-02-14 07:36:34

Речь идет про програмный метод? Если да, то можно взять случайный указатель где-то внутри файла и потом найти ближайший "\n" (или какой там указатель конца строки), а потом взять кусок от этого до следующего указателя конца строки (или конца файла если это вдруг последняя строчка).

Answer 3 · 2012-02-14 08:53:52

deadkrolik @deadkrolik

filesize + fseek + снова fseek на N влево пока не найдем перевод строки + fread

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2012-02-14 07:38:01

Алексей Фирсов @lesha_firs Автор вопроса

ну да программный :) я брал указатель. но как найти "\n"? не загружая файл?

Ответ написан более трёх лет назад

3 комментария

Answer 5 · 2012-02-14 08:30:37

strib @strib

en.wikipedia.org/wiki/Memory-mapped_file

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2012-02-14 09:46:03

«Случайная строка» это случайная от слова random() или от слова «произвольно задуманная с номером N»?
Если второе, то создать индекс файла.

Answer 7 · 2012-02-18 16:37:31

Arris @Arris

Сапиенсы учатся, играя.

А не вариант построить индекс по файлу? Типа «номер строки» — «смещение». Съэмулировать СУБД, так сказать?

Ответ написан более трёх лет назад

1 комментарий

Answer 8 · 2012-02-18 17:46:41

Я бы определил максимально возможную длину строки и в произвольном месте (fseek) читал бы двойную длину (fread). И потом уже в полученном фрагменте искал бы строку, ограниченную двумя переводами строки или даже sscanf'ом.

Answer 9 · 2012-02-18 18:04:05

А зачем что-то искать если родные функции PHP отлично все найдут за вас.
Делаете fseek в случайное место файла. Делаете первый fgets() или stream_get_line() c достаточным размером буфера — они гарантированно сами найдут конец строки. Далее делаете fseek от первоначального места + считанная длина строки — т.е. гарантированно попадаете на начало след. строки, которой делаете fgets() и используете.
(Нужно добавить проверки на EOF конечно)
Таким образом вы получите свою строку ценой памяти занятой буфером fgets/stream_get_line и все.

Как взять часть файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт