Как посчитать кол-во вхождений строк в файл?

Question

mrgloom @mrgloom

Как посчитать кол-во вхождений строк в файл?

Допустим есть текстовый файл, где каждая строчка это слово, слова могут встречаться в файле по нескольку раз, необходимо посчитать кол-во вхождений каждого слова в файл.
Проблема в том, что слов может быть несколько сотен миллионов, т.е. текстовый файл размером >4ГБ.

1.Как лучше хранить данные вместо текстового файла?
2.По сути можно было бы использовать std::map для подсчёта, но что если всё не влезет в память? (т.е. по хорошему хотелось бы std::map который как бы лежит на диске)

По сути задача выглядит как {id,name,surname} что как бы намекает на SQL, но не очень то хочется с ним связываться(т.к. лишняя привязка и я с ним не работал почти), и сколько таких записей он сможет потянуть и насколько просто подсчитать кол-во вхождений используя SQL?

так же если кто-то может предложить решение на python может это будет даже лучше.

Вопрос задан более трёх лет назад
4793 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 5

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 9 часов назад
- 38 просмотров
1

ответ
C++

+2 ещё

Простой
Как скомпилировать рабочую dll библиотеку?
- 2 подписчика
- 11 часов назад
- 109 просмотров
1

ответ
C++

+1 ещё

Простой
Как узнать, хранятся числа в компьютере в прямом, дополнительном или обратном коде?
- 1 подписчик
- 23 нояб.
- 347 просмотров
6

ответов
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 82 просмотра
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 222 просмотра
1

ответ
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 430 просмотров
5

ответов
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 189 просмотров
1

ответ
C++

+1 ещё

Простой
Почему Project Dependencies не работает?
- 1 подписчик
- 10 нояб.
- 79 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 262 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 167 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2014-07-18 11:05:19

"Несколько миллионов" для современных объемов оперативной памяти -- это не проблема. Имеет смысл уточнить ограничения, накладываемые на вашу программу. Вы пробовали решить ее "в лоб"? Не занимаетесь ли вы преждевременной оптимизацией? :)
Если объем входного текста действительно не ограничен сверху, тогда это задача выглядит, например, как один из класссических примеров map-reduce (я ни в коем случае не о фреймворках, хадупах и прочих зукиперах, а об идее), которая сводится к тому, чтобы разбить входной поток на N фрагментов фиксированного размера (например, по миллиону строк), посчитать количество слов в каждом фрагменте независимо (шаг map), получив на выходе N наборов ключ-значение (где, ключ -- слово, значение -- число вхождений), далее просуммировать эти наборы (шаг reduce). Если число ключей на выходе map опять же огромно (что я себе представляю с трудом для "натуральных" языков), можно шардить промежуточные результаты, когда шаг map на выходе выдает не один сплошной файл, а K фрагментов (например, первый -- слова на "a-c", второй -- на "d-f" и т.д.). Здесь немного подробнее об этом: michaelnielsen.org/blog/write-your-first-mapreduce...

Answer 2 · 2014-07-18 10:51:39

С++11 + unordered_map. Не метеор, но map стабильно обгоняет и для решения задачи за глаза хватит.

А вообще вот так это решается в Bash:
sort file | uniq -c
Если структура сложная, то предварительно нужно выделить ключ из файла, например так:

$ cut -d: -f7 /etc/passwd | sort | uniq -c
      2 /bin/bash
      1 /bin/sync
      1 /sbin/halt
     34 /sbin/nologin
      1 /sbin/shutdown

Answer 3 · 2014-07-18 09:32:50

std::map вполне может подойти. Миллион записей для современного кол-ва оперативки не так уж и много :-)
С SQL будет очень просто посчитать кол-во вхождений, но имхо это оверхэд для данной задачи :-)

Answer 4 · 2014-07-18 11:28:48

Вы явно преждевременно оптимизируете. Решение на питоне, абсолютно в лоб, достаточно быстро работает на файле с 10M слов по 8 символов. К слову это всего 100 мегабайт. Даже если слов будет в 10 раз больше памяти хватит.

import random, string
from collections import defaultdict as ddict

def randomword(length):
   return ''.join(random.choice(string.lowercase) for i in range(length))

def main():
	f = open('a.txt', 'w')
	for i in range(10000000):
		f.write(randomword(8) + '\n')

	f.close()
	print('gen finished')

	d = ddict(int)
	stat = ddict(int)
	f = open('a.txt', 'r')
	for w in f.readlines():
		d[w] += 1
		stat[d[w]] += 1
		if d[w] > 1:
			stat[d[w] - 1] -= 1

	print stat




if __name__ == '__main__':
	main()

Answer 5 · 2014-07-18 09:33:00

Добрый день. Это тривиальная задача. Используйте регулярные выражения или готовые функции для нахождения числа вхождений подстроки в строку. Например php substr_count.

Answer 6 · 2014-07-18 09:40:02

DancingOnWater @DancingOnWater

В случае миллионов вариантов map - плохое решение - слишком много коллизий будет.

Ответ написан более трёх лет назад

1 комментарий

Как посчитать кол-во вхождений строк в файл?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт