Сколько врмени должно занимать получение частоты слов из большого файла?

Question

12rbah @12rbah

C++
Go

Сколько врмени должно занимать получение частоты слов из большого файла?

Есть файл объемом 5 гигабайт, нужно найти частоту встречаемости слов. Моя реализация занимает по времени тратит около 6 минут на проверку вхождения одного слова и мне кажется, что это слишком много. Поэтому решил уточнить является ли такое время проверки нормальным для такого объема данных.

Вопрос задан более трёх лет назад
148 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

iBird Rose @iiiBird

ты хоть код выложи, раз ты у тебя уже есть реализация.
p.s. чисто гипотетически большая часть времени в данной операции может занимать чтение из файла. и нужно смотреть на оптимизацию в этом направлении.

Написано более трёх лет назад
Vi Vola @hakain

Как минимум можешь наверное сравнить свой алгоритм с gnu grep дав ему на вход такой же большой файл.

Написано более трёх лет назад

12rbah @12rbah Автор вопроса

iBird Rose, вот моя реализация

package main

import (
	"fmt"
	"io"
	"os"
	"strings"
)

func main() {
	words := []string{"def", "class", "push"}
	wordFreq := make(map[string]int)
	readFromBigFile("/home/alex/Desktop/1.txt", words, wordFreq)
	fmt.Println(wordFreq)
}

func getFreq(MainText string, words []string, wf map[string]int) {
	for _, word := range words {
		word = strings.ToUpper(word)
		var TextForSearch string = MainText
		end := true

		for end {
			index := strings.Index(TextForSearch, word)
			if index >= 0 {
				wf[word]++
				TextForSearch = TextForSearch[index+len(word):]
			} else {
				end = false
			}
		}

	}
}

func readFromBigFile(path string, words []string, wf map[string]int) {
	initMap(words, wf)
	f, err := os.Open(path)
	if err != nil {
		return
	}
	defer f.Close()
	var offset int64
	for {
		b := make([]byte, 1024*1024*30)
		n, err := f.ReadAt(b, offset)
		getFreq(strings.ToUpper(string(b)), words, wf)

		offset += int64(n)
		if err == io.EOF {
			break
		}
	}
}

func initMap(words []string, wf map[string]int) {
	for _, word := range words {
		wf[word] = 0
	}
}

Написано более трёх лет назад

WinPooh32 @WinPooh32

12rbah, можно гораздо проще же:

спойлер

package main

import (
	"bufio"
	"fmt"
	"os"
	"strings"
)

func main(){
	table := map[string]uint{"def": 0, "class": 0, "push": 0}

	f, err := os.Open("file.txt")
	if err != nil {
		return
	}
	defer f.Close()

	scanner := bufio.NewScanner(f)
	scanner.Split(bufio.ScanWords)

	for scanner.Scan(){
		word := strings.ToLower(scanner.Text())
		if count, ok := table[word]; ok {
			table[word] = count + 1
		}
	}

	fmt.Println(table)
}

Не факт, что быстрее отработает, но читать код хотябы приятнее будет :)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

4 комментария

WinPooh32 @WinPooh32

Ещё быстрее: можно читать файл в несколько потоков...

Будет медленнее, если файл разбить на части, т.к. боттлнек происходит при чтении с диска. Даже если у вас будет ssd.
Смысл есть только в распараллеливании над последовательно считанным с диска буфером.

Написано более трёх лет назад
xmoonlight @xmoonlight

WinPooh32, если обрабатывать сразу - то можно сэкономить на чтении в момент обработки другим потоком.

Написано более трёх лет назад
WinPooh32 @WinPooh32

xmoonlight, предлагаете асинхронную обработку? Да это поможет, но только нужно асинхронность делать на уровене ОС, в приложении нет смысла плодить потоки, если CPU простаивает.

Можно ОС заранее просить оптимизировать запросы к диску с помощью posix_fadvise, а потом уже заполнять свой буфер через read.

Написано более трёх лет назад
xmoonlight @xmoonlight

WinPooh32, или так, да.
Лучше - один раз пробежаться и составить частоту слова по каждому предложению.
Кмк, толку потом, будет куда больше...

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 109 просмотров
4

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 136 просмотров
2

ответа
PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 87 просмотров
1

ответ
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 89 просмотров
3

ответа
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 113 просмотров
2

ответа
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 102 просмотра
1

ответ
Go

Средний
Насколько сильно стоит завязываться на абстракции на примере репозитория?
- 1 подписчик
- 23 июн.
- 150 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 190 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 111 просмотров
1

ответ
C++

+3 ещё

Простой
Почему бинарник скомпилированный через CMake весит больше, чем напрямую скомпилированный через clang++?
- 1 подписчик
- 11 июн.
- 336 просмотров
1

ответ
Показать ещё Загружается…

ты хоть код выложи, раз ты у тебя уже есть реализация.
p.s. чисто гипотетически большая часть времени в данной операции может занимать чтение из файла. и нужно смотреть на оптимизацию в этом направлении.
Как минимум можешь наверное сравнить свой алгоритм с gnu grep дав ему на вход такой же большой файл.
iBird Rose, вот моя реализация

package main import ( "fmt" "io" "os" "strings" ) func main() { words := []string{"def", "class", "push"} wordFreq := make(map[string]int) readFromBigFile("/home/alex/Desktop/1.txt", words, wordFreq) fmt.Println(wordFreq) } func getFreq(MainText string, words []string, wf map[string]int) { for _, word := range words { word = strings.ToUpper(word) var TextForSearch string = MainText end := true for end { index := strings.Index(TextForSearch, word) if index >= 0 { wf[word]++ TextForSearch = TextForSearch[index+len(word):] } else { end = false } } } } func readFromBigFile(path string, words []string, wf map[string]int) { initMap(words, wf) f, err := os.Open(path) if err != nil { return } defer f.Close() var offset int64 for { b := make([]byte, 1024*1024*30) n, err := f.ReadAt(b, offset) getFreq(strings.ToUpper(string(b)), words, wf) offset += int64(n) if err == io.EOF { break } } } func initMap(words []string, wf map[string]int) { for _, word := range words { wf[word] = 0 } }
12rbah, можно гораздо проще же:

спойлер

package main import ( "bufio" "fmt" "os" "strings" ) func main(){ table := map[string]uint{"def": 0, "class": 0, "push": 0} f, err := os.Open("file.txt") if err != nil { return } defer f.Close() scanner := bufio.NewScanner(f) scanner.Split(bufio.ScanWords) for scanner.Scan(){ word := strings.ToLower(scanner.Text()) if count, ok := table[word]; ok { table[word] = count + 1 } } fmt.Println(table) }

Не факт, что быстрее отработает, но читать код хотябы приятнее будет :)

Answer 1 · 2020-04-04 22:42:47

Невозможно ответить однозначно. Время в данном контексте зависит от многих факторов: алгоритма, вашего железа, компилятора, флагов сборки и т.п. То есть, время не говорит читателю вашего вопроса вообще ничего.

В конце концов, если ресурсы позволяют, можно прочитать весь файл в какой-нибудь структуру типа словаря и получать частоту вхождения слова за O(1) или O(log n) в зависимости от того, какую струтуру вы выбрали. Тут время будет тратится на чтения файла и создание структуры данных, но один раз.

Answer 2 · 2020-04-05 00:37:29

6 минут (или меньше) - для получения полной частотной статы по всем словам за один проход.
Ещё быстрее: можно читать файл в несколько потоков, а разрывы - склеить по ориентиру байт-смещения.

Сколько врмени должно занимать получение частоты слов из большого файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт