Сколько врмени должно занимать получение частоты слов из большого файла?

Question

12rbah @12rbah

C++
Go

Сколько врмени должно занимать получение частоты слов из большого файла?

Есть файл объемом 5 гигабайт, нужно найти частоту встречаемости слов. Моя реализация занимает по времени тратит около 6 минут на проверку вхождения одного слова и мне кажется, что это слишком много. Поэтому решил уточнить является ли такое время проверки нормальным для такого объема данных.

Вопрос задан более трёх лет назад
145 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

iBird Rose @iiiBird

ты хоть код выложи, раз ты у тебя уже есть реализация.
p.s. чисто гипотетически большая часть времени в данной операции может занимать чтение из файла. и нужно смотреть на оптимизацию в этом направлении.

Написано более трёх лет назад
Vi Vola @hakain

Как минимум можешь наверное сравнить свой алгоритм с gnu grep дав ему на вход такой же большой файл.

Написано более трёх лет назад

12rbah @12rbah Автор вопроса

iBird Rose, вот моя реализация

package main

import (
	"fmt"
	"io"
	"os"
	"strings"
)

func main() {
	words := []string{"def", "class", "push"}
	wordFreq := make(map[string]int)
	readFromBigFile("/home/alex/Desktop/1.txt", words, wordFreq)
	fmt.Println(wordFreq)
}

func getFreq(MainText string, words []string, wf map[string]int) {
	for _, word := range words {
		word = strings.ToUpper(word)
		var TextForSearch string = MainText
		end := true

		for end {
			index := strings.Index(TextForSearch, word)
			if index >= 0 {
				wf[word]++
				TextForSearch = TextForSearch[index+len(word):]
			} else {
				end = false
			}
		}

	}
}

func readFromBigFile(path string, words []string, wf map[string]int) {
	initMap(words, wf)
	f, err := os.Open(path)
	if err != nil {
		return
	}
	defer f.Close()
	var offset int64
	for {
		b := make([]byte, 1024*1024*30)
		n, err := f.ReadAt(b, offset)
		getFreq(strings.ToUpper(string(b)), words, wf)

		offset += int64(n)
		if err == io.EOF {
			break
		}
	}
}

func initMap(words []string, wf map[string]int) {
	for _, word := range words {
		wf[word] = 0
	}
}

Написано более трёх лет назад

WinPooh32 @WinPooh32

12rbah, можно гораздо проще же:

спойлер

package main

import (
	"bufio"
	"fmt"
	"os"
	"strings"
)

func main(){
	table := map[string]uint{"def": 0, "class": 0, "push": 0}

	f, err := os.Open("file.txt")
	if err != nil {
		return
	}
	defer f.Close()

	scanner := bufio.NewScanner(f)
	scanner.Split(bufio.ScanWords)

	for scanner.Scan(){
		word := strings.ToLower(scanner.Text())
		if count, ok := table[word]; ok {
			table[word] = count + 1
		}
	}

	fmt.Println(table)
}

Не факт, что быстрее отработает, но читать код хотябы приятнее будет :)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Разработчик C++

9 месяцев

Далее
Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Компьютерная академия «TOP»

Учебная программа “Разработка программного обеспечения”

30 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

4 комментария

WinPooh32 @WinPooh32

Ещё быстрее: можно читать файл в несколько потоков...

Будет медленнее, если файл разбить на части, т.к. боттлнек происходит при чтении с диска. Даже если у вас будет ssd.
Смысл есть только в распараллеливании над последовательно считанным с диска буфером.

Написано более трёх лет назад
xmoonlight @xmoonlight

WinPooh32, если обрабатывать сразу - то можно сэкономить на чтении в момент обработки другим потоком.

Написано более трёх лет назад
WinPooh32 @WinPooh32

xmoonlight, предлагаете асинхронную обработку? Да это поможет, но только нужно асинхронность делать на уровене ОС, в приложении нет смысла плодить потоки, если CPU простаивает.

Можно ОС заранее просить оптимизировать запросы к диску с помощью posix_fadvise, а потом уже заполнять свой буфер через read.

Написано более трёх лет назад
xmoonlight @xmoonlight

WinPooh32, или так, да.
Лучше - один раз пробежаться и составить частоту слова по каждому предложению.
Кмк, толку потом, будет куда больше...

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Go

Простой
Как пропустить поле при конвертации структуры в JSON?
- 1 подписчик
- 15 окт.
- 97 просмотров
0

ответов
C++

+2 ещё

Простой
Как подключить SFML к Clion на MacOs?
- 1 подписчик
- 14 окт.
- 74 просмотра
1

ответ
C++

Средний
Как определить виртуальные методы в полной специализации шаблона?
- 1 подписчик
- 13 окт.
- 60 просмотров
1

ответ
C++

+1 ещё

Простой
Только начинаю изучать Qt, не знаю как убрать ошибки :-1: ошибка: collect2.exe: error: ld returned 1 exit status?
- 1 подписчик
- 12 окт.
- 102 просмотра
0

ответов
C++

Простой
Какую библиотеку использовать для отображения OHLC свечей в приложении на C++?
- 1 подписчик
- 11 окт.
- 81 просмотр
0

ответов
Go

Простой
Можно ли получить исходное имя файла до переименования из fsnotify?
- 3 подписчика
- 09 окт.
- 193 просмотра
1

ответ
C++

Простой
Можно ли собрать curl с подпапкой для дополнений?
- 3 подписчика
- 09 окт.
- 101 просмотр
1

ответ
C++

+1 ещё

Простой
Как обезопасить секрет в памяти?
- 2 подписчика
- 04 окт.
- 279 просмотров
3

ответа
C++

+1 ещё

Простой
Какую библиотеку для excel c++ посоветуете?
- 3 подписчика
- 01 окт.
- 385 просмотров
1

ответ
Go

+1 ещё

Простой
Какой наиболее привычный путь для удаленного хранения настроек линтинга в Go?
- 1 подписчик
- 30 сент.
- 141 просмотр
1

ответ
Показать ещё Загружается…

Старший дизайнер специальных проектов

Хабр • Москва

от 180 000 до 200 000 ₽

Разработчик Форсайт

Линасофт • Москва

от 100 000 до 250 000 ₽

Продуктовый дизайнер (UI)

Морская геодезия • Санкт-Петербург

от 120 000 ₽

ты хоть код выложи, раз ты у тебя уже есть реализация.
p.s. чисто гипотетически большая часть времени в данной операции может занимать чтение из файла. и нужно смотреть на оптимизацию в этом направлении.
Как минимум можешь наверное сравнить свой алгоритм с gnu grep дав ему на вход такой же большой файл.
iBird Rose, вот моя реализация

package main import ( "fmt" "io" "os" "strings" ) func main() { words := []string{"def", "class", "push"} wordFreq := make(map[string]int) readFromBigFile("/home/alex/Desktop/1.txt", words, wordFreq) fmt.Println(wordFreq) } func getFreq(MainText string, words []string, wf map[string]int) { for _, word := range words { word = strings.ToUpper(word) var TextForSearch string = MainText end := true for end { index := strings.Index(TextForSearch, word) if index >= 0 { wf[word]++ TextForSearch = TextForSearch[index+len(word):] } else { end = false } } } } func readFromBigFile(path string, words []string, wf map[string]int) { initMap(words, wf) f, err := os.Open(path) if err != nil { return } defer f.Close() var offset int64 for { b := make([]byte, 1024*1024*30) n, err := f.ReadAt(b, offset) getFreq(strings.ToUpper(string(b)), words, wf) offset += int64(n) if err == io.EOF { break } } } func initMap(words []string, wf map[string]int) { for _, word := range words { wf[word] = 0 } }
12rbah, можно гораздо проще же:

спойлер

package main import ( "bufio" "fmt" "os" "strings" ) func main(){ table := map[string]uint{"def": 0, "class": 0, "push": 0} f, err := os.Open("file.txt") if err != nil { return } defer f.Close() scanner := bufio.NewScanner(f) scanner.Split(bufio.ScanWords) for scanner.Scan(){ word := strings.ToLower(scanner.Text()) if count, ok := table[word]; ok { table[word] = count + 1 } } fmt.Println(table) }

Не факт, что быстрее отработает, но читать код хотябы приятнее будет :)

Answer 1 · 2020-04-04 22:42:47

Невозможно ответить однозначно. Время в данном контексте зависит от многих факторов: алгоритма, вашего железа, компилятора, флагов сборки и т.п. То есть, время не говорит читателю вашего вопроса вообще ничего.

В конце концов, если ресурсы позволяют, можно прочитать весь файл в какой-нибудь структуру типа словаря и получать частоту вхождения слова за O(1) или O(log n) в зависимости от того, какую струтуру вы выбрали. Тут время будет тратится на чтения файла и создание структуры данных, но один раз.

Answer 2 · 2020-04-05 00:37:29

6 минут (или меньше) - для получения полной частотной статы по всем словам за один проход.
Ещё быстрее: можно читать файл в несколько потоков, а разрывы - склеить по ориентиру байт-смещения.

Сколько врмени должно занимать получение частоты слов из большого файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт