Как лучше оптимизировать такие действия с массивами?

Question

Soft_touch_plastic @Soft_touch_plastic

C++

Как лучше оптимизировать такие действия с массивами?

Я еще новичок в с++. Решаю олимпиадную задачу. Решил ее вначале на питоне. Все нормально, но скорость удручает. По расчетам порядка двух-трех часов будет решаться.
Если кратко, то суть задачи в том что есть файл в котором 100 000 слов с ошибками в строку записаны, и есть словарь на 50 000 строк в котором все эти слова в правильном варианте находятся. Нужно в ответ отдать файл, в котором к каждому неправильно записанному слову подобран его аналог из словаря (разумеется правильный).

Алгоритм оптимизирован в плане логики, однако я решил переписать его на c++ и столкнулся с удручающей потерей в скорости.
Например только подготовка данных заняла около секунды в c++, а выполнение всего алгоритма в питоне на 10 строках заняло 800ms.
Пробовал разные виды массивов заполнять, все равно выше 1 секунды на одно лишь заполнение массива 100 000 строк не удавалось выскочить.

Предполагается что в дальнейшем будут храниться структуры данных в виде словарей, в которых ключом является число - длина строк, а значением массив строк такой длинны. По идее будет использован map<int, vector<string>>, однако не убьет ли это быстродействие крестов к нулю?
Как решаются подобные задачи, неужели питон будет действительно быстрее?

Вопрос задан более трёх лет назад
227 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Евгений Шатунов @MarkusD Куратор тега C++

Soft_touch_plastic , я понимаю что ты с инструментом C++ еще только начинаешь знакомиться, однако хочу обратить твое внимание на другой, крайне важный, момент.
Структура изложения твоего вопроса, точнее - ее отсутствие, говорит о том, что у тебя проблемы с подходом последовательного решения задач. Предложения плохо разделены, плохо стыкуются в единое повествование, перед каждым продолжением у тебя идет вставка или вперед по контексту, или назад. И все вместе выглядит как рваное и неструктурированное. Твой текст непонятен сразу, в него приходится вчитываться, приходится напрягаться чтобы тебя понять.
Это выдает отсутствие у тебя навыков структурного изложения. Это говорит о том, что твой код, скорее всего, точно так же лишен структуры. И не важно на каком этот код языке, ведь у тебя не получается сложить структуру используя даже свой родной язык.

Я обращаю на это твое внимание потому что от этого прямо зависит оптимальность твоего кода.
Описанная тобой задача довольно легко решается средствами C++, а решение будет многократно быстрее твоих ожиданий от Питона. Но весь вопрос в том, сможешь ли ты создать подходящую структуру кода для реализации твоего решения.

Предполагается что в дальнейшем будут храниться структуры данных в виде словарей, в которых ключом является число - длина строк, а значением массив строк такой длинны.

И это провалит твою производительность. Бинарное дерево и вектора не позволят тебе быстро определять ошибку в слове.
Для быстродействия тебе нужно изучить и применить расстояние Левенштейна, префиксные деревья и, как минимум, триграммы.

Вообще было бы неплохо если бы ты показал свой код решения задачи. Можно было бы подсказать что-нибудь конкретное.

Написано более трёх лет назад

Решения вопроса 1

3 комментария

Soft_touch_plastic @Soft_touch_plastic Автор вопроса

Ввод через чтение из файла (ifstream)
Эта структура данных использовалась, чтобы сортировать массив по длинне строк, тоесть ключ - длинна слов, значение - массив таких слов, таким образом я быстро сужаю область поиска.
Насчет последнего спасибо, буду читать

Написано более трёх лет назад
Wataru @wataru Куратор тега C++

Soft_touch_plastic, ifstream вроде такой же медленный. Попробуйте через fscanf и fopen читать.

Написано более трёх лет назад
Soft_touch_plastic @Soft_touch_plastic Автор вопроса

Wataru, спасибо, пробую

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

3 комментария

Soft_touch_plastic @Soft_touch_plastic Автор вопроса

спасибо, но алгоритм уже оптимизирован дальше некуда. Вопрос был именно про оптимизацию с++, почему он так медленно например читал из файла, и какой вид массива самый шустрый

Написано более трёх лет назад
rPman @rPman

если не секрет как алгоритм оптимизирован?

Написано более трёх лет назад
Soft_touch_plastic @Soft_touch_plastic Автор вопроса

rPman, да ничего особенного, вначале отбор по длине, заранее готовим словарь, где ключом является длина слова, а значением список слов такой длины с одной деталью: берутся слова с длиной плюс один, плюс два, минус один и минус два (чтобы попали слова если в целевом слове пропущена одна или две буквы или одна или две буквы лишние). Например, под индексом 14 список всех слов из словаря длиной 14, а также 12, 13, 15 и 16. Дальше берем длину исковерканого слова, берем из нашего списка отсортированых по длине слов нужный элемент, и таким образом сужаем круг поиска до 1000-2000 слов из 50 000.
Дальше делим слова на n-граммы (я использовал двух-граммы), и ищем пересечения с n-граммами целевого слова. Если длина списка совпавших n-грамм больше определенного числа (я брал длину списка n-грамм целевого слова разделить на 4.3), то такое слово потенциально похоже на целевое, его добавляем в новый список похожих слов. Таким макаром еще сильнее сужаем круг поиска, и наконец пробегаем дамерау-левенштейном по списку, и слово с наименьшим значением редактирования и будет искомым словом. В моей реализации на одно слово уходит примерно 0.030 секунд (словарь 62 027 слов)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Простой
Это как вообще?
- 1 подписчик
- 23 часа назад
- 113 просмотров
1

ответ
C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 16 авг.
- 165 просмотров
2

ответа
C++

Простой
Сборник задач на C++?
- 1 подписчик
- 16 авг.
- 111 просмотров
1

ответ
C++

Простой
Почему requires !std::is_void_v работает только для шаблона?
- 1 подписчик
- 15 авг.
- 57 просмотров
0

ответов
C++

Простой
Почему возникает ошибка C2512 в конструкторе с std::initializer_list?
- 1 подписчик
- 12 авг.
- 98 просмотров
1

ответ
C++

+1 ещё

Простой
Почему окружность получается отрисованной не ровно?
- 1 подписчик
- 11 авг.
- 188 просмотров
2

ответа
C++

Средний
Как инициализировать TCHAR*?
- 1 подписчик
- 08 авг.
- 89 просмотров
2

ответа
C#

+1 ещё

Средний
Где найти чистые исходники мобильного сервера SAMP / CRMP?
- 1 подписчик
- 06 авг.
- 153 просмотра
1

ответ
C++

+1 ещё

Сложный
Не работает поиск через Массив байтов, как исправить?
- 1 подписчик
- 03 авг.
- 118 просмотров
1

ответ
C++

Простой
Почему не получается вывести тип шаблона?
- 1 подписчик
- 02 авг.
- 68 просмотров
1

ответ
Показать ещё Загружается…

Стажер Аналитик

ПСБ цифровая лаборатория • Москва

от 30 000 до 60 000 ₽

Стажер в отдел IT-рекрутинга (Санкт-Петербург)

Wanted • Санкт-Петербург

от 60 000 до 120 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2022-02-27 12:14:44

Во-первых, может быть проблема со вводом. cin и cout работают медленно с большими объемами данных. Или читайте через scanf, или можно отключить синхронизацию с stdio.

Во-вторых, описанная вами структура данных быстродействие не убъет, но мне не понятно, чем она поможет в задаче.

Вам точно понадобятся map-ы из строки во что-то еще. В питоне вы наверняка использовали словари (использовали строки в виде ключа в массиве), вот это оно и будет в с++. Можно поэксперементировать std::unordered_map может быть побыстрее std::map. А вообще, особенно быстрое решение вы можете получить используя cтруктуру данных бор (оно же trie). Правда, ее придется самостоятельно писать.

Answer 2 · 2022-02-27 13:10:01

Какое точное определение неправильного слова и как определить правильное?
Что сильнее делает слово неправильным, отсутствие буквы? перестановка? подмена? а какое более неправильное? есть ли разница, в какой позиции слова произошла ошибка, в первом символе или остальных?
Например список слов без ошибок:

море
мор
март

И вот у нас слова:

мар - это мор или март?
маре - это март или море?
так - это

Т.е. первое, нужно определить функцию сравнения слова из анализируемого файла со словами из списка правильных.

Я бы взял уже готовую функцию levenshtein (с разными оценками на типы изменений) и для упрощения например брал бы первое слово из списка с минимальной оценкой ошибки.

Дальше алгоритм
* Если решать в лоб, никаких ресурсов не хватит, просто для каждого слова из списка вычисляешь оценку на ошибку с правильным, перебирая их до тех пор пока не встретится с оценкой 0.
Трудоемкость - квадрат на экспоненту от средней длины слова - т.е. долго
* Предварительно можно исходные анализируемые данные собрать в map слов, чтобы исключить повторения
* Можно чуть чуть оптимизировать этот алгоритм, если слов с ошибкой в исходном файле мало, перед сравнением искать слово по словарю, построив map заранее, и искать первую минимальную ошибку сравнения, т.е. для правильных слов использовать максимально быстрый алгоритм поиска, исключив их из медленного алгоритма сравнения
* Дальнейшая оптимизация - расширение последнего шага - можно заранее создать структуру в памяти для всех возможных значений строк с единичным изменением правильных слов (т.е. для каждого правильного слова поместить в map это измененное слово и ссылку на правильное) - получим массив ошибочных слов с ошибкой 1, т.е. все слова с ошибкой 1 могут быть обнаружены со скоростью работы map, так как количество изменений в данном случае сравнимо с количеством используемых символов (умножить на 3) а в задаче речь о словах, т.е. количество символов мало? то на каждое слово в map будет 3*n записей
* Точно так же можно сделать массив всех ошибочных слов для 2-ух изменений (например 1-изменение на каждую запись от списка с 1-изменением)
* 3-ех,..4-ех и т.п.

Очевидно что хранить в памяти такое количество данных очень дорого (можно не хранить в map сами значения, а только хеши для поиска и разруливание коллизий использования этого хеша), плюс предварительное заполнение таких массивов долгое, и имеет смысл только для небольшой глубины (например известно что основное количество ошибочных слов имеет малое количество ошибок, а слова с большим количеством ошибок бесполезны - в реальной задаче поиска ошибок так и есть, никого не интересует случаи когда в слове все буквы ошибочны, обычно речь идет о 2-3 ошибках)

* Дальнейшая оптимизация - перевернуть алгоритм на поиск в ширину по графу всех возможных изменений правильных слов (это не дерево а граф, так как правильные слова за конечное количество изменений будут переходить друг в друга или другие ошибочные слова, созданные из других правильных слов), т.е. запускаем поиск и на каждом шаге делаем сравнение полученной строки с ошибкой со всеми словами из анализируемого списка, тут поиск быстрый по map)
Этот подход имеет смысл если анализируемых слов сильно много (и они все с ошибками) и накладные расходы на сравнение со всеми комбинациями ошибок - не велики, по памяти - она так же потребуется на поддержание самого поиска в ширину

Answer 3 · 2022-02-28 11:17:53

Читайте файлы сразу большими блоками (вплоть до всего файла сразу). Под большие блоки можете использовать std::vector<char> с предварительно установленным размером вектора (std::vector::reserve())
Затем вручную делите прочтенный блок на строки, видимо, заменой \n на 0.
Все указатели на найденные строки сразу складывайте в используемую в алгоритме структуру данных.
Не используйте std::string, т.к. он реаллоцирует память на каждый чих, это приводит к повторному выделению того же самого объема памяти но порезанному на мелкие куски и дополнительному копированию строк. Используйте std::string_view (есть в С++17) или вообще сырые Сишные строки, как самый быстрый вариант.

Вообще все массивы в плюсах (vector, array, "сырые" динамические и статические массивы) работают одинаково быстро, если рассматривать операцию обращения к элементу массива по индексу. Но в vectorе многие другие операции могут приводить к реаллокации памяти и копированию массива. В сырых динамических массивах вы не можете просто так изменить размер массива, это надо делать явно с помощью вызова realloc, а потому тут вы эту операцию явно контролируете, в векторах же (как и строках) это происходит не явно, поэтому часто разработчики не придают этому значения, тогда как обращения к менеджеру памяти достаточно дороги в плане производительности.

Как лучше оптимизировать такие действия с массивами?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт