Что такое «асимптотически точная оценка времени работы алгоритма»?

Question

Артем Парфёнов @getmanartem

Алгоритмы

Что такое «асимптотически точная оценка времени работы алгоритма»?

Привет всем грызущим гранит. Разбираю Кормена "Алгоритмы. Построение и анализ". Для более глубокого понимания проглядываю материалы из других источников - некоторые моменты изложены примитивнее и быстрее оседают. Наткнулся на статью algolist.manual.ru/misc/o_n.php . Сразу же зацепился за определение точной оценки Θ():

Оценка Θ() существует только тогда, когда O() и Ω() совпадают и равна им.

Итак, O() - асимптотическая оценка алгоритма на худших входных данных, Ω() - на лучших входных данных, Θ() - сокращенная запись одинаковых O() и Ω().

два сомнительных момента. Несмотря на то, что звучали они как очевидно ошибочные, я понял что запутался и не усвоил понятие точной оценки ( Θ() ).
Кормен уклончиво сообщает, что иногда дать точную оценку (оценить среднее время работы алгоритма) проблематично из-за того, что не всегда очевидно какие входные данные для данной задачи будут усредненными. Он же говорит, что точная оценка представляет из себя множество функций, заключенных между константными отклонениями от оцениваемой функции. Но насколько я понял, границы эти не есть верхняя O() и нижняя оценки Ω(). Это просто константы, ограничивающие множество Θ(). Оценка Θ() может быть использована для получения оценок O() и Ω() и наоборот, при этом справедливо следующее - Ω() принадлежит Θ() принадлежит O(). Вот здесь, очевидно, я плыву потому что вики вещает следующее:

Θ() дает одновременно верхнюю и нижнюю оценки роста функции

Известно, что например для сортировки qsort средняя оценка для случайного распределения входных данных (она же лучшая, для полностью сбаллансированного варианта) равна Θ(nlogn), тогда как верхняя оценка (для специально подобранных неоптимальных данных) равна O(n^2).
Также известно, что сортировка вставками в лучшем случае дает Ω(n) (для предварительно отсортированного набора), тогда как средняя и худшая оценки равны Θ(n^2) и O(n^2).
Кормен, если опять же я правильно понимаю, говорит что на практике имея верхнюю и нижнюю оценки получают точную оценку, делая более строгие/мягкие предположения - это академически.
Правильно ли будет сказать, что реально асимптотически точная оценка алгоритма дается в первую очередь на основании особенностей работы конкретного алгоритма для усредненных входных данных (понимая под усредненными данными случайно распределенный массив данных), а в сложных случаях - отталкиваясь от оценок сверху O() и снизу Ω()? Являются ли процитированные утверджения из статьи ошибочными?

Вопрос задан более трёх лет назад
8888 просмотров

8 комментариев

Подписаться 3 Оценить 8 комментариев

Миша Кринкин @kmu1990

@getmanartem точная оценка и оценка среднего времени работы это два разных понятия. Среднее время работы это математическое ожидание времени работы, его можно оценивать снизу, сверху и точно, т. е. приводить для него Ω, O и Θ оценки. Аналогично можно оценивать худший случай работы алгоритма снизу, сверху и точно ну и т. д. Короче не путайте оценку среднего времени и асимптотическую нотацию, я думаю, что как только вы перестанете мешать все в кучу вы быстро осознаете, что Ω, O и Θ - это просто способы (довольно грубо) сравнить функции по скорости роста.

Написано более трёх лет назад
Артем Парфёнов @getmanartem Автор вопроса

хм, путаница какая-то ... я все время считал, что оценка среднего времени работы алгоритма (асимптотическая разумеется) и точная оценка (так же асимптотическая) это одно и то же, то есть Θ.

Написано более трёх лет назад
Миша Кринкин @kmu1990

@getmanartem ну посмотрите еще раз на определения Ω, O и Θ, и подумайте, мы можем сравнить две функции используя эти определения безотносительно того, что эти функции обозначают, т. е. нам даже не важно, чтобы эти функции оценивали сложность/память алгоритма, уж не говоря уже о том, чтобы они оценивали лучший/худший/средний случай работы алгоритма. Кстати, справедливости ради отмечу, что определение этих понятий (Ω, O и Θ) в Кормене совсем не единственное, есть и другие варианты (плюс минус не совместимые).

Написано более трёх лет назад
Артем Парфёнов @getmanartem Автор вопроса

@kmu1990 все же Кормена предпочитаю считать неоспоримой базой, хотя может это из-за недостатка опыта. Специально посмотрел ещё раз главу "Основы" из его труда: фразы "среднее время работы алгоритма растёт как ..." и "асимптотически точная оценка времени работы алгоритма равна Θ(...)" используются синонимично

Написано более трёх лет назад
Миша Кринкин @kmu1990

@getmanartem
все же Кормена предпочитаю считать неоспоримой базой

никто его не оспаривает, просто сообщаю, что кроме Кормена есть и другие ресурсы, и обозначения могут иметь немного другой смысл.

Специально посмотрел ещё раз главу "Основы" из его труда: фразы "среднее время работы алгоритма растёт как ..." и "асимптотически точная оценка времени работы алгоритма равна Θ(...)" используются синонимично

покажите в каких словах вы углядели синонимичное использование, я верю, что вы просто неправильно их поняли.

Написано более трёх лет назад
Артем Парфёнов @getmanartem Автор вопроса

Хоть и не люблю это дело, но вот:
- стр. 92 "... верхний предел времени работы в наихудшем случае выражается как O(n^2) ..."
- стр. 92 "... Когда говорят, что "время работы равно O(n^2)", то подразумевается ... "
- стр. 97 "... Докажите, что время работы алгоритма равно Θ(g(n))..."
Это не какая-то фундаментальная ошибка, а терминология, предложеная Корменом, я ее лишь принял как есть.

Написано более трёх лет назад
Миша Кринкин @kmu1990

@getmanartem так как раз таки из того, что там написано следует, что это не синонимы, ну посудите сами фраза "верхний предел времени в наихудшем случае" - зачем вставлять в одно предложение и верхний предел и наихудший случай, если подразумевается, что O (он же верхний предел) и наихудший случай синонимы? Более того, предлагаю вам заглянуть вперед в введение к главе 7 (быстрая сортировка), вы увидите, что там Θ используется и для худшего случая и для среднего времени работы, я думаю, это противоречит вашему пониманию.

Написано более трёх лет назад
Артем Парфёнов @getmanartem Автор вопроса

@kmu1990 ... вот теперь я залип окончательно :(
Вобщем, огромное спасибо, буду разбираться дальше. Поторопился как всегда

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

9 комментариев

Артем Парфёнов @getmanartem Автор вопроса

@throughtheether к coursera готовлюсь морально.
Другое дело, что "худшая", "лучшая", "средняя" вычислительные сложности - это функции от длины входных данных
да, но ведь эти функции описывают разные наборы входных данных. И для получения этих функций мы учитываем особенности того или иного алгоритма. Разве нет? Возможно коряво, но именно это я и хотел спросить

Написано более трёх лет назад
Артем Парфёнов @getmanartem Автор вопроса

по-дурацки написал - функции не описывают наборы данных, они получены на основании работы алгоритма на этих разных входных данных

Написано более трёх лет назад
throughtheether @throughtheether

функции не описывают наборы данных, они получены на основании работы алгоритма на этих разных входных данных
Функция здесь, на мой взгляд - не та функция, что удобно описывается формулой, а некоторое отображение множества входных значений алгоритма на множество значений времени выполнения. Красивую формулу, чаще всего, мы составить не можем по ряду причин. Именно поэтому приходится прибегать к оценке при помощи O-нотации. Эта нотация применяется исключительно для удобства человека.

Если бы мы получали каждое значение этой функции (т.е. точное время работы алгоритма) эмпирически, то есть наблюдая время выполнения алгоритма на каждом наборе входных данных, то какая от нее была бы польза? Какая была бы её прогностическая сила?

Поэтому, зная нюансы реализации алгоритма, мы оцениваем скорость возрастания времени выполнения алгоритма и можем примерно прогнозировать, как долго займет выполнение алгоритма на интересующем нас наборе данных.

Написано более трёх лет назад
Артем Парфёнов @getmanartem Автор вопроса

Поэтому, зная нюансы реализации алгоритма, мы оцениваем скорость возрастания времени выполнения алгоритма и можем примерно прогнозировать, как долго займет выполнение алгоритма на интересующем нас наборе данных.
именно так и в том числе про это и был мой вопрос: точная асимптотическая оценка получается путем анализа работы конкретного алгоритма на усредненных данных, является ли это основным способом оценки?

Написано более трёх лет назад
throughtheether @throughtheether

именно так и в том числе про это и был мой вопрос: точная асимптотическая оценка получается путем анализа работы конкретного алгоритма на усредненных данных, является ли это основным способом оценки?
Если у алгоритма есть точная асимптотическая оценка времени выполнения (Θ-оценка), то, я полагаю, она будет одинаковой на любом варианте входных данных. Пример: вывод зеркального отражения строки за Θ(N), где N - ее длина. Независимо от строки мы обязаны вывести ровно N символов.
Контрпример: quicksort, зафиксировав константы для Θ(n log n), мы рано или поздно получим значение (Θ(n*n)), выходящее за рамки и нарушающее неравенство из определения Θ-нотации.

Усредненные данные - что это? По какому показателю их усреднять и с какой целью?

Написано более трёх лет назад
throughtheether @throughtheether

Также хотел бы порекомендовать главу 3 книги Data structures and algorithms in Python за авторством Goodrich, Tamassia, Goldwasser. Упражнения к этой главе, на мой взгляд, могут помочь понять, что O-нотация не синонимична оценке сложности алгоритмов.

Написано более трёх лет назад
Артем Парфёнов @getmanartem Автор вопроса

спасибо. увы, в голове пока опилки...

Написано более трёх лет назад
Миша Кринкин @kmu1990

@throughtheether
quicksort, зафиксировав константы для Θ(n log n), мы рано или поздно получим значение (Θ(n*n))
если вы оцениваете среднее время работы алгоритма то не получите.

Написано более трёх лет назад
throughtheether @throughtheether

@kmu1990, вы правы, я выразился не вполне корректно, переформулирую и уточню. Зафиксировав константы (c₁,c₂,n₀) для Θ-оценки n log n, замеряя время выполнения детерминистского (выбираем первый элемент в качестве опорного, "pivot") qsort-алгоритма, на определенных входных данных мы будем получать значения, выходящие за рамки оценки Θ(nlogn) с учетом зафиксированных констант.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 20 часов назад
- 124 просмотра
1

ответ
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 135 просмотров
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 208 просмотров
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 155 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 284 просмотра
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 475 просмотров
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 92 просмотра
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 129 просмотров
1

ответ
Алгоритмы

Простой
Какие переходы для ДП Codeforces Петя и пауки?
- 1 подписчик
- 27 мая
- 169 просмотров
1

ответ
Алгоритмы

Простой
Какую букву в игре поле чудес в этом случае лучше всего открыть? правильное ли это решение?
- 1 подписчик
- 20 мая
- 256 просмотров
3

ответа
Показать ещё Загружается…

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

@getmanartem точная оценка и оценка среднего времени работы это два разных понятия. Среднее время работы это математическое ожидание времени работы, его можно оценивать снизу, сверху и точно, т. е. приводить для него Ω, O и Θ оценки. Аналогично можно оценивать худший случай работы алгоритма снизу, сверху и точно ну и т. д. Короче не путайте оценку среднего времени и асимптотическую нотацию, я думаю, что как только вы перестанете мешать все в кучу вы быстро осознаете, что Ω, O и Θ - это просто способы (довольно грубо) сравнить функции по скорости роста.
хм, путаница какая-то ... я все время считал, что оценка среднего времени работы алгоритма (асимптотическая разумеется) и точная оценка (так же асимптотическая) это одно и то же, то есть Θ.
@getmanartem ну посмотрите еще раз на определения Ω, O и Θ, и подумайте, мы можем сравнить две функции используя эти определения безотносительно того, что эти функции обозначают, т. е. нам даже не важно, чтобы эти функции оценивали сложность/память алгоритма, уж не говоря уже о том, чтобы они оценивали лучший/худший/средний случай работы алгоритма. Кстати, справедливости ради отмечу, что определение этих понятий (Ω, O и Θ) в Кормене совсем не единственное, есть и другие варианты (плюс минус не совместимые).
@kmu1990 все же Кормена предпочитаю считать неоспоримой базой, хотя может это из-за недостатка опыта. Специально посмотрел ещё раз главу "Основы" из его труда: фразы "среднее время работы алгоритма растёт как ..." и "асимптотически точная оценка времени работы алгоритма равна Θ(...)" используются синонимично
@getmanartem
все же Кормена предпочитаю считать неоспоримой базой

никто его не оспаривает, просто сообщаю, что кроме Кормена есть и другие ресурсы, и обозначения могут иметь немного другой смысл.

Специально посмотрел ещё раз главу "Основы" из его труда: фразы "среднее время работы алгоритма растёт как ..." и "асимптотически точная оценка времени работы алгоритма равна Θ(...)" используются синонимично

покажите в каких словах вы углядели синонимичное использование, я верю, что вы просто неправильно их поняли.
Хоть и не люблю это дело, но вот:
- стр. 92 "... верхний предел времени работы в наихудшем случае выражается как O(n^2) ..."
- стр. 92 "... Когда говорят, что "время работы равно O(n^2)", то подразумевается ... "
- стр. 97 "... Докажите, что время работы алгоритма равно Θ(g(n))..."
Это не какая-то фундаментальная ошибка, а терминология, предложеная Корменом, я ее лишь принял как есть.
@getmanartem так как раз таки из того, что там написано следует, что это не синонимы, ну посудите сами фраза "верхний предел времени в наихудшем случае" - зачем вставлять в одно предложение и верхний предел и наихудший случай, если подразумевается, что O (он же верхний предел) и наихудший случай синонимы? Более того, предлагаю вам заглянуть вперед в введение к главе 7 (быстрая сортировка), вы увидите, что там Θ используется и для худшего случая и для среднего времени работы, я думаю, это противоречит вашему пониманию.
@kmu1990 ... вот теперь я залип окончательно :(
Вобщем, огромное спасибо, буду разбираться дальше. Поторопился как всегда

Answer 1 · 2014-08-18 18:07:45

Мое авторитетное мнение дилетанта таково.
Во-первых, имеет смысл ознакомиться с первоисточником по данной теме, а именно со статьей Дональда Кнута. В ней на стр.19 дается удобное, на взгляд автора, определение отношений Θ,O,Ω. Эти отношения первоначально задаются как отношения значений неких двух функций. Оценка временной и пространственной сложности - это приложения. Целью введения такой нотации было упростить вычисление количества операций, требуемых для выполнения алгоритма, без потери качественных характеристик, а также отвязаться от возможных зависимостей от архитектуры, компилятора и т.д. Грубо говоря, если алгоритм обсчитывает 1000 единиц входных данных час, то эта нотация помогает быстро оценить, как долго будут обсчитываться, например, 2000 единиц. Естественно, что эта нотация "огрубляет" информацию о значениях функции, в этом ее предназначение.

Что такое «асимптотически точная оценка времени работы алгоритма»?

Если речь идет о Θ-нотации, то это функция (или множество функций), растущая так же быстро, как и время работы алгоритма с увеличением длины входных данных.

Оценка Θ() существует только тогда, когда O() и Ω() совпадают и равна им.

Это положение мне представляется частично верным. Если f(n)=O(g(n)) и f(n)=Ω(g(n)), то f(n)=Θ(g(n)), где g(n) - некая функция, например, вида nlogn. Другое дело, что если f(n)=O(n), то также верно, что f(n)=O(n^2), то есть, несмотря на то, что у функции есть Θ-оценка, ее O- и Ω-оценки могут не совпадать.

Итак, O() - асимптотическая оценка алгоритма на худших входных данных, Ω() - на лучших входных данных

Если определить "лучшие"/"худшие" данные как требующие минимального/максимального времени среди наборов входных данных такой же длины, то это утверждения мне также представляется частично корректным. Количество операций, которое выполняет алгоритм в худшем, среднем и лучшем случаях - это функции от длины входных данных. Каждую из этих функций можно оценить при помощи каждой из трех (Ω,Θ,O) нотаций.

Мне представляется разумным такое восприятие оценок:
f(n)=O(g(n)) - функция f(n) растет не быстрее функции g(n)
f(n)=Ω(g(n)) - функция f(n) растет не медленнее функции g(n)
f(n)=Θ(g(n)) - функция f(n) растет так же быстро, как и функция g(n)
Попробуйте нарисовать график некоей возрастающей функции в логарифмическом масштабе по оси ординат, и представить, где расположены значения функций, корректно оценивающих исходную при помощи Ω,O,Θ нотаций, пользуясь определениями из статьи Кнута и отметив на графике константы C и n0.

Известно, что например для сортировки qsort средняя оценка для случайного распределения входных данных (она же лучшая, для полностью сбаллансированного варианта) равна Θ(nlogn),

С моей точки зрения, корректно также будет сказать, что средняя оценка также равна O(nlogn) или Ω(n).

тогда как верхняя оценка (для специально подобранных неоптимальных данных) равна O(n^2).

а также равна Θ(n^2).

Правильно ли будет сказать, что реально асимптотически точная оценка алгоритма дается в первую очередь на основании особенностей работы конкретного алгоритма для усредненных входных данных (понимая под усредненными данными случайно распределенный массив данных), а в сложных случаях - отталкиваясь от оценок сверху O() и снизу Ω()?

С моей точки зрения, если есть совпадающие оценки O и Ω, элементарно получается Θ-оценка. Другое дело, что "худшая", "лучшая", "средняя" вычислительные сложности - это функции от длины входных данных. Для каждой из этих функций может быть дана оценка асимптотической скорости возрастания, будь то Ω, Θ или O. Рассуждая о "случайно распределенном массиве данных", можно углубиться в матстатистику, что, на мой взгляд, не упростит задачу.

Пользуясь случаем, рекомендую курс на coursera от Tim Roughgarden. Релевантные видео есть на youtube.

Что такое «асимптотически точная оценка времени работы алгоритма»?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт