Доверительный интервал для оценки среднего (дисперсия известна) в MS EXCEL. Выборки и доверительные интервалы Доверительный интервал для среднего значения

Одним из методов решения статистических задач является вычисление доверительного интервала. Он используется, как более предпочтительная альтернатива точечной оценке при небольшом объеме выборки. Нужно отметить, что сам процесс вычисления доверительного интервала довольно сложный. Но инструменты программы Эксель позволяют несколько упростить его. Давайте узнаем, как это выполняется на практике.

Этот метод используется при интервальной оценке различных статистических величин. Главная задача данного расчета – избавится от неопределенностей точечной оценки.

В Экселе существуют два основных варианта произвести вычисления с помощью данного метода: когда дисперсия известна, и когда она неизвестна. В первом случае для вычислений применяется функция ДОВЕРИТ.НОРМ , а во втором — ДОВЕРИТ.СТЮДЕНТ .

Способ 1: функция ДОВЕРИТ.НОРМ

Оператор ДОВЕРИТ.НОРМ , относящийся к статистической группе функций, впервые появился в Excel 2010. В более ранних версиях этой программы используется его аналог ДОВЕРИТ . Задачей этого оператора является расчет доверительного интервала с нормальным распределением для средней генеральной совокупности.

Его синтаксис выглядит следующим образом:

ДОВЕРИТ.НОРМ(альфа;стандартное_откл;размер)

«Альфа» — аргумент, указывающий на уровень значимости, который применяется для расчета доверительного уровня. Доверительный уровень равняется следующему выражению:

(1-«Альфа»)*100

«Стандартное отклонение» — это аргумент, суть которого понятна из наименования. Это стандартное отклонение предлагаемой выборки.

«Размер» — аргумент, определяющий величину выборки.

Все аргументы данного оператора являются обязательными.

Функция ДОВЕРИТ имеет точно такие же аргументы и возможности, что и предыдущая. Её синтаксис таков:

ДОВЕРИТ(альфа;стандартное_откл;размер)

Как видим, различия только в наименовании оператора. Указанная функция в целях совместимости оставлена в Excel 2010 и в более новых версиях в специальной категории «Совместимость» . В версиях же Excel 2007 и ранее она присутствует в основной группе статистических операторов.

Граница доверительного интервала определяется при помощи формулы следующего вида:

X+(-)ДОВЕРИТ.НОРМ

Где X – это среднее выборочное значение, которое расположено посередине выбранного диапазона.

Теперь давайте рассмотрим, как рассчитать доверительный интервал на конкретном примере. Было проведено 12 испытаний, вследствие которых были получены различные результаты, занесенные в таблицу. Это и есть наша совокупность. Стандартное отклонение равно 8. Нам нужно рассчитать доверительный интервал при уровне доверия 97%.

  1. Выделяем ячейку, куда будет выводиться результат обработки данных. Щелкаем по кнопке «Вставить функцию» .
  2. Появляется Мастер функций . Переходим в категорию «Статистические» и выделяем наименование «ДОВЕРИТ.НОРМ» . После этого клацаем по кнопке «OK» .
  3. Открывается окошко аргументов. Его поля закономерно соответствуют наименованиям аргументов.
    Устанавливаем курсор в первое поле – «Альфа» . Тут нам следует указать уровень значимости. Как мы помним, уровень доверия у нас равен 97%. В то же время мы говорили, что он рассчитывается таким путем:

    (1-уровень доверия)/100

    То есть, подставив значение, получаем:

    Путем нехитрых расчетов узнаем, что аргумент «Альфа» равен 0,03 . Вводим данное значение в поле.

    Как известно, по условию стандартное отклонение равно 8 . Поэтому в поле «Стандартное отклонение» просто записываем это число.

    В поле «Размер» нужно ввести количество элементов проведенных испытаний. Как мы помним, их 12 . Но чтобы автоматизировать формулу и не редактировать её каждый раз при проведении нового испытания, давайте зададим данное значение не обычным числом, а при помощи оператора СЧЁТ . Итак, устанавливаем курсор в поле «Размер» , а затем кликаем по треугольнику, который размещен слева от строки формул.

    Появляется список недавно применяемых функций. Если оператор СЧЁТ применялся вами недавно, то он должен быть в этом списке. В таком случае, нужно просто кликнуть по его наименованию. В обратном же случае, если вы его не обнаружите, то переходите по пункту «Другие функции…» .

  4. Появляется уже знакомый нам Мастер функций . Опять перемещаемся в группу «Статистические» . Выделяем там наименование «СЧЁТ» . Клацаем по кнопке «OK» .
  5. Появляется окно аргументов вышеуказанного оператора. Данная функция предназначена для того, чтобы вычислять количество ячеек в указанном диапазоне, которые содержат числовые значения. Синтаксис её следующий:

    СЧЁТ(значение1;значение2;…)

    Группа аргументов «Значения» представляет собой ссылку на диапазон, в котором нужно рассчитать количество заполненных числовыми данными ячеек. Всего может насчитываться до 255 подобных аргументов, но в нашем случае понадобится лишь один.

    Устанавливаем курсор в поле «Значение1» и, зажав левую кнопку мыши, выделяем на листе диапазон, который содержит нашу совокупность. Затем его адрес будет отображен в поле. Клацаем по кнопке «OK» .

  6. После этого приложение произведет вычисление и выведет результат в ту ячейку, где она находится сама. В нашем конкретном случае формула получилась такого вида:

    ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

    Общий результат вычислений составил 5,011609 .

  7. Но это ещё не все. Как мы помним, граница доверительного интервала вычисляется путем сложения и вычитания от среднего выборочного значения результата вычисления ДОВЕРИТ.НОРМ . Таким способом рассчитывается соответственно правая и левая граница доверительного интервала. Само среднее выборочное значение можно рассчитать при помощи оператора СРЗНАЧ .

    Данный оператор предназначен для расчета среднего арифметического значения выбранного диапазона чисел. Он имеет следующий довольно простой синтаксис:

    СРЗНАЧ(число1;число2;…)

    Аргумент «Число» может быть как отдельным числовым значением, так и ссылкой на ячейки или даже целые диапазоны, которые их содержат.

    Итак, выделяем ячейку, в которую будет выводиться расчет среднего значения, и щелкаем по кнопке «Вставить функцию» .

  8. Открывается Мастер функций . Снова переходим в категорию «Статистические» и выбираем из списка наименование «СРЗНАЧ» . Как всегда, клацаем по кнопке «OK» .
  9. Запускается окно аргументов. Устанавливаем курсор в поле «Число1» и с зажатой левой кнопкой мыши выделяем весь диапазон значений. После того, как координаты отобразились в поле, клацаем по кнопке «OK» .
  10. После этого СРЗНАЧ выводит результат расчета в элемент листа.
  11. Производим расчет правой границы доверительного интервала. Для этого выделяем отдельную ячейку, ставим знак «=» и складываем содержимое элементов листа, в которых расположены результаты вычислений функций СРЗНАЧ и ДОВЕРИТ.НОРМ . Для того, чтобы выполнить расчет, жмем на клавишу Enter . В нашем случае получилась следующая формула:

    Результат вычисления: 6,953276

  12. Таким же образом производим вычисление левой границы доверительного интервала, только на этот раз от результата вычисления СРЗНАЧ отнимаем результат вычисления оператора ДОВЕРИТ.НОРМ . Получается формула для нашего примера следующего типа:

    Результат вычисления: -3,06994

  13. Мы попытались подробно описать все действия по вычислению доверительного интервала, поэтому детально расписали каждую формулу. Но можно все действия соединить в одной формуле. Вычисление правой границы доверительного интервала можно записать так:

    СРЗНАЧ(B2:B13)+ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

  14. Аналогичное вычисление левой границы будет выглядеть так:

    СРЗНАЧ(B2:B13)-ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

Способ 2: функция ДОВЕРИТ.СТЮДЕНТ

Кроме того, в Экселе есть ещё одна функция, которая связана с вычислением доверительного интервала – ДОВЕРИТ.СТЮДЕНТ . Она появилась, только начиная с Excel 2010. Данный оператор выполняет вычисление доверительного интервала генеральной совокупности с использованием распределения Стьюдента. Его очень удобно использовать в том случае, когда дисперсия и, соответственно, стандартное отклонение неизвестны. Синтаксис оператора такой:

ДОВЕРИТ.СТЬЮДЕНТ(альфа;стандартное_откл;размер)

Как видим, наименования операторов и в этом случае остались неизменными.

Посмотрим, как рассчитать границы доверительного интервала с неизвестным стандартным отклонением на примере всё той же совокупности, что мы рассматривали в предыдущем способе. Уровень доверия, как и в прошлый раз, возьмем 97%.

  1. Выделяем ячейку, в которую будет производиться расчет. Клацаем по кнопке «Вставить функцию» .
  2. В открывшемся Мастере функций переходим в категорию «Статистические» . Выбираем наименование «ДОВЕРИТ.СТЮДЕНТ» . Клацаем по кнопке «OK» .
  3. Производится запуск окна аргументов указанного оператора.

    В поле «Альфа» , учитывая, что уровень доверия составляет 97%, записываем число 0,03 . Второй раз на принципах расчета данного параметра останавливаться не будем.

    После этого устанавливаем курсор в поле «Стандартное отклонение» . На этот раз данный показатель нам неизвестен и его требуется рассчитать. Делается это при помощи специальной функции – СТАНДОТКЛОН.В . Чтобы вызвать окно данного оператора, кликаем по треугольнику слева от строки формул. Если в открывшемся списке не находим нужного наименования, то переходим по пункту «Другие функции…» .

  4. Запускается Мастер функций . Перемещаемся в категорию «Статистические» и отмечаем в ней наименование «СТАНДОТКЛОН.В» . Затем клацаем по кнопке «OK» .
  5. Открывается окно аргументов. Задачей оператора СТАНДОТКЛОН.В является определение стандартного отклонения при выборке. Его синтаксис выглядит так:

    СТАНДОТКЛОН.В(число1;число2;…)

    Нетрудно догадаться, что аргумент «Число» — это адрес элемента выборки. Если выборка размещена единым массивом, то можно, использовав только один аргумент, дать ссылку на данный диапазон.

    Устанавливаем курсор в поле «Число1» и, как всегда, зажав левую кнопку мыши, выделяем совокупность. После того, как координаты попали в поле, не спешим жать на кнопку «OK» , так как результат получится некорректным. Прежде нам нужно вернуться к окну аргументов оператора ДОВЕРИТ.СТЮДЕНТ , чтобы внести последний аргумент. Для этого кликаем по соответствующему наименованию в строке формул.

  6. Снова открывается окно аргументов уже знакомой функции. Устанавливаем курсор в поле «Размер» . Опять жмем на уже знакомый нам треугольник для перехода к выбору операторов. Как вы поняли, нам нужно наименование «СЧЁТ» . Так как мы использовали данную функцию при вычислениях в предыдущем способе, в данном списке она присутствует, так что просто щелкаем по ней. Если же вы её не обнаружите, то действуйте по алгоритму, описанному в первом способе.
  7. Попав в окно аргументов СЧЁТ , ставим курсор в поле «Число1» и с зажатой кнопкой мыши выделяем совокупность. Затем клацаем по кнопке «OK» .
  8. После этого программа производит расчет и выводит значение доверительного интервала.
  9. Для определения границ нам опять нужно будет рассчитать среднее значение выборки. Но, учитывая то, что алгоритм расчета при помощи формулы СРЗНАЧ тот же, что и в предыдущем способе, и даже результат не изменился, не будем на этом подробно останавливаться второй раз.
  10. Сложив результаты вычисления СРЗНАЧ и ДОВЕРИТ.СТЮДЕНТ , получаем правую границу доверительного интервала.
  11. Отняв от результатов расчета оператора СРЗНАЧ результат расчета ДОВЕРИТ.СТЮДЕНТ , имеем левую границу доверительного интервала.
  12. Если расчет записать одной формулой, то вычисление правой границы в нашем случае будет выглядеть так:

    СРЗНАЧ(B2:B13)+ДОВЕРИТ.СТЬЮДЕНТ(0,03;СТАНДОТКЛОН.В(B2:B13);СЧЁТ(B2:B13))

  13. Соответственно, формула расчета левой границы будет выглядеть так:

    СРЗНАЧ(B2:B13)-ДОВЕРИТ.СТЬЮДЕНТ(0,03;СТАНДОТКЛОН.В(B2:B13);СЧЁТ(B2:B13))

Как видим, инструменты программы Excel позволяют существенно облегчить вычисление доверительного интервала и его границ. Для этих целей используются отдельные операторы для выборок, у которых дисперсия известна и неизвестна.

Пусть у нас имеется большое количество предметов, с нормальным распределением некоторых характеристик (например, полный склад однотипных овощей, размер и вес которых варьируется). Вы хотите знать средние характеристики всей партии товара, но у Вас нет ни времени, ни желания измерять и взвешивать каждый овощ. Вы понимаете, что в этом нет необходимости. Но сколько штук надо было бы взять на выборочную проверку? Прежде, чем дать несколько полезных для этой ситуации формул напомним некоторые обозначения. Во-первых, если бы мы все-таки промерили весь склад овощей (это множество элементов называется генеральной совокупностью), то мы узнали бы со всей доступной нам точностью среднее значение веса всей партии. Назовем это среднее значение Х ср.ген . - генеральным средним. Мы уже знаем, что определяется полностью, если известно его среднее значение и отклонение s. Правда, пока мы ни Х ср.ген., ни s генеральной совокупности не знаем. Мы можем только взять некоторую выборку, замерить нужные нам значения и посчитать для этой выборки как среднее значение Х ср.выб., так и среднее квадратическое отклонение S выб. Известно, что если наша выборочная проверка содержит большое количество элементов (обычно n больше 30), и они взяты действительно случайным образом, то s генеральной совокупности почти не будет отличаться от S выб Кроме того, для случая нормального распределения мы можем пользоваться следующими формулами:

С вероятностью 95%

С вероятностью 99%

.

В общем виде c вероятностью Р(t)

Связь значения t со значением вероятности Р(t), с которой мы хотим знать доверительный интервал, можно взять из следующей таблицы:

P(t) 0,683 0,950 0,954 0,990 0,997
t 1,00 1,96 2,00 2,58 3,00

Таким образом, мы определили, в каком диапазоне находится среднее значение для генеральной совокупности (с данной вероятностью).

Если у нас нет достаточно большой выборки, мы не можем утверждать, что генеральная совокупность имеет s = S выб. Кроме того, в этом случае проблематична близость выборки к нормальному распределению. В этом случае также пользуются S выб вместо s в формуле:

но значение t для фиксированной вероятности Р(t) будет зависеть от количества элементов в выборке n. Чем больше n, тем ближе будет полученный доверительный интервал к значению, даваемому формулой (1). Значения t в этом случае берутся из другой таблицы (t-критерий Стьюдента), которую мы приводим ниже:

Значения t-критерия Стьюдента для вероятности 0,95 и 0,99  

n P n P
0.95 0.99 0.95 0.99
2 12.71 63.66 18 2.11 2.90
3 4.30 9.93 19 2.10 2.88
4 3.18 5.84 20 2.093 2.861
5 2.78 4.60 25 2.064 2.797
6 2.57 4.03 30 2.045 2.756
7 2.45 3.71 35 2.032 2.720
8 2.37 3.50 40 2.022 2.708
9 2.31 3.36 45 2.016 2.692
10 2.26 3.25 50 2.009 2.679
11 2.23 3.17 60 2.001 2.662
12 2.20 3.11 70 1.996 2.649
13 2.18 3.06 80 1.991 2.640
14 2.16 3.01 90 1.987 2.633
15 2.15 2.98 100 1.984 2.627
16 2.13 2.95 120 1.980 2.617
17 2.12 2.92 >120 1.960 2.576

Пример 3. Из работников фирмы случайным образом отобрано 30 человек. По выборке оказалось, что средняя зарплата (в месяц) составляет 10 тыс. рублей при среднем квадратическом отклонении 3 тыс. рублей. С вероятностью 0,99 определить среднюю зарплату в фирме. Решение: По условию имеем n = 30, Х ср. =10000, S=3000, Р = 0,99. Для нахождения доверительного интервала воспользуемся формулой, соответствующей критерию Стьюдента. По таблице для n = 30 и Р = 0,99 находим t=2,756, следовательно,

т.е. искомый доверительный интервал 27484 < Х ср.ген < 32516.

Итак, с вероятностью 0,99 можно утверждать, что интервал (27484; 32516) содержит внутри себя среднюю зарплату в фирме.
Мы надеемся, что Вы будете пользоваться этим методом, при этом не обязательно, чтобы при Вас каждый раз была таблица. Подсчеты можно проводить в Excel автоматически. Находясь в файле Excel, нажмите в верхнем меню кнопку fx. Затем, выберите среди функций тип "статистические", и из предложенного перечня в окошке - СТЬЮДРАСПОБР. Затем, по подсказке, поставив курсор в поле "вероятность" наберите значение обратной вероятности (т.е. в нашем случае вместо вероятности 0,95 надо набирать вероятность 0,05). Видимо, электронная таблица составлена так, что результат отвечает на вопрос, с какой вероятностью мы можем ошибиться. Аналогично в поле "степень свободы" введите значение (n-1) для своей выборки.

Анализ случайных погрешностей основывается на теории случайных ошибок, дающей возможность с определенной гарантией вычислить действительное значение измеренной величины и оценить возможные ошибки.

Основу теории случайных ошибок составляют следующие предположения:

при большом числе измерений случайные погрешности одинаковой величины, но разного знака встречаются одинаково часто;

большие погрешности встречаются реже, чем малые (вероятность появления погрешности уменьшается с ростом ее величины);

при бесконечно большом числе измерении истинное значение измеряемой величины равно среднеарифметическому значению всех результатов измерений;

появление того или иного результата измерения как случайного события описывается нормальным законом распределения.

На практике различают генеральную и выборочную совокупность измерений.

Под генеральной совокупностью подразумевают все множество возможных значений измерений или возможных значений погрешностей
.

Для выборочной совокупности число измерений ограничено, и в каждом конкретном случае строго определяется. Считают, что, если
, то среднее значение данной совокупности измеренийдостаточно приближается к его истинному значению.

1. Интервальная оценка с помощью доверительной вероятности

Для большой выборки и нормального закона распределения общей оценочной характеристикой измерения являются дисперсия
и коэффициент вариации:

;
. (1.1)

Дисперсия характеризует однородность измерения. Чем выше
, тем больше разброс измерений.

Коэффициент вариации характеризует изменчивость. Чем выше , тем больше изменчивость измерений относительно средних значений.

Для оценки достоверности результатов измерений вводятся в рассмотрение понятия доверительного интервала и доверительной вероятности.

Доверительным называется интервал значений , в который попадает истинное значение измеряемой величины с заданной вероятностью.

Доверительной вероятностью (достоверностью) измерения называется вероятность того, что истинное значение измеряемой величины попадает в данный доверительный интервал, т.е. в зону
. Эта величина определяется в долях единицы или в процентах

,

где
- интегральная функция Лапласа (табл.1.1 )

Интегральная функция Лапласа определяется следующим выражением:

.

Аргументом этой функции является гарантийный коэффициент :

Таблица 1.1

Интегральная функция Лапласа

Если же на основе определенных данных установлена доверительная вероятность (часто ее принимают равной
), то устанавливаетсяточность измерений (доверительный интервал
) на основе соотношения

.

Половина доверительного интервала равна

, (1.3)

где
- аргумент функции Лапласа, если
(табл.1.1 );

- функции Стьюдента, если
(табл.1.2 ).

Таким образом, доверительный интервал характеризует точность измерения данной выборки, а доверительная вероятность - достоверность измерения.

Пример

Выполнено
измерений прочности дорожного покрытия участка автомобильной дороги при среднем модуле упругости
и вычисленном значении среднеквадратического отклонения
.

Необходимо определить требуемую точность измерений для разных уровней доверительной вероятности
, приняв значения потабл.1.1 .

В этом случае соответственно |

Следовательно, для данного средства и метода измерений доверительный интервал возрастает примерно в раза, если увеличитьтолько на
.

Константин Кравчик доходчиво объясняет, что такое доверительный интервал в медицинских исследованиях и как его использовать

«Катрен-Стиль» продолжает публикацию цикла Константина Кравчика о медицинской статистике. В двух предыдущих статьях автор касался объяснения таких понятий, как и .

Константин Кравчик

Математик-аналитик. Специалист в области статистических исследований в медицине и гуманитарных науках

Город: Москва

Очень часто в статьях по клиническим исследованиям можно встретить загадочное словосочетание: «доверительный интервал» (95 % ДИ или 95 % CI - confidence interval). Например, в статье может быть написано: «Для оценки значимости различий использовали t-критерий Стьюдента с расчетом 95 % доверительного интервала».

Какого же значение «95 % доверительного интервала» и зачем его рассчитывать?

Что такое доверительный интервал? - Это диапазон, в котором находятся истинные средние значения в генеральной совокупности. А что, бывают «неистинные» средние значения? В каком‑то смысле да, бывают. В мы объясняли, что невозможно измерить интересующий параметр во всей генеральной совокупности, поэтому исследователи довольствуются ограниченной выборкой. В этой выборке (например, по массе тела) есть одно среднее значение (определенный вес), по которому мы и судим о среднем значении во всей генеральной совокупности. Однако едва ли средний вес в выборке (особенно небольшой) совпадет со средним весом в генеральной совокупности. Поэтому более правильно рассчитывать и пользоваться диапазоном средних значений генеральной совокупности.

Например, представим, что 95 % доверительный интервал (95 % ДИ) по гемоглобину составляет от 110 до 122 г/л. Это означает, что с вероятностью 95 % истинное среднее значение по гемоглобину в генеральной совокупности будет находиться в пределах от 110 до 122 г/л. Иными словами, мы не знаем средний показатель гемоглобина в генеральной совокупности, но можем с 95 %-й вероятностью указать диапазон значений для этого признака.

Доверительный интервал особенно уместен для разницы в средних значениях между группами или, как это называют, в размере эффекта.

Допустим, мы сравнивали эффективность двух препаратов железа: давно присутствующего на рынке и только что зарегистрированного. После курса терапии оценили концентрацию гемоглобина в исследуемых группах пациентов, и статистическая программа нам посчитала, что разность между средними значениями двух групп с вероятностью 95 % находится в диапазоне от 1,72 до 14,36 г/л (табл. 1).

Табл. 1. Критерий для независимых выборок
(сравниваются группы по уровню гемоглобина)

Трактовать это следует так: у части пациентов генеральной совокупности, которая принимает новый препарат, гемоглобин будет выше в среднем на 1,72–14,36 г/л, чем у тех, кто принимал уже известный препарат.

Иными словами, в генеральной совокупности разность в средних значениях по гемоглобину у групп с 95 %-й вероятностью находится в этих пределах. Судить, много это или мало, будет уже исследователь. Смысл всего этого в том, что мы работаем не с одним средним значением, а с диапазоном значений, следовательно, мы более достоверно оцениваем разницу по параметру между группами.

В статистических пакетах, на усмотрение исследователя, можно самостоятельно сужать или расширять границы доверительного интервала. Снижая вероятности доверительного интервала, мы сужаем диапазон средних. Например, при 90 % ДИ диапазон средних (или разницы средних) будет уже, чем при 95 %.

И наоборот, увеличение вероятности до 99 % расширяет диапазон значений. При сравнении групп нижняя граница ДИ может пересечь нулевую отметку. Например, если мы расширили границы доверительного интервала до 99 %, то границы интервала расположились от –1 до 16 г/л. Это означает, что в генеральной совокупности есть группы, различие средних между которыми по изучаемому признаку равняется 0 (М=0).

При помощи доверительного интервала можно проверять статистические гипотезы. Если доверительный интервал пересекает нулевое значение, то нулевая гипотеза, предполагающая, что группы не различаются по изучаемому параметру, верна. Пример описан выше, когда мы расширили границы до 99 %. Где‑то в генеральной совокупности у нас нашлись группы, которые никак не различались.

95% доверительный интервал разницы по гемоглобину, (г/л)


На рисунке в виде линии изображен 95 % доверительный интервал разницы средних значений по гемоглобину между двумя группами. Линия проходит нулевую отметку, следовательно, имеет место разница между средними значениями, равная нулю, что подтверждает нулевую гипотезу о том, что группы не различаются. Диапазон разницы между группами лежит от –2 до 5 г/л, Это означает, что гемоглобин может как снизиться на 2 г/л, так и повыситься на 5 г/л.

Доверительный интервал - очень важный показатель. Благодаря ему можно посмотреть, были ли различия в группах действительно за счет разности средних или за счет большой выборки, т. к. при большой выборке шансы найти различия больше, чем при малой.

На практике это может выглядеть так. Мы взяли выборку в 1000 человек, измерили уровень гемоглобина и обнаружили, что доверительный интервал разницы средних лежит от 1,2 до 1,5 г/л. Уровень статистической значимости при этом p

Мы видим, что концентрация гемоглобина повысилась, но практически незаметно, следовательно, статистическая значимость появилась именно за счет объема выборки.

Доверительный интервал может быть высчитан не только для средних значений, но и для пропорций (и отношений рисков). Например, нас интересует доверительный интервал пропорций пациентов, которые достигли ремиссии, принимая разработанное лекарство. Допустим, что 95 % ДИ для пропорций, т. е. для доли таких пациентов, лежит в пределах 0,60–0,80. Таким образом, мы можем сказать, что наше лекарство оказывает терапевтический эффект от 60 до 80 % случаев.

Предлагают незаменимые и удобные методы для различных статистических расчетов и анализа. Одной из таких особенностей является интервал доверия, который используется для выражения степени неопределенности, связанной с исследованием. Доверительные интервалы в excel — это оценка событий в сочетании с верификацией вероятностей. Они обеспечивают вероятный диапазон выборочной пропорции или выборочного среднего от истинной доли / среднего, найденного в популяции и отображаются как: оценка +/- погрешность.

В любом опросе и исследовании доверительные интервалы — отличный способ понять роль ошибок выборки в средних процентных показателях. Для любого опроса, поскольку исследователи всегда лишь изучают долю из более крупного расчета, в их оценках есть неопределенность, из-за чего будут ошибки выборки.

Доверительный интервал (ДИ) дает понимание о том, насколько может колебаться. Он представляет собой диапазон значений, которые одинаково центрированы от известного среднего числа выборки. Чем выше уровень доверия (в процентах), тем меньше интервал, более точными будут результаты. Исследование образцов с большей изменчивостью или большим стандартным отклонением порождает более широкие доверительные интервалы в excel.

Существует соотношение обратного квадратного корня между ДИ и размерами выборки. Меньшие размеры генерируют более широкие ДИ, поэтому для получения более точных оценок или сокращения пороговой погрешности наполовину, необходимо примерно в четыре раза увеличить размер выборки.

Построение среднего значения совокупности

Чтобы построить доверительный интервал для среднего значения совокупности, предоставленной вероятности и размера выборки, нужно применить функцию "ДОВЕРИТ" в Excel, которая использует нормальное распределение для вычисления значения доверия. Предположим, исследователи случайно выбрали 100 человек, измерили их вес и установили средний в 76 кг. Если нужно узнать средний показатель для людей в конкретном городе, маловероятно, что он для более крупной группы будет иметь такое же среднее значение, как и выборка, состоящая всего из 100 человек.

Гораздо более вероятно, что выборочное среднее в 76 кг может быть приблизительно равно (неизвестному) популяционному среднему, и нужно знать, насколько точным является оценочный ответ. Эта неопределенность, связанная с оценкой интервалов, называется уровнем достоверности, обычно 95%. Функция "ДОВЕРИТ" (альфа, сигма, n) возвращает значение, используемое для построения ДИ среднего числа совокупности. Предполагается, что данные выборок соответствуют стандартным нормальным распределениям с известной сигмой стандартного отклонения, а размер выборки равен n. Перед тем как рассчитать доверительный интервал в excel 95% уровня, принимают альфу как 1 - 0,95 = 0,05.

Форматы функции CONFIDENCE

Функция CONFIDENCE или ДОВЕРИТ, определяется пределами доверия — это нижняя и верхняя границы ДИ и являются 95% показателями. Например, при изучении предпочтении, было обнаружено, что 70% людей предпочитают Боржоми, по сравнению с Пепси при ДИ в 3% и уровнем доверия 95%, тогда существует 95-процентная вероятность того, что истинная пропорция составляет от 67 до 73%.

Функции "ДОВЕРИТ" отображаются под различными синтаксисами в разных версиях Excel. Например, Excel 2010 имеет две функции: "ДОВЕРИТ.НОРМ" и "ДОВЕРИТ.T", которые помогают вычислять ширину "ДИ. ДОВЕРИТ.НОРМ" используется, когда известно стандартное отклонение измерения. В противном случае применяется "ДОВЕРИТ.T", оценка осуществляется по данным выборки. Доверительные интервалы в excel до 2010 года имели только функцию "ДОВЕРИТ". Его аргументы и результаты были аналогичными аргументам функции "ДОВЕРИТ.НОРМ".

Первый по-прежнему доступен в более поздних версиях Excel для обеспечения совместимости. #NUM! Error — происходит, если альфа меньше или равна 0, или больше или равна 0. Данное стандартное отклонение меньше или равно 0. Указанный размер аргумента меньше единицы. #СТОИМОСТЬ! Error — происходит, если любой из предоставленных аргументов не является числовым.

"ДОВЕРИТ." классифицируется по функциям статистики и будет высчитывать и возвращать ДИ для среднего значения. Доверительные интервалы в excel могут быть чрезвычайно полезными для финансового анализа. Как аналитик, "ДОВЕРИТ." помогает в прогнозировании и корректировке для широкого круга целей, путем оптимизации принятия финансовых решений. Это выполняется с применением графического отображения данных в наборе переменных.

Аналитики могут принимать более эффективные решения на основе статистической информации, предоставляемой нормальным распределением. Например, они могут найти связь между полученным доходом и расходами, затрачиваемыми на предметы роскоши. Чтобы вычислить ДИ для среднего значения совокупности, возвращаемое доверительное значение, должно быть добавлено и вычтено из среднего значения выборки. Например, для среднего значения выборки x: Доверительный интервал = x ± ДОВЕРИТ.

Пример расчета доверительного интервала в excel - предположим, что нам даны следующие данные:

  1. Уровень значимости: 0,05.
  2. Стандартное отклонение населения: 2,5.
  3. Размер выборки: 100.

Функция доверительного интервала Excel используется для расчета ДИ со значением 0,05 (т. е. уровень достоверности 95%) для среднего времени выборки для изучения времени коммутации в офисе на 100 человек. Среднее значение образца составляет 30 минут, а стандартное отклонение составляет 2,5 минуты. Доверительный интервал составляет 30 ± 0,48999, что соответствует диапазону 29,510009 и 30,48999 (минут).

Интервалы и нормальное распределение

Наиболее знакомое использование доверительного интервала, означает «погрешность ошибок». В опросах погрешность составляет плюс или минус 3%. ДИ полезны в контекстах, которые выходят за рамки этой простой ситуации. Они могут использоваться с ненормальными распределениями, которые сильно искажены. Для вычисления прогноза доверительного интервала в excel требуются следующие строительные блоки:

  1. Среднее значение.
  2. Стандартное отклонение наблюдений.
  3. Число опросов в выборке.
  4. Уровень доверия, который нужно применить к ДИ.

Перед тем как построить доверительный интервал в excel, изучают его вокруг среднего значения выборки, начинают с принятия решения о том, какой будет принят процент других средств выборки, если они были собраны и рассчитаны в этом интервале. Если это так, то 95% возможных образцов будут захвачены ДИ с 1,96 стандартных отклонений выше и ниже образца.

Стандартная ошибка среднего

Допустимый интервал или погрешность не принимаются с учетом ошибки измерения или смещения обзора, поэтому фактическая неопределенность может быть выше, чем указана. Перед тем как посчитать доверительный интервал в excel, расчет должен быть обеспечен хорошим сбором данных, надежными измерительными системами и удовлетворительным дизайном обследования.

Доверительные интервалы для среднего значения могут быть получены несколькими способами: с помощью SigmaXL, описательной статистики, гистограмм,1-образного t-теста и интервалов доверия, односторонних диаграмм ANOVA и Multi-Vari. Чтобы графически иллюстрировать ДИ для среднего значения «Удовлетворенность», создают диаграмму Multi-Vari (с 95% CI Mean Options) с использованием данных Customer Data.xls. Точки соответствуют отдельным данным. Маркеры показывают максимальный доверительный предел 99%, и средний 95%-ый предел.

Теперь тестирование гипотезы будут использоваться для более точных средних оценок удовлетворенности и определения результатов.

Доверительные интервалы очень важны для понимания полученных данных и принятия решений по ним. Чтобы рассчитать ДИ для дискретной пропорции, используют SigmaXL> Шаблоны и калькуляторы> Основные статистические шаблоны> 1 интервал Перед тем как найти доверительный интервал в excel, выполняют следующие действия:

  1. Открыть Client Data.xls.
  2. Нажать вкладку «Лист 1» или F4, чтобы активировать последний рабочий лист. Нажать SigmaXL> Статистические инструменты> Описательная статистика.
  3. Установить флажок «Использовать всю таблицу данных».
  4. Нажать «Далее».
  5. Выбрать «Общая удовлетворенность», нажать «Числовые переменные данных» (Y).
  6. Выбрать «Тип клиента», нажать «Категория группы» (X1). По умолчанию уровень доверия 95%.
  7. Нажать «ОК».

Обратить внимание, что доверительный интервал в 95% означает: в среднем истинный параметр популяции (средний, стандартное отклонение или пропорция) будет находиться в интервале 19 раз из 20. Будет представлен пользователю: 95%-ый доверительный интервал для каждого отсчета. Среднее значение (95% CI). Доверительный интервал 95% для стандартного отклонения (95% CI Sigma — не путать это с уровнем качества Sigma Process).

Статистика и уровни доверия

Доверительный интервал не является числом, в котором истинное значение параметра найдено с точностью. Действительно, случайная величина теоретически может принимать все возможные значения в рамках законов физики. Доверительный интервал — это фактически область, в которой истинное (неизвестное) значение параметра, изучаемого в популяции, наиболее вероятно с вероятностью, которую выбирают. При его использовании интервал основан на вычислении доверительного порога, погрешности и коэффициента запаса.

Перед тем как определить доверительный интервал в excel, определяют эти элементы, которые зависят от параметров:

  1. Изменчивости измеряемых характеристик.
  2. Размера выборки: чем она больше, тем более высокая точность.
  3. Уровень доверия - s.

Уровень доверия представляет собой гарантированную уверенность. Например, с уровнем достоверности 90%, это означает, что 10% риск будет неправильным. Как правило, хорошей практикой является выбор достоверности в 95%. Таким образом, максимальный доверительный уровень является большим, чем больше размер выборки. Маржинальный коэффициент является индикатором, выведенным непосредственно из доверительного порога. В таблице приведены некоторые примеры для наиболее распространенных значений.

Уровень доверия s

Коэффициент маржи при n> 30

В случае когда нужно оценить среднее значение популяции из ее выборки, определяют доверительный интервал. Он зависит от размера выборки и закона переменной. Формула для расчета доверительного интервала в excel выглядит следующим образом:

  1. Нижняя граница интервала = средний пробег — коэффициент поля * стандартную ошибку.
  2. Верхняя граница диапазона = примерный средний + коэффициент поля * стандартную ошибку.
  3. Значение t будет зависеть от размера выборки: n> 30: коэффициент запаса нормального закона, называемый z. n<30: коэффициент запаса, называемый t для n-1.

В этой ситуации соответствующие единицы сами являются средними значениями. Исследователю необходимо будет знать стандартное отклонение не от первоначальных и индивидуальных наблюдений, а от средств, которые рассчитываются на основе них. Это отклонение имеет название — стандартная ошибка среднего.

Представления изменчивости данных используются на графиках, чтобы указать на ошибку или неопределенность в измерении. Они дают общее представление о том, насколько точным является измерение, или, наоборот, насколько далеки от сообщенного истинного значение и оформляются в виде полос ошибок. Они представляют собой одно стандартное отклонение неопределенности, одну стандартную ошибку или определенный доверительный интервал (например, интервал 95%). Эти величины не совпадают, поэтому выбранная мера должна быть указана в графике или в тексте.

Полосы ошибок могут использоваться для сравнения двух величин, если выполняются статистически значимые условия. Строки ошибок указывают на приемлемость соответствия функции, то есть насколько хорошо она описывает данные. Научные работы в экспериментальных науках, включают в себя ошибки на всех графиках, хотя практика несколько отличается и каждый исследователь имеет собственный стиль ошибок.

Полосы ошибок могут использоваться как интерфейс прямой манипуляции для управления вероятностными алгоритмами для приблизительного вычисления. Полосы ошибок могут быть выражены в знаке плюс-минус(±). Плюс - верхний предел, а минус - нижний предел ошибки.

Для правильного определения ДИ существуют онлайн-калькуляторы, которые значительно упрощают работу. Начинают процесс определения с отбора данных. Он является основой всех исследований. Надежная выборка помогает уверенно принимать бизнес-решения. Первый вопрос, который нужно решить — правильное определение целевой группы, он имеет определяющее значение. Если исследователь проводит опрос с людьми вне этой группы - невозможно успешно выполнить задачу. Следующий шаг — решить, сколько людей нужно для проведения собеседования.

Специалисты знают, что небольшая репрезентативная выборка будет отражать мнения и поведение группы, из которой она была составлена. Чем больше образец, тем точнее он представляет целевую группу. Тем не менее скорость улучшения точности уменьшается по мере увеличения размера выборки. Например, увеличение с 250 до 1000 удваивает точность. Принимают решение о размере выборки на основе таких факторов, как: доступное время, бюджет и необходимая степень точности.

Существует три фактора, которые определяют размер ДИ для этого уровня достоверности:

  • размер выборки;
  • процентная доля выборки;
  • размер популяции.

Если 99% участников опроса сказали «Да» и 1% сказали «Нет», вероятность ошибки мала, независимо от размера выборки. Однако если проценты составляют 51 и 49%, вероятность ошибки намного выше. Легче быть уверенным в крайних ответах, чем в средних. При определении размера выборки, необходимого для заданного уровня точности, нужно использовать наихудший процент (50%).

Ниже показана формула расчета доверительного интервала в excel размера выборки онлайн-калькулятора.

Расчеты доверительного интервала предполагают, что есть подлинная случайная выборка соответствующего населения. Если опрос не является случайным, нельзя полагаться на интервалы. Неслучайные выборки обычно возникают из-за недостатков в процедуре.

Создание линейных диаграмм

Создание графика доверительного интервала в Excel относительно простое. Сначала создают свою линейную диаграмму. Затем с выбранным рядом выбирают «Инструменты диаграммы»> «Макет»> «Панель ошибок»> «Дополнительные параметры панели». В появившемся всплывающем меню можно либо выбрать положительные или отрицательные панели ошибок, либо и то, и другое. Можно выбрать стиль и выбрать сумму, которую нужно отобразить. Это может быть фиксированное значение, процент, стандартное отклонение или настраиваемый диапазон.

Если у данных есть стандартное отклонение по умолчанию для каждой точки, выбирают пользовательский и нажимают кнопку «Определить значение». Затем появляется другое всплывающее меню и можно выбрать диапазон ячеек как для положительных, так и для отрицательных панелей.

  1. Подготовить данные. Сначала в дополнение к средним значениям, понадобится расчет стандартного отклонения (или ошибки).
  2. Затем в строке 4 нужно рассчитать верхний предел группы, то есть для B4 расчет будет: =B2+B3 В строке 5 нужно рассчитать нижний предел диапазона, т. е Для B5 расчет будет: =B2-B4
  3. Создать график. Выделите строки 1, 2, 4 и 5 таблицы, а затем нажать «Вставить»> «График»> «Линейная диаграмма». Excel создаст линейную диаграмму.
  4. Удалить легенду и линии сетки.
  5. Затем щелкнуть правой кнопкой мыши верхнюю группу диапазонов и выбрать «Изменить тип диаграммы».
  6. Отформатировать доверительные диапазоны. Чтобы закончить диаграмму просто отформатировать верхнюю серию с голубым заполнением (в соответствии с синей линией), а нижнюю серию — белой заливкой.

В этой диаграмме легко увидеть пределы ошибок, однако если много данных, вид будет беспорядочный. С первого взгляда доверительный предел гораздо более очевидный, учитывая среднее значение выборки, и он будет становиться все более жестким по мере увеличения количества выборок