Как считать статистику в excel

Анализ данных в Excel

Чтобы лучше представить, как функция «Идеи» упрощает, быстрее и интуитивнее анализ данных, функция была переименована в Анализ данных. Возможности и функциональные возможности одинаковы и по-прежнему соответствуют тем же нормативным актам о конфиденциальности и лицензировании. Если вы работаете в Полугодовом канале (корпоративный), вы можете по-прежнему видеть «Идеи», пока Excel не будет обновлен.

Ваш браузер не поддерживает видео. Установите Microsoft Silverlight, Adobe Flash Player или Internet Explorer 9.

Анализ данных в Excel помогает вам изучить ваши данные с помощью запросов на естественном языке, которые позволяют задавать вопросы о данных без написания сложных формул. Кроме того, Анализ данных создает наглядные визуальные представления сводных данных, тенденций и закономерностей.

Есть вопрос? Мы ответим!

Просто выделите ячейку в диапазоне данных и нажмите кнопку Анализ данных на вкладке Главная. Анализ данных в Excel проанализирует данные и вернет интересные визуальные элементы в области задач.

Если вы хотите получить более конкретные сведения, введите свой вопрос в поле запроса в верхней части панели и нажмите ВВОД. Анализ данных выдаст ответы с использованием графических элементов, например таблиц, диаграмм и сводных таблиц, которые можно будет вставить в книгу.

Если вы хотите проанализировать свои данные или просто хотите узнать об имеющихся возможностях, по щелчку в поле запроса функция Анализ данных предложит персонализированные вопросы.

Попробуйте воспользоваться предлагаемыми вопросами

Просто задайте вопрос

Выберите текстовое поле в верхней части панели «Анализ данных», и вы увидите список предложений, составленный на основе ваших данных.

Анализ данных в Excel предложит вам вопросы на основе анализа ваших данных.

Кроме того, вы можете ввести конкретный вопрос о своих данных.

Анализ данных в Excel с ответом на вопрос, сколько замков или шлемов было продано.

Подписчики Microsoft 365 могут пользоваться функцией на английском, французском, испанском, немецком, китайском (упрощенное письмо) и японском языках. Если вы являетесь подписчиком Microsoft 365, убедитесь, что у вас установлена последняя версия Office. Подробнее о разных каналах обновления Office см. в статье Обзор каналов обновления приложений Microsoft 365.
Функция запросов на естественном языке в компоненте Анализ данных предоставляется клиентам поэтапно. В данный момент она может быть доступна не во всех странах или регионах.

Получение конкретных сведений с помощью Анализ данных

Если у вас нет конкретного вопроса, Анализ данных не только отвечает на вопросы на естественном языке, но и анализирует данные, а также создает наглядные визуальные представления сводных данных, тенденций и закономерностей.

Вы можете сэкономить время и получить более конкретный анализ, выбрав только нужные вам поля. Когда вы выбираете поля и способ их обобщения, Анализ данных исключает другие доступные данные, что ускоряет процесс и обеспечивает предоставление предложений, меньших по количеству, но точнее сформулированных. Например, вам может потребоваться только общая сумма продаж за год. Или же можно попросить Анализ данных показать средний уровень продаж по годам.

Выберите Какие поля интересуют вас больше всего?

Область

Выберите поля и способ обобщения содержащихся в них данных.

Выберите поля, которые нужно включить и обновить, чтобы получить новые рекомендации.

Анализ данных предоставляет меньшие по количеству, но точнее сформулированные предложения.

Область

Примечание: Параметр Не является значением в списке полей относится к полям, для которых обычно не выполняется суммирование или вычисление средних значений. Например, вы не можете вычислить сумму отображаемых лет, но вы можете вычислить сумму значений отображаемых лет. Параметр Не является значением, используемый с другим полем, в котором производится суммирование или вычисление среднего значения, работает как метка строки, однако при самостоятельном использовании Не является значением подсчитывает уникальные значения выбранного поля.

Анализ данных лучше всего работает с очищенными табличными данными.

Пример таблицы Excel

Вот некоторые советы по эффективному использованию функции Анализ данных.

Анализ данных лучше всего работает с данными, отформатированными в виде таблицы Excel. Чтобы создать таблицу Excel, щелкните в любом месте данных и нажмите клавиши CTRL+T.
Убедитесь, что у вас правильно отформатированы заголовки столбцов. Заголовки должны быть представлены в виде одной строки уникальных непустых имен столбцов. Не используйте двойные строки заголовков, объединенные ячейки и т. д.
При наличии сложных или вложенных данных для преобразования перекрестных таблиц или таблиц с несколькими строками заголовков можно использовать надстройку Power Query.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Вот некоторые причины, по которым Анализ данных может не работать с вашими данными:

Анализ данных в настоящее время не поддерживает анализ наборов данных размером более 1,5 миллионов ячеек. Временного решения этой проблемы пока нет. Вы можете отфильтровать данные, скопировать в другое место и обработать с помощью функции Анализ данных.
Строковое даты, такие как «01-01-2017», анализируются как текстовые строки. В качестве временного решения можно создать для них новый столбец и отформатировать как даты с помощью функции ДАТА или ДАТАЗНАЧ.
Анализ данных не будет работать, когда Excel находится в режиме совместимости (т. е. если файл находится в .xls формате). Сохраните файл в формате XLSX, XLSM или XLSB.
Объединенные ячейки также могут представлять сложность для анализа. Если вы хотите выровнять данные по центру, например в заголовке отчета, то в качестве временного решения удалите все объединенные ячейки, а затем выровняйте ячейки по центру выделения. Нажмите клавиши CTRL+1 и перейдите на Выравнивание >По горизонтали >По центру выделения.

Анализ данных лучше всего работает с очищенными табличными данными.

Пример таблицы Excel

Вот некоторые советы по эффективному использованию функции Анализ данных.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Вот некоторые причины, по которым Анализ данных может не работать с вашими данными:

Анализ данных в настоящее время не поддерживает анализ наборов данных размером более 1,5 миллионов ячеек. Временного решения этой проблемы пока нет. Вы можете отфильтровать данные, скопировать в другое место и обработать с помощью функции Анализ данных.
Строковое даты, такие как «01-01-2017», анализируются как текстовые строки. В качестве временного решения можно создать для них новый столбец и отформатировать как даты с помощью функции ДАТА или ДАТАЗНАЧ.
Анализ данных не удается проанализировать данные, если Excel находится в режиме совместимости (т. е. если файл находится в .xls формате). Сохраните файл в формате XLSX, XLSM или XLSB.
Объединенные ячейки также могут представлять сложность для анализа. Если вы хотите выровнять данные по центру, например в заголовке отчета, то в качестве временного решения удалите все объединенные ячейки, а затем выровняйте ячейки по центру выделения. Нажмите клавиши CTRL+1 и перейдите на Выравнивание >По горизонтали >По центру выделения.

Анализ данных лучше всего работает с очищенными табличными данными.

Пример таблицы Excel

Вот некоторые советы по эффективному использованию функции Анализ данных.

Анализ данных лучше всего работает с данными, отформатированными в виде таблицы Excel. Чтобы создать таблицу Excel, щелкните в любом месте данных и выберите Пункт Главная > Таблицы > Форматировать как таблицу.
Убедитесь, что у вас правильно отформатированы заголовки столбцов. Заголовки должны быть представлены в виде одной строки уникальных непустых имен столбцов. Не используйте двойные строки заголовков, объединенные ячейки и т. д.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Вот некоторые причины, по которым Анализ данных может не работать с вашими данными:

Анализ данных в настоящее время не поддерживает анализ наборов данных размером более 1,5 миллионов ячеек. Временного решения этой проблемы пока нет. Вы можете отфильтровать данные, скопировать в другое место и обработать с помощью функции Анализ данных.
Строковое даты, такие как «01-01-2017», анализируются как текстовые строки. В качестве временного решения можно создать для них новый столбец и отформатировать как даты с помощью функции ДАТА или ДАТАЗНАЧ.

Анализ данных постоянно совершенствуется

Даже если ни одно из указанных выше условий не выполняется, поиск рекомендаций может оказаться безрезультатным. Это объясняется тем, что служба пытается найти определенный набор классов аналитических сведений, и ей не всегда это удается. Мы постоянно работаем над расширением типов анализа, поддерживаемых службой.

Вот текущий список доступных типов анализа:

Ранг. Ранжирует элементы и выделяет тот, который существенно больше остальных.

График, показывающий, что расходы отдела заработной платы значительно выше

Тренд. Выделяет тенденцию, если она прослеживается на протяжении всего временного ряда данных.

График, показывающий увеличение расходов с течением времени

Выброс. Выделяет выбросы во временном ряду.

Точечная диаграмма, показывающая выбросы

Большинство. Находит случаи, когда большую часть итогового значения можно связать с одним фактором.

Кольцевая диаграмма, показывающая, что на долю людей приходится большая часть расходов

Если вы не получили результатов, отправьте нам отзыв, выбрав на вкладке Файл пункт Отзывы и предложения.

Microsoft Privacy Policy

Так как Анализ данных выполняет анализ с помощью служб искусственного интеллекта, возможно, вас беспокоит безопасность данных. Вы можете ознакомиться с дополнительными сведениями в заявлении о конфиденциальности корпорации Майкрософт.

Сведения о лицензировании для функции Анализ данных

Анализ данных использует материалы сторонних производителей. Подробности см. в разделе Сведения о лицензировании для функции «Анализ данных».

Дополнительные сведения

Вы всегда можете задать вопрос эксперту в Excel Tech Community или получить поддержку в сообществах.

Электронная почта

Нужна дополнительная помощь?

Нужны дополнительные параметры?

Изучите преимущества подписки, просмотрите учебные курсы, узнайте, как защитить свое устройство и т. д.

В сообществах можно задавать вопросы и отвечать на них, отправлять отзывы и консультироваться с экспертами разных профилей.

Описательная статистика в EXCEL

Задача описательной статистики (descriptive statistics) заключается в том, чтобы с использованием математических инструментов свести сотни значений выборки к нескольким итоговым показателям, которые дают представление о выборке .В качестве таких статистических показателей используются: среднее , медиана , мода , дисперсия, стандартное отклонение и др.

Опишем набор числовых данных с помощью определенных показателей. Для чего нужны эти показатели? Эти показатели позволят сделать определенные статистические выводы о распределении , из которого была взята выборка . Например, если у нас есть выборка значений толщины трубы, которая изготавливается на определенном оборудовании, то на основании анализа этой выборки мы сможем сделать, с некой определенной вероятностью, заключение о состоянии процесса изготовления.

Надстройка Пакет анализа

Для вычисления статистических показателей одномерных выборок , используем надстройку Пакет анализа . Затем, все показатели рассчитанные надстройкой, вычислим с помощью встроенных функций MS EXCEL.

СОВЕТ : Подробнее о других инструментах надстройки Пакет анализа и ее подключении – читайте в статье Надстройка Пакет анализа MS EXCEL .

Выборку разместим на листе Пример в файле примера в диапазоне А6:А55 (50 значений).

Примечание : Для удобства написания формул для диапазона А6:А55 создан Именованный диапазон Выборка.

В диалоговом окне Анализ данных выберите инструмент Описательная статистика .

После нажатия кнопки ОК будет выведено другое диалоговое окно,

в котором нужно указать:

входной интервал (Input Range) – это диапазон ячеек, в котором содержится массив данных. Если в указанный диапазон входит текстовый заголовок набора данных, то нужно поставить галочку в поле Метки в первой строке (Labelsinfirstrow). В этом случае заголовок будет выведен в Выходном интервале. Пустые ячейки будут проигнорированы, поэтому нулевые значения необходимо обязательно указывать в ячейках, а не оставлять их пустыми;
выходной интервал (Output Range). Здесь укажите адрес верхней левой ячейки диапазона, в который будут выведены статистические показатели;
Итоговая статистика (SummaryStatistics) . Поставьте галочку напротив этого поля – будут выведены основные показатели выборки: среднее, медиана, мода, стандартное отклонение и др.;
Также можно поставить галочки напротив полей Уровень надежности (ConfidenceLevelforMean) , К-й наименьший (Kth Largest) и К-й наибольший (Kth Smallest).

В результате будут выведены следующие статистические показатели:

Все показатели выведены в виде значений, а не формул. Если массив данных изменился, то необходимо перезапустить расчет.

Если во входном интервале указать ссылку на несколько столбцов данных, то будет рассчитано соответствующее количество наборов показателей. Такой подход позволяет сравнить несколько наборов данных. При сравнении нескольких наборов данных используйте заголовки (включите их во Входной интервал и установите галочку в поле Метки в первой строке ). Если наборы данных разной длины, то это не проблема — пустые ячейки будут проигнорированы.

Зеленым цветом на картинке выше и в файле примера выделены показатели, которые не требуют особого пояснения. Для большинства из них имеется специализированная функция:

Интервал (Range) — разница между максимальным и минимальным значениями;
Минимум (Minimum) – минимальное значение в диапазоне ячеек, указанном во Входном интервале (см. статью про функцию МИН() );
Максимум (Maximum)– максимальное значение (см. статью про функцию МАКС() );
Сумма (Sum) – сумма всех значений (см. статью про функцию СУММ() );
Счет (Count) – количество значений во Входном интервале (пустые ячейки игнорируются, см. статью про функцию СЧЁТ() );
Наибольший (Kth Largest) – выводится К-й наибольший. Например, 1-й наибольший – это максимальное значение (см. статью про функцию НАИБОЛЬШИЙ() );
Наименьший (Kth Smallest) – выводится К-й наименьший. Например, 1-й наименьший – это минимальное значение (см. статью про функцию НАИМЕНЬШИЙ() ).

Ниже даны подробные описания остальных показателей.

Среднее выборки

Среднее (mean, average) или выборочное среднее или среднее выборки (sample average) представляет собой арифметическое среднее всех значений массива. В MS EXCEL для вычисления среднего выборки используется функция СРЗНАЧ() . Выборочное среднее является «хорошей» (несмещенной и эффективной) оценкой математического ожидания случайной величины (подробнее см. статью Среднее и Математическое ожидание в MS EXCEL ).

Медиана выборки

Медиана (Median) – это число, которое является серединой множества чисел (в данном случае выборки): половина чисел множества больше, чем медиана , а половина чисел меньше, чем медиана . Для определения медианы необходимо сначала отсортировать множество чисел . Например, медианой для чисел 2, 3, 3, 4 , 5, 7, 10 будет 4.

Если множество содержит четное количество чисел, то вычисляется среднее для двух чисел, находящихся в середине множества. Например, медианой для чисел 2, 3, 3 , 5 , 7, 10 будет 4, т.к. (3+5)/2.

Если имеется длинный хвост распределения, то Медиана лучше, чем среднее значение , отражает «типичное» или «центральное» значение. Например, рассмотрим несправедливое распределение зарплат в компании, в которой руководство получает существенно больше, чем основная масса сотрудников.

Очевидно, что средняя зарплата (71 тыс. руб.) не отражает тот факт, что 86% сотрудников получает не более 30 тыс. руб. (т.е. 86% сотрудников получает зарплату в более, чем в 2 раза меньше средней!). В то же время медиана (15 тыс. руб.) показывает, что как минимум у 50% сотрудников зарплата меньше или равна 15 тыс. руб.

Для определения медианы в MS EXCEL существует одноименная функция МЕДИАНА() , английский вариант — MEDIAN().

Медиану также можно вычислить с помощью формул

Подробнее о медиане см. специальную статью Медиана в MS EXCEL .

СОВЕТ : Подробнее про квартили см. статью, про перцентили (процентили) см. статью.

Мода выборки

Мода (Mode) – это наиболее часто встречающееся (повторяющееся) значение в выборке . Например, в массиве (1; 1; 2 ; 2 ; 2 ; 3; 4; 5) число 2 встречается чаще всего – 3 раза. Значит, число 2 – это мода . Для вычисления моды используется функция МОДА() , английский вариант MODE().

Примечание : Если в массиве нет повторяющихся значений, то функция вернет значение ошибки #Н/Д. Это свойство использовано в статье Есть ли повторы в списке?

Начиная с MS EXCEL 2010 вместо функции МОДА() рекомендуется использовать функцию МОДА.ОДН() , которая является ее полным аналогом. Кроме того, в MS EXCEL 2010 появилась новая функция МОДА.НСК() , которая возвращает несколько наиболее часто повторяющихся значений (если количество их повторов совпадает). НСК – это сокращение от слова НеСКолько.

Например, в массиве (1; 1; 2 ; 2 ; 2 ; 3; 4 ; 4 ; 4 ; 5) числа 2 и 4 встречаются наиболее часто – по 3 раза. Значит, оба числа являются модами . Функции МОДА.ОДН() и МОДА() вернут значение 2, т.к. 2 встречается первым, среди наиболее повторяющихся значений (см. файл примера , лист Мода ).

Чтобы исправить эту несправедливость и была введена функция МОДА.НСК() , которая выводит все моды . Для этого ее нужно ввести как формулу массива .

Как видно из картинки выше, функция МОДА.НСК() вернула все три моды из массива чисел в диапазоне A2:A11 : 1; 3 и 7. Для этого, выделите диапазон C6:C9 , в Строку формул введите формулу =МОДА.НСК(A2:A11) и нажмите CTRL+SHIFT+ENTER . Диапазон C 6: C 9 охватывает 4 ячейки, т.е. количество выделяемых ячеек должно быть больше или равно количеству мод . Если ячеек больше чем м о д, то избыточные ячейки будут заполнены значениями ошибки #Н/Д. Если мода только одна, то все выделенные ячейки будут заполнены значением этой моды .

Теперь вспомним, что мы определили моду для выборки, т.е. для конечного множества значений, взятых из генеральной совокупности . Для непрерывных случайных величин вполне может оказаться, что выборка состоит из массива на подобие этого (0,935; 1,211; 2,430; 3,668; 3,874; …), в котором может не оказаться повторов и функция МОДА() вернет ошибку.

Даже в нашем массиве с модой , которая была определена с помощью надстройки Пакет анализа , творится, что-то не то. Действительно, модой нашего массива значений является число 477, т.к. оно встречается 2 раза, остальные значения не повторяются. Но, если мы посмотрим на гистограмму распределения , построенную для нашего массива, то увидим, что 477 не принадлежит интервалу наиболее часто встречающихся значений (от 150 до 250).

Проблема в том, что мы определили моду как наиболее часто встречающееся значение, а не как наиболее вероятное. Поэтому, моду в учебниках статистики часто определяют не для выборки (массива), а для функции распределения. Например, для логнормального распределения мода (наиболее вероятное значение непрерывной случайной величины х), вычисляется как exp ( m — s 2 ) , где m и s параметры этого распределения.

Понятно, что для нашего массива число 477, хотя и является наиболее часто повторяющимся значением, но все же является плохой оценкой для моды распределения, из которого взята выборка (наиболее вероятного значения или для которого плотность вероятности распределения максимальна).

Для того, чтобы получить оценку моды распределения, из генеральной совокупности которого взята выборка , можно, например, построить гистограмму . Оценкой для моды может служить интервал наиболее часто встречающихся значений (самого высокого столбца). Как было сказано выше, в нашем случае это интервал от 150 до 250.

Вывод : Значение моды для выборки , рассчитанное с помощью функции МОДА() , может ввести в заблуждение, особенно для небольших выборок. Эта функция эффективна, когда случайная величина может принимать лишь несколько дискретных значений, а размер выборки существенно превышает количество этих значений.

Например, в рассмотренном примере о распределении заработных плат (см. раздел статьи выше, о Медиане), модой является число 15 (17 значений из 51, т.е. 33%). В этом случае функция МОДА() дает хорошую оценку «наиболее вероятного» значения зарплаты.

Примечание : Строго говоря, в примере с зарплатой мы имеем дело скорее с генеральной совокупностью , чем с выборкой . Т.к. других зарплат в компании просто нет.

О вычислении моды для распределения непрерывной случайной величины читайте статью Мода в MS EXCEL .

Мода и среднее значение

Не смотря на то, что мода – это наиболее вероятное значение случайной величины (вероятность выбрать это значение из Генеральной совокупности максимальна), не следует ожидать, что среднее значение обязательно будет близко к моде .

Примечание : Мода и среднее симметричных распределений совпадает (имеется ввиду симметричность плотности распределения ).

Представим, что мы бросаем некий «неправильный» кубик, у которого на гранях имеются значения (1; 2; 3; 4; 6; 6), т.е. значения 5 нет, а есть вторая 6. Модой является 6, а среднее значение – 3,6666.

Другой пример. Для Логнормального распределения LnN(0;1) мода равна =EXP(m-s2)= EXP(0-1*1)=0,368, а среднее значение 1,649.

Дисперсия выборки

Дисперсия выборки или выборочная дисперсия ( sample variance ) характеризует разброс значений в массиве, отклонение от среднего .

Из формулы №1 видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего , деленная на размер выборки минус 1.

В MS EXCEL 2007 и более ранних версиях для вычисления дисперсии выборки используется функция ДИСП() . С версии MS EXCEL 2010 рекомендуется использовать ее аналог — функцию ДИСП.В() .

Дисперсию можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ): =КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1) =(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула =СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1) – формула массива

Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению .

Чем больше величина дисперсии , тем больше разброс значений в массиве относительно среднего .

Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии – стандартное отклонение .

Стандартное отклонение выборки

Стандартное отклонение выборки (Standard Deviation), как и дисперсия , — это мера того, насколько широко разбросаны значения в выборке относительно их среднего .

По определению, стандартное отклонение равно квадратному корню из дисперсии :

Стандартное отклонение не учитывает величину значений в выборке , а только степень рассеивания значений вокруг их среднего . Чтобы проиллюстрировать это приведем пример.

Вычислим стандартное отклонение для 2-х выборок : (1; 5; 9) и (1001; 1005; 1009). В обоих случаях, s=4. Очевидно, что отношение величины стандартного отклонения к значениям массива у выборок существенно отличается.

В MS EXCEL 2007 и более ранних версиях для вычисления Стандартного отклонения выборки используется функция СТАНДОТКЛОН() . С версии MS EXCEL 2010 рекомендуется использовать ее аналог СТАНДОТКЛОН.В() .

Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера ): =КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)) =КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))

Стандартная ошибка

В Пакете анализа под термином стандартная ошибка имеется ввиду Стандартная ошибка среднего (Standard Error of the Mean, SEM). Стандартная ошибка среднего — это оценка стандартного отклонения распределения выборочного среднего .

Примечание : Чтобы разобраться с понятием Стандартная ошибка среднего необходимо прочитать о выборочном распределении (см. статью Статистики, их выборочные распределения и точечные оценки параметров распределений в MS EXCEL ) и статью про Центральную предельную теорему .

Стандартное отклонение распределения выборочного среднего вычисляется по формуле σ/√n, где n — объём выборки, σ — стандартное отклонение исходного распределения, из которого взята выборка . Т.к. обычно стандартное отклонение исходного распределения неизвестно, то в расчетах вместо σ используют ее оценку s — стандартное отклонение выборки . А соответствующая величина s/√n имеет специальное название — Стандартная ошибка среднего. Именно эта величина вычисляется в Пакете анализа.

В MS EXCEL стандартную ошибку среднего можно также вычислить по формуле =СТАНДОТКЛОН.В(Выборка)/ КОРЕНЬ(СЧЁТ(Выборка))

Асимметричность

Асимметричность или коэффициент асимметрии (skewness) характеризует степень несимметричности распределения ( плотности распределения ) относительно его среднего .

Положительное значение коэффициента асимметрии указывает, что размер правого «хвоста» распределения больше, чем левого (относительно среднего). Отрицательная асимметрия, наоборот, указывает на то, что левый хвост распределения больше правого. Коэффициент асимметрии идеально симметричного распределения или выборки равно 0.

Примечание : Асимметрия выборки может отличаться расчетного значения асимметрии теоретического распределения. Например, Нормальное распределение является симметричным распределением ( плотность его распределения симметрична относительно среднего ) и, поэтому имеет асимметрию равную 0. Понятно, что при этом значения в выборке из соответствующей генеральной совокупности не обязательно должны располагаться совершенно симметрично относительно среднего . Поэтому, асимметрия выборки , являющейся оценкой асимметрии распределения , может отличаться от 0.

Функция СКОС() , английский вариант SKEW(), возвращает коэффициент асимметрии выборки , являющейся оценкой асимметрии соответствующего распределения, и определяется следующим образом:

где n – размер выборки , s – стандартное отклонение выборки .

В файле примера на листе СКОС приведен расчет коэффициента асимметрии на примере случайной выборки из распределения Вейбулла , которое имеет значительную положительную асимметрию при параметрах распределения W(1,5; 1).

Эксцесс выборки

Эксцесс показывает относительный вес «хвостов» распределения относительно его центральной части.

Для того чтобы определить, что относится к хвостам распределения, а что к его центральной части, можно использовать границы μ +/- σ .

Примечание : Не смотря на старания профессиональных статистиков, в литературе еще попадается определение Эксцесса как меры «остроконечности» (peakedness) или сглаженности распределения. Но, на самом деле, значение Эксцесса ничего не говорит о форме пика распределения.

Согласно определения, Эксцесс равен четвертому стандартизированному моменту:

Для нормального распределения четвертый момент равен 3*σ 4 , следовательно, Эксцесс равен 3. Многие компьютерные программы используют для расчетов не сам Эксцесс , а так называемый Kurtosis excess, который меньше на 3. Т.е. для нормального распределения Kurtosis excess равен 0. Необходимо быть внимательным, т.к. часто не очевидно, какая формула лежит в основе расчетов.

Примечание : Еще большую путаницу вносит перевод этих терминов на русский язык. Термин Kurtosis происходит от греческого слова «изогнутый», «имеющий арку». Так сложилось, что на русский язык оба термина Kurtosis и Kurtosis excess переводятся как Эксцесс (от англ. excess — «излишек»). Например, функция MS EXCEL ЭКСЦЕСС() на самом деле вычисляет Kurtosis excess.

Функция ЭКСЦЕСС() , английский вариант KURT(), вычисляет на основе значений выборки несмещенную оценку эксцесса распределения случайной величины и определяется следующим образом:

Как видно из формулы MS EXCEL использует именно Kurtosis excess, т.е. для выборки из нормального распределения формула вернет близкое к 0 значение.

Если задано менее четырех точек данных, то функция ЭКСЦЕСС() возвращает значение ошибки #ДЕЛ/0!

Вернемся к распределениям случайной величины . Эксцесс (Kurtosis excess) для нормального распределения всегда равен 0, т.е. не зависит от параметров распределения μ и σ. Для большинства других распределений Эксцесс зависит от параметров распределения: см., например, распределение Вейбулла или распределение Пуассона , для котрого Эксцесс = 1/λ.

Уровень надежности

Уровень надежности — означает вероятность того, что доверительный интервал содержит истинное значение оцениваемого параметра распределения.

Вместо термина Уровень надежности часто используется термин Уровень доверия . Про Уровень надежности (Confidence Level for Mean) читайте статью Уровень значимости и уровень надежности в MS EXCEL .

Задав значение Уровня надежности в окне надстройки Пакет анализа , MS EXCEL вычислит половину ширины доверительного интервала для оценки среднего (дисперсия неизвестна) .

Тот же результат можно получить по формуле (см. файл примера ): =ДОВЕРИТ.СТЬЮДЕНТ(1-0,95;s;n) s — стандартное отклонение выборки , n – объем выборки .

Использование пакета анализа

Если вам нужно разработать сложный статистический или инженерный анализ, можно сэкономить шаги и время с помощью средства анализа. Вы предоставляете данные и параметры для каждого анализа, а средство использует соответствующие статистические или инженерные макро-функции для вычисления и отображения результатов в выходной таблице. Некоторые средства создают диаграммы в дополнение к выходным таблицам.

Функции анализа данных можно применять только на одном листе. Если анализ данных проводится в группе, состоящей из нескольких листов, то результаты будут выведены на первом листе, на остальных листах будут выведены пустые диапазоны, содержащие только форматы. Чтобы провести анализ данных на всех листах, повторите процедуру для каждого листа в отдельности.

Ниже описаны инструменты, включенные в пакет анализа. Для доступа к ним нажмите кнопкуАнализ данных в группе Анализ на вкладке Данные. Если команда Анализ данных недоступна, необходимо загрузить надстройку «Пакет анализа».

Загрузка и активация пакета анализа

Откройте вкладку Файл, нажмите кнопку Параметры и выберите категорию Надстройки.
В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти. Если вы используете Excel для Mac, в строке меню откройте вкладку Средства и в раскрывающемся списке выберите пункт Надстройки для Excel.
В диалоговом окне Надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.
- Если Пакет анализа отсутствует в списке поля Доступные надстройки, нажмите кнопку Обзор, чтобы выполнить поиск.
- Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да, чтобы установить его.

Примечание: Чтобы включить функции Visual Basic для приложений (VBA) для средства анализаПакет анализа, можно загрузить надстройку Analysis ToolPak — VBA так же, как и средство анализа. В поле Доступные надстройки выберите поле Инструмент анализаПакет — VBA проверка.

Дисперсионный анализ

Существует несколько видов дисперсионного анализа. Нужный вариант выбирается с учетом числа факторов и имеющихся выборок из генеральной совокупности.

Однофакторный дисперсионный анализ

Это средство выполняет простой анализ дисперсии данных для двух или более выборок. Анализ позволяет проверить гипотезу о том, что каждая выборка извлекается из одного базового распределения вероятностей и альтернативной гипотезы о том, что базовые распределения вероятностей не одинаковы для всех выборок. Если есть только два примера, можно использовать функцию листа T.ТЕСТ. При использовании более двух выборок нет удобного обобщения T.Вместо этого можно использовать test и модель Anova Single Factor.

Двухфакторный дисперсионный анализ с повторениями

Этот инструмент анализа применяется, если данные можно систематизировать по двум параметрам. Например, в эксперименте по измерению высоты растений последние обрабатывали удобрениями от различных изготовителей (например, A, B, C) и содержали при различной температуре (например, низкой и высокой). Таким образом, для каждой из 6 возможных пар условий , имеется одинаковый набор наблюдений за ростом растений. С помощью этого дисперсионного анализа можно проверить следующие гипотезы:

Извлечены ли данные о росте растений для различных марок удобрений из одной генеральной совокупности. Температура в этом анализе не учитывается.
Извлечены ли данные о росте растений для различных уровней температуры из одной генеральной совокупности. Марка удобрения в этом анализе не учитывается.

Извлечены ли шесть выборок, представляющих все пары значений , используемые для оценки влияния различных марок удобрений (для первого пункта в списке) и уровней температуры (для второго пункта в списке), из одной генеральной совокупности. Альтернативная гипотеза предполагает, что влияние конкретных пар превышает влияние отдельно удобрения и отдельно температуры.

Двухфакторный дисперсионный анализ без повторений

Этот инструмент анализа применяется, если данные можно систематизировать по двум параметрам, как в случае двухфакторного дисперсионного анализа с повторениями. Однако в таком анализе предполагается, что для каждой пары параметров есть только одно измерение (например, для каждой пары параметров из предыдущего примера).

Корреляция

Функции листа CORREL и PEARSON вычисляют коэффициент корреляции между двумя переменными измерения, когда измерения каждой переменной наблюдаются для каждого из N субъектов. (Любое отсутствие наблюдения для любого субъекта приводит к тому, что этот объект будет игнорироваться при анализе.) Инструмент корреляционного анализа особенно полезен, если для каждого из N субъектов имеется более двух переменных измерения. Она предоставляет выходную таблицу, матрицу корреляции, которая показывает значение CORREL (или PEARSON), примененное к каждой возможной паре переменных измерения.

Коэффициент корреляции, как и ковариация, является мерой степени, в которой две переменные измерения «изменяются вместе». В отличие от ковариации коэффициент корреляции масштабируется таким образом, что его значение не зависит от единиц измерения, в которых выражены две переменные измерения. (Например, если двумя переменными измерения являются вес и высота, значение коэффициента корреляции не изменяется, если вес преобразуется из фунтов в килограммы.) Значение любого коэффициента корреляции должно находиться в диапазоне от -1 до +1 включительно.

Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, т. е. большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция) или наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция).

Ковариация

Средства корреляции и ковариации можно использовать в одном и том же параметре при наличии N различных переменных измерения, наблюдаемых на наборе лиц. Каждый из инструментов корреляции и ковариации предоставляет выходную таблицу, матрицу, которая показывает коэффициент корреляции или ковариацию соответственно между каждой парой переменных измерения. Разница заключается в том, что коэффициенты корреляции масштабируются в диапазоне от -1 до +1 включительно. Соответствующие ковариации не масштабируются. Коэффициент корреляции и ковариация — это меры степени, в которой две переменные «меняются вместе».

Средство ковариации вычисляет значение функции листа COVARIANCE. P для каждой пары переменных измерения. (Прямое использование COVARIANCE. P, а не средство ковариации является разумной альтернативой, если есть только две переменные измерения, то есть N=2.) Запись по диагонали выходной таблицы средства ковариации в строке i, столбец i является ковариантной i-й переменной измерения с самим собой. Это всего лишь дисперсии численности для этой переменной, вычисленная с помощью функции листа VAR.P.

Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация) или наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).

Описательная статистика

Инструмент анализа «Описательная статистика» применяется для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных.

Экспоненциальное сглаживание

Инструмент анализа «Экспоненциальное сглаживание» применяется для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сглаживания a, величина которой определяет степень влияния на прогнозы погрешностей в предыдущем прогнозе.

Примечание: Для константы сглаживания наиболее подходящими являются значения от 0,2 до 0,3. Эти значения показывают, что ошибка текущего прогноза установлена на уровне от 20 до 30 процентов ошибки предыдущего прогноза. Более высокие значения константы ускоряют отклик, но могут привести к непредсказуемым выбросам. Низкие значения константы могут привести к большим промежуткам между предсказанными значениями.

Двухвыборочный t-тест для дисперсии

Двухвыборочный F-тест применяется для сравнения дисперсий двух генеральных совокупностей.

Например, можно использовать F-тест по выборкам результатов заплыва для каждой из двух команд. Это средство предоставляет результаты сравнения нулевой гипотезы о том, что эти две выборки взяты из распределения с равными дисперсиями, с гипотезой, предполагающей, что дисперсии различны в базовом распределении.

Анализ Фурье

Инструмент «Анализ Фурье» применяется для решения задач в линейных системах и анализа периодических данных на основе метода быстрого преобразования Фурье (БПФ). Этот инструмент поддерживает также обратные преобразования, при этом инвертирование преобразованных данных возвращает исходные данные.

Гистограмма

Инструмент «Гистограмма» применяется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек.

Например, можно получить распределение успеваемости по шкале оценок в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и групп студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто встречающийся уровень является модой диапазона данных.

Совет: В Excel 2016 теперь можно создавать гистограммы и диаграммы Парето.

Скользящее среднее

Инструмент анализа «Скользящее среднее» применяется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Этот метод может использоваться для прогноза сбыта, запасов и других тенденций. Расчет прогнозируемых значений выполняется по следующей формуле:

N — число предшествующих периодов, входящих в скользящее среднее;
Aj — фактическое значение в момент времени j;
Fj — прогнозируемое значение в момент времени j.

Генерация случайных чисел

Инструмент «Генерация случайных чисел» применяется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью этой процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей. Например, можно использовать нормальное распределение для моделирования совокупности данных по росту людей или использовать распределение Бернулли для двух вероятных исходов, чтобы описать совокупность результатов бросания монеты.

Ранг и персентиль

Средство анализа ранга и процентиля создает таблицу, содержащую порядковый номер и процентный ранг каждого значения в наборе данных. Можно проанализировать относительное положение значений в наборе данных. Это средство использует функции листа RANK. EQ иPERCENTRANK. INC. Если вы хотите учесть связанные значения, используйте RANK. Функция EQ , которая обрабатывает связанные значения как имеющие одинаковый ранг, или использует RANK.Функция AVG, которая возвращает средний ранг для связанных значений.

Инструмент анализа «Регрессия» применяется для подбора графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или нескольких независимых переменных. Например, на спортивные качества атлета влияют несколько факторов, включая возраст, рост и вес. Можно вычислить степень влияния каждого из этих трех факторов по результатам выступления спортсмена, а затем использовать полученные данные для предсказания выступления другого спортсмена.

Средство регрессии использует функцию листа LINEST.

Инструмент анализа «Выборка» создает выборку из генеральной совокупности, рассматривая входной диапазон как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла. Например, если входной диапазон содержит данные для квартальных продаж, создание выборки с периодом 4 разместит в выходном диапазоне значения продаж из одного и того же квартала.

Двухвыборочный t-тест проверяет равенство средних значений генеральной совокупности по каждой выборке. Три вида этого теста допускают следующие условия: равные дисперсии генерального распределения, дисперсии генеральной совокупности не равны, а также представление двух выборок до и после наблюдения по одному и тому же субъекту.

Парный двухвыборочный t-тест для средних

Парный тест используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды — до и после эксперимента. Этот инструмент анализа применяется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные.

Примечание: Одним из результатов теста является совокупная дисперсия (совокупная мера распределения данных вокруг среднего значения), вычисляемая по следующей формуле:

Двухвыборочный t-тест с одинаковыми дисперсиями

Это средство анализа выполняет t-Test учащегося с двумя образцами. В этой форме t-Test предполагается, что два набора данных получены из распределений с одинаковыми отклонениями. Он называется гомоскедастической T-Тест. Этот T-тест можно использовать, чтобы определить, были ли эти две выборки, скорее всего, получены из распределений с равными значениями совокупности.

Двухвыборочный t-тест с различными дисперсиями

Это средство анализа выполняет t-Test учащегося с двумя образцами. В этой форме t-Test предполагается, что два набора данных получены из распределений с неравными отклонениями. Он называется гетероскедасическим t-тестом. Как и в случае с предыдущим вариантом равных отклонений, этот T-тест можно использовать для определения того, были ли две выборки, скорее всего, получены из распределений с равными значениями совокупности. Используйте этот тест, если в двух примерах есть разные субъекты. Используйте парный тест, описанный в следующем примере, если существует один набор испытуемых и две выборки представляют собой измерения для каждого субъекта до и после лечения.

Для определения тестовой величины t используется следующая формула.

Следующая формула используется для вычисления степеней свободы, df. Так как результат вычисления обычно не является целым числом, значение df округляется до ближайшего целого числа, чтобы получить критическое значение из таблицы t. Функция листа Excel T.ТЕСТ использует вычисляемое значение df без округления, так как можно вычислить значение для T.TEST с неинтечисленным df. Из-за этих различных подходов к определению степеней свободы, результаты Т.ТЕСТ и это средство T-Test будут отличаться в случае неравных отклонений.

Средство анализа z-Test: Two Sample for Means выполняет два примера z-Test для средств с известными отклонениями. Этот инструмент используется для проверки нулевой гипотезы о том, что между двумя демографическими средствами нет различий в отношении односторонних или двусторонних альтернативных гипотез. Если отклонения не известны, функция листа Z.Вместо этого следует использовать TEST.

Дополнительные сведения

Вы всегда можете задать вопрос эксперту в Excel Tech Community или получить поддержку в сообществах.

Расчет описательных статистик в Excell

Для того, чтобы рассчитать описательные статистики в Excell необходимо сделать следующие шаги:

1.Вносим несколько значений переменной в таблицу

2. Ставим курсор в пустую ячейку

3. На панеле инструментов нажимаем кнопку fx (вставить формулу)

4. В открывшемся окне «Мастер функций» в поле «Категории» выбираем Полный алфавитный перечень

5. Затем в поле «Выберите функцию» находим функции:

5.1. Если необходимо рассчитать в Excell значения дисперсии и стандартного отклонения для генеральной совокупности то находим следующие функции:

6. Нажимаем Ок

7. Смотрим получившийся результат

Как считать статистику в excel

Анализ данных в Excel

Есть вопрос? Мы ответим!

Получение конкретных сведений с помощью Анализ данных

Анализ данных лучше всего работает с очищенными табличными данными.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Анализ данных лучше всего работает с очищенными табличными данными.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Анализ данных лучше всего работает с очищенными табличными данными.

Анализ данных не работает? Скорее всего, проблема у нас, а не у вас.

Анализ данных постоянно совершенствуется

Дополнительные сведения

Нужна дополнительная помощь?

Нужны дополнительные параметры?

Описательная статистика в EXCEL

Надстройка Пакет анализа

Среднее выборки

Медиана выборки

Мода выборки

Мода и среднее значение

Дисперсия выборки

Стандартное отклонение выборки

Стандартная ошибка

Асимметричность

Эксцесс выборки

Уровень надежности

Использование пакета анализа

Дополнительные сведения

Расчет описательных статистик в Excell

Добавить комментарий Отменить ответ