Построение гистограмм распределения в Excel

Очень давно не писал блог. Расслабился совсем. Ну ничего, исправляюсь.

Продолжаю новую рубрику блога, посвященную анализу данных с помощью всем известного Microsoft Excel.

В современном мире к статистике проявляется большой интерес, поскольку это отличный инструмент для анализа и принятия решений, а также это отличное средство для поиска причин нарушений процесса и их устранения. Статистический анализ применим во многих сферах, где существуют большие массивы данных: естественно, в первую очередь я скажу, что металлургии, а также в экономике, биологии, политике, социологии  и... много где еще. Статья эта будет, как несложно догадаться по ее названию, про использование некоторых средств статистического анализа, а именно — гистограммам.
Ну, поехали.

Статистический анализ в Excel можно осуществлять двумя способами:
• С помощью функций
• С помощью средств надстройки «Пакет анализа». Ее, как правило, еще необходимо установить.

Чтобы установить пакет анализа в Excel, выберите вкладку «Файл» (а в Excel 2007 это круглая цветная кнопка слева сверху), далее — «Параметры», затем выберите раздел «Надстройки». Нажмите «Перейти» и поставьте галочку напротив «Пакет анализа».

гистограмма гистограмма

А теперь — к построению гистограмм распределения по частоте и их анализу.

Речь пойдет именно о частотных гистограммах, где каждый столбец соответствует частоте появления* значения в пределах границ интервалов. Например, мы хотим посмотреть, как у нас выглядит распределение значения предела текучести стали S355J2 в прокате толщиной 20 мм за несколько месяцев. В общем, хотим посмотреть, похоже ли наше распределение на нормальное (а оно должно быть таким).

*Примечание: для металловедческих целей типа оценки размера зерна или оценки объемной доли частиц этот вид гистограмм не пойдет, т.к. там высота столбика соответствует не частоте появления частиц определенного размера, а доле объема (а в плоскости шлифа — площади), которую эти частицы занимают.

График нормального распределения выглядит следующим образом:

гистограмма

График функции Гаусса

Мы знаем, что реально такой график может быть получен только при бесконечно большом количестве измерений. Реально же для конечного числа измерений строят гистограмму, которая внешне похожа на график нормального распределения и при увеличении количества измерений приближается к графику нормального распределения (распределения Гаусса).

Построение гистограмм с помощью программ типа Excel является очень быстрым способом проверки стабильности работы оборудования и добросовестности коллектива: если получим «кривую» гистограмму, значит, либо прибор не исправен или мы данные неверно собрали, либо кто-то где-то преднамеренно мухлюет или же просто неверно использует оборудование.



style="display:inline-block;width:468px;height:60px"
data-ad-client="ca-pub-9341405937949877"
data-ad-slot="7116308946">


А теперь — построение гистограмм!

Способ 1-ый. Халявный.

  1. Идем во вкладку «Анализ данных» и выбираем «Гистограмма».
  2. гистограмма

     

    гистограмма

  3. Выбираем входной интервал.
  4. Здесь же предлагается задать интервал карманов, т.е. те диапазоны, в пределах которых будут лежать наши значения. Чем больше значений в интервале — тем выше столбик гистограммы. Если мы оставим поле «Интервалы карманов» пустым, то программа вычислит границы интервалов за нас.
  5. Если хотим сразу же вывести график,то ставим галочку напротив «Вывод графика».
  6. гистограмма

  7. Нажимаем «ОК».
  8. Вот, вроде бы, и все: гистограмма готова. Теперь нужно сделать так, чтобы по вертикальной оси отображалась не абсолютная частота, а относительная.
  9. гистограмма

  10. Под появившейся таблицей со столбцами «Карман» и «Частота» под столбцом «Частота» введем формулу «=СУММ» и сложим все абсолютные частоты.
  11. К появившейся таблице со столбцами «Карман» и «Частота» добавим еще один столбец и назовем его «Относительная частота».
  12. Во всех ячейках нового столбца введем формулу, которая будет рассчитывать относительную частоту: 100 умножить на абсолютную частоту (ячейка из столбца «частота») и разделить на сумму, которую мы вычислил в  п. 7.

 

Способ 2-ой. Трудный, но интересный.

Будет полезен тому, кто по каким-либо причинам не смог установить Пакет анализа.

  1. Перво-наперво нужно задать интервалы тех самых карманов, которые мы не стали вычислять в способе, описанном выше.
  2. Интервал карманов вычисляют так: разность максимального значения и минимального значений массива, деленная на количество интервалов: (Xmax-Xmin)/n.
    Для оценки оптимального для нашего массива данных количества интервалов можно воспользоваться формулой Стерджесса: n~1+3,322lgN, где N — количество всех значений величины. Например для N=100, n=7,6. Естественно, округляем до 8.
  3. Для нахождения максимального и минимального значений воспользуемся соответствующими функциями: =МАКС(наш диапазон значений) и =МИН(наш диапазон значений).
    гистограмма
  4. Найдем разность этих значений и разделим его на количество интервалов, которое нам захочется. Пусть будет 10. Так мы вычислили ширину нашего «кармана».
  5. гистограмма

  6. Теперь в каждой ячейке шаг за шагом прибавляем полученное значение ширины кармана: сначала к минимальному значению нашего массива (п. 3), затем в следующей ячейке ниже — к полученной сумме и т.д. Так постепенно доходим до максимального значения. Вот мы и построили интервалы карманов в виде столбца значений. Интервалом считается следующий диапазон : (i-1; i] или i<значения<=i (нестрогая верхняя граница интервала — это значение в ячейке, нижняя строгая граница — значение в предыдущей ячейке).
  7. Выделяем столбец рядом с нашими карманами, нажимаем «F2» и вводим функцию: =ЧАСТОТА(массив данных; диапазон карманов) и нажимаем Ctr+Shift+Ener.
  8. гистограмма

  9. В выделенном нами столбце напротив границ интервалов (а из п. 5 мы знаем, что это нестрогие верхние границы) появилось количество значений исходного массива, которые попадают в интервал.
  10. Далее, как и в предыдущем способе, нужно вычислить сумму частот (п.7.), создать столбец «относительная частота» и вычислить относительные частоты (разделить значения из столбца с абсолютными частотами на ихсумму и умножить на 100).
  11. Теперь с помощью стандартного инструмента для построения гистограмм («вставка/гистограмма» и т.д.) можно построить гистограмму распределения.

На этом все. Ура!

Гистограмму-то мы построили, а что с ней делать дальше? В следующей статье расскажу о том, какую информацию можно извлечь из гистограмм.  Так что не пропустите! А чтобы не пропустить, можно подписаться на обновления блога.

Успехов!

 

>>Скачать бесплатно видеокурc по Excel

гистограмма

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Рубрика: Анализ данных в Excel. Метки: . Добавьте постоянную ссылку на эту страницу в закладки.

3 отзывов на Построение гистограмм распределения в Excel

  1. Алексей пишет:

    О 2-м способе

    1. Если мы говорим о числе попаданий, то для меня Excel неправильно располагает столбец: он его смещает к верхней границе кармана, поэтому я добавляю еще один столбец со значениями середины кармана, который и отражаю по оси Х.

    2. О числе карманов. Также необходимо помнить, что если вы рассматриваете распределение некоторых измеряемых величин, то длина кармана не должна быть равной или меньше, чем точность (разрешение) измеренного параметра: в карман должно ложиться не меньше 2-х двух параметров отличающих друг от друга разрешением/точностью (не путать с числом знаков после запятой при выполнении арифметических вычислений с измеряемым параметром).

  2. sqrt пишет:

    Спасибо!

  3. Эльмира пишет:

    Спасибо

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *