Визуальный анализ гистограмм распределения

В прошлой статье мы научились строить гистограммы распределения в Excel, а теперь посмотрим, как их можно использовать для анализа.  Пока будет рассмотрен только качественный анализ гистограмм, представляющий собой, грубо говоря, оценку «на глаз».

Несмотря на то, что качественный анализ и не дает конкретных цифр (количественных характеристик), такая визуальная оценка может помочь избежать ошибок, от которых при осуществлении анализа распределения с помощью количественных показателей не застрахован даже опытный человек.

А то может получиться вот что:  работа проделана огромная, был обработан здоровенный массив данных, глаза уже болят, пятая точка приросла к стулу и сама уже тоже как будто одеревенела, а в голову словно вату напихали, а вот все результаты и выеденного яйца не стоят, т.к. всех наших умных вычислений и преобразований и делать-то было не нужно. А могло это произойти, к примеру, потому что наблюдаемая величина, не подчиняется закону нормального распределения или выборка была «загрязнена» данными из другой выборки, и все наши супер-формулы для определения дисперсий, отклонений и т.п. оказались не применимы.

В общем, метод очень даже полезен, и его стоит использовать в качестве предварительной оценки, чтобы не делать «зряшную работу», как любит говорить один мой сотрудник.

Рассмотрим возможные виды гистограмм, которые мы можем получить.

Симметричная форма

Похожа на колокол и присуща нормальному распределению. Среднее значение и максимум гистограммы соответствуют середине разбега данных. Такая форма свидетельствует о стабильности процесса.

Скошенное распределение

Несимметричная форма. К нашему колоколу изрядно приложились молотком. Среднее значение гистограммы располагается либо правее, либо левее середины разбега данных, происходит резкое уменьшение частоты (высоты столбиков) с одного края.
Такая форма образуется, когда

а) крайнее значение невозможно достигнуть (например, при оценке количества вязкой составляющей после испытаний падающим грузом — больше 100% ведет быть не может),

б) либо если одна из границ регулируется теоретически, то есть кто-то сознательно подтасовывает данные (например, накидывает с десяток-другой мегапаскалей к значению временного сопротивления после получения результатов испытаний на растяжение).

Распределение с обрывом

Похожа на предыдущую только еще резче. Здесь тоже видим асимметричную форму и смещение максимума в одну из сторон, при этом с одной из сторон наблюдается резкий обрыв.
Такая форма часто встречается при 100 %-ном контроле изделий вследствие плохой воспроизводимости процесса, или опять же, кто-то мухлюет, только еще наглее =)

Гребень

Мультимодальный тип. Столбики через один или два интервала то выше, то ниже. Такое случается, когда

а) количество единичных наблюдений (измерений), входящих в интервал, колеблется от интервала к интервалу. То есть так уж получилось;

б) или данные были округлены по какому-то правилу. Чтобы провести нормальный анализ, скорее всего, нужно будет искать исходные неокругленные данные. Я, например, не представляю, как, даже зная правило округления, вернуть данным исходные значения. Если кто знает способ, подскажите.

Плато

В середине гистограммы видим примерно одинаковые частоты, т.е. образуется ровная площадка на возвышении (потому и «плато»).
Так может получиться, когда произошло объединение нескольких распределений со средними значениями близко расположенными друг к другу. Например, вот только сегодня на работе, делал отчет и смотрел, как различные параметры нагрева и прокатки влияют на  механические свойства, и получил такое распределение. Оказалось, что я не учел вот чего: часть проката была прокатана в два карата по длине (то есть в два раза больше, чем нужно заказчику, а потом резали пополам). Металл один, режимы — тоже (конечно же, в пределах отклонений по хим. составу, работы оборудования и т.п.), но вот исходные заготовки разные. Для дальнейшего анализа в таких случаях  рекомендуется

а) проверить свою выборку (может все-таки удастся найти следы второй выборки) и разбить ее на две. У меня это получилось, легко, так как можно было достать данные об исходной заготовке.

б) заняться очисткой выборки. Для это существует метод стратификации. О нем пока ничего не знаю =).

Гистограмма с провалом

Как выломанный забор. Форма такой гистограммы близка к нормальному распределению, но присутствует интервал с меньшей частотой по сравнению с соседними. Такое может получиться,

а) когда ширина интервала не кратна единице измерения, или

б) когда неправильно сняты показания шкалы (тут уж, наверное, ничего не поделаешь).

Распределение с изолированным пиком.

Около обычного распределения появляется изолированный пик.
Такая форма образуется также при «загрязнении» выборки данными из другого распределения. Это может происходить из-за

а) ошибок при измерении,

б) нарушения управляемости процессом,

в) или, попросту, как в моем случае, из-за включения данных из другого процесса.

Вот и все!

А теперь разгадываем кроссворд и подписываемся на обновления блога!

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Рубрика: Анализ данных в Excel. Метки: , . Добавьте постоянную ссылку на эту страницу в закладки.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *