Как да определим вида на вероятностното разпределение за данни

Data Analysis in R by Dustin Tran (Ноември 2024)

Data Analysis in R by Dustin Tran (Ноември 2024)

Съдържание:

Anonim

Когато сте събрали данни за вашата система или процес, следващата стъпка е да определите какъв тип разпределение на вероятностите имате. Видовете разпределения на вероятностите са: дискретна, универсална, Бернули, биномна, отрицателна биноминална, Поасон, геометрична, непрекъсната еднородна, нормална (крива на звънеца), експоненциална, гама и бета разпределения. Съкращаването дори на няколко от списъка с възможности прави определянето, което е най-близката R квадратна стойност, много по-бързо.

Елементи, от които се нуждаете

  • Графичен софтуер

  • Средства за изчисляване на R квадратна стойност (най-подходящ анализ)

Начертайте данните за визуално представяне на типа данни.

Една от първите стъпки за определяне на това, каква е разпределението на данните - и следователно е уравнението, за да се моделират данните - е да се изключи това, което не може да бъде. • Ако има някакви пикове в набора от данни, то не може да бъде дискретно равномерно разпределение. • Ако данните имат повече от един пик, това не е Поасон или бином. • Ако има единична крива, няма вторични върхове и има бавен наклон от всяка страна, това може да е Poisson или гама разпределение. Но това не може да бъде дискретно равномерно разпределение. • Ако данните са равномерно разпределени и е без изкривяване към едната страна, е безопасно да се изключи гама или разпределение по Weibull. • Ако функцията има равномерно разпределение или пик в средата на графично представените резултати, това не е геометрично разпределение или експоненциално разпределение. • Ако възникването на един фактор варира в зависимост от променливата на околната среда, то вероятно не е разпределение на Поасон.

След като степента на разпределение на вероятностите се стесни, направете R квадратен анализ на всеки възможен тип разпределение на вероятностите. Най-вероятно е тази с най-високата R квадратна стойност.

Елиминирайте една точка за данни за извънредно положение. След това преизчислете R на квадрат. Ако един и същ тип разпределение на вероятности се появи като най-близко съвпадение, тогава има голяма увереност, че това е правилното разпределение на вероятностите, което да се използва за набора от данни.

Съвети

  • Ако данните показват множество пикове с широк разпръскване, възможно е два отделни процеса да се провеждат или продуктът, от който се вземат проби, да се смеси. Вземете данните и ги преразгледайте.

Внимание

Потвърдете уравненията, генерирани за по-късни набори от данни, за да потвърдите, че все още е точна за набора от данни. Възможно е факторите на околната среда и отклонението на процесите да доведат до неточност на сегашните уравнения и модели.