Jak zjistit typ distribuce pravděpodobnosti pro data

Když shromažďujete data o vašem systému nebo procesu, dalším krokem je určit, jaký typ distribuce pravděpodobnosti má. Typy rozdělení pravděpodobnosti jsou: diskrétní jednotná, Bernoulliho, binomická, negativní binomická, Poissonova, geometrická, kontinuální jednotná, normální (zvlněná křivka), exponenciální, gamma a beta distribuce. Zúžením dokonce několika ze seznamu možností je mnohem rychlejší určovat, která hodnota je nejbližší.

Položky, které budete potřebovat

Grafický software
Způsob výpočtu hodnoty čtverce R (nejlépe hodnocená analýza)

Nakreslete data pro vizuální reprezentaci datového typu.

Jedním z prvních kroků k určení toho, jaká distribuce dat má - a tedy i typ rovnice, který je používá k modelování dat - je vyloučit, co to nemůže být. • Pokud v datovém souboru existují nějaké špičky, nesmí to být diskrétní jednotné rozdělení. • Pokud má data více než jeden vrchol, není to Poisson nebo binomický. • Pokud má jednu křivku, žádné sekundární špičky a má pomalý sklon na každé straně, může to být Poisson nebo distribuce gama. Ale to nemůže být diskrétní rovnoměrné rozložení. • Jsou-li data rovnoměrně rozložena a bez zkosení směrem k jedné straně, je bezpečné vyloučit distribuci gama nebo Weibullu. • Pokud má funkce rovnoměrné rozložení nebo špičku ve středu grafických výsledků, není to geometrická distribuce nebo exponenciální distribuce. • Pokud se výskyt faktoru liší podle proměnné prostředí, nejspíše to není rozdělení Poissonu.

Poté, co byl typ distribuce pravděpodobnosti zúžen, proveďte analýzu R na každé úrovni pravděpodobného rozdělení. Nejpravděpodobnější je ten s nejvyšší hodnotou ve tvaru R.

Odstraňte jeden vzdálenější datový bod. Pak přepočítat R na čtverec. Pokud se stejný typ distribuce pravděpodobnosti vyskytuje jako nejbližší shoda, pak existuje velká jistota, že toto je správné rozdělení pravděpodobnosti, které se má použít pro datovou sadu.

Tipy

Pokud data vykazují rozmanité špičky širokého rozptylu, je možné, že probíhají dva samostatné procesy nebo je vzorek produktu smíšený. Získat data znovu a znovu analyzovat.

Varování

Ověřte rovnice generované proti novějším datovým sadám, abyste potvrdili, že je pro datový soubor stále přesný. Je možné, že environmentální faktory a odchylky procesu způsobily nesprávné proudové rovnice a modely.