Jak zjistit typ distribuce pravděpodobnosti pro data

Obsah:

Anonim

Když shromažďujete data o vašem systému nebo procesu, dalším krokem je určit, jaký typ distribuce pravděpodobnosti má. Typy rozdělení pravděpodobnosti jsou: diskrétní jednotná, Bernoulliho, binomická, negativní binomická, Poissonova, geometrická, kontinuální jednotná, normální (zvlněná křivka), exponenciální, gamma a beta distribuce. Zúžením dokonce několika ze seznamu možností je mnohem rychlejší určovat, která hodnota je nejbližší.

Položky, které budete potřebovat

  • Grafický software

  • Způsob výpočtu hodnoty čtverce R (nejlépe hodnocená analýza)

Nakreslete data pro vizuální reprezentaci datového typu.

Jedním z prvních kroků k určení toho, jaká distribuce dat má - a tedy i typ rovnice, který je používá k modelování dat - je vyloučit, co to nemůže být. • Pokud v datovém souboru existují nějaké špičky, nesmí to být diskrétní jednotné rozdělení. • Pokud má data více než jeden vrchol, není to Poisson nebo binomický. • Pokud má jednu křivku, žádné sekundární špičky a má pomalý sklon na každé straně, může to být Poisson nebo distribuce gama. Ale to nemůže být diskrétní rovnoměrné rozložení. • Jsou-li data rovnoměrně rozložena a bez zkosení směrem k jedné straně, je bezpečné vyloučit distribuci gama nebo Weibullu. • Pokud má funkce rovnoměrné rozložení nebo špičku ve středu grafických výsledků, není to geometrická distribuce nebo exponenciální distribuce. • Pokud se výskyt faktoru liší podle proměnné prostředí, nejspíše to není rozdělení Poissonu.

Poté, co byl typ distribuce pravděpodobnosti zúžen, proveďte analýzu R na každé úrovni pravděpodobného rozdělení. Nejpravděpodobnější je ten s nejvyšší hodnotou ve tvaru R.

Odstraňte jeden vzdálenější datový bod. Pak přepočítat R na čtverec. Pokud se stejný typ distribuce pravděpodobnosti vyskytuje jako nejbližší shoda, pak existuje velká jistota, že toto je správné rozdělení pravděpodobnosti, které se má použít pro datovou sadu.

Tipy

  • Pokud data vykazují rozmanité špičky širokého rozptylu, je možné, že probíhají dva samostatné procesy nebo je vzorek produktu smíšený. Získat data znovu a znovu analyzovat.

Varování

Ověřte rovnice generované proti novějším datovým sadám, abyste potvrdili, že je pro datový soubor stále přesný. Je možné, že environmentální faktory a odchylky procesu způsobily nesprávné proudové rovnice a modely.