Statistický model: podstata metody, konstrukce a analýza

Statistický model je matematická projekce, která ztělesňuje soubor různých předpokladů týkajících se generování některých vzorových dat. Tento termín je často prezentován ve výrazně idealizované podobě.

Předpoklady vyjádřené ve statistickém modelu ukazují sadu pravděpodobnostních distribucí. Mnoho z nich, jak je naznačeno, správně aproximuje distribuci, ze které je vybrán určitý soubor informací. Rozdělení pravděpodobnosti specifické pro statistické modely je to, co odlišuje projekci od jiných matematických modifikací.

Obecná projekce

statistické modely procesů

Matematický model je popis systému pomocí určitých konceptů a jazyka. Platí v přírodních vědách (jako je fyzika, biologie, věda o Zemi, chemie) a inženýrských oborech (jako je informatika, Elektrotechnika) a také v sociálních vědách (jako je ekonomie, psychologie, sociologie, politologie).

Model může pomoci vysvětlit systém a prozkoumat dopad různých složek a také předpovědět chování.

Matematické modely mohou mít různé formy, včetně dynamických systémů, statistických projekcí, diferenciálních rovnic nebo herních teoretických parametrů. Tyto a další typy se mohou protínat, přičemž daný model zahrnuje mnoho abstraktních struktur. Obecně mohou matematické projekce zahrnovat i logické komponenty. V mnoha případech závisí kvalita vědeckého oboru na tom, jak dobře jsou matematické modely vyvinuté z teoretické stránky v souladu s výsledky opakovatelných experimentů. Nedostatek shody mezi teoretickými procesy a experimentálními měřeními často vede k důležitým pokrokům při vývoji lepších teorií.

Ve fyzikálních vědách obsahuje tradiční matematický model velké množství následujících prvků:

  • Řídicí rovnice.
  • Další submodely.
  • Definice rovnic.
  • Konstituční rovnice.
  • Předpoklady a omezení.
  • Počáteční a okrajové podmínky.
  • Klasická omezení a kinematické rovnice.

Formule

Statistický model je obvykle dán matematickými rovnicemi, které kombinují jednu nebo více náhodných proměnných a možná i další přirozeně vyplývající proměnné. Podobně je projekce považována za "formální koncept konceptu".

Všechny statistické testy hypotéz a statistické odhady jsou získány z matematických modelů.

Úvod

statistické matematické modely

Neformálně lze statistický model považovat za předpoklad (nebo soubor předpokladů) s určitou vlastností: umožňuje vypočítat pravděpodobnost jakékoli události. Jako příklad lze zvážit několik běžných šestihranných kostek. Je třeba prozkoumat dva různé statistické předpoklady o kosti.

První předpoklad je následující:

U každé z kostek je pravděpodobnost, že jeden z čísel vypadne (1, 2, 3, 4, 5, a 6) je: 1/6.

Z tohoto předpokladu lze vypočítat pravděpodobnost obou kostek: 1: 1/6×1/6=1/36.

Obecněji lze vypočítat pravděpodobnost jakékoli události. Je však třeba pochopit, že není možné vypočítat pravděpodobnost jiné netriviální události.

Pouze první názor shromažďuje statistický matematický model: vzhledem k tomu, že pravděpodobnost každé akce lze určit pouze s jedním předpokladem.

Ve výše uvedeném vzorku s počátečním povolením je snadné určit možnost události. U některých dalších příkladů může být výpočet obtížný nebo dokonce nereálný (například to může vyžadovat mnoho let výpočtu). Pro osobu, která tvoří model statistické analýzy, je taková složitost považována za nepřijatelnou: provádění výpočtů by nemělo být ve skutečnosti proveditelné a teoreticky nemožné.

Formální definice

Matematicky je statistický model systému obecně považován za pár (S, P), kde S je sada možných pozorování, tj. vzorkovací prostor, a P je sada rozdělení pravděpodobnosti na S.

Intuice této definice je následující. Předpokládá se, že existuje "skutečné" rozdělení pravděpodobnosti způsobené procesem, který generuje určitá data.

Sada

Je to on, kdo určuje parametry modelu. Parametrizace obecně vyžaduje, aby různé hodnoty vedly k vynikajícím distribucím, t. e.

Důsledek modelu

musí se držet (jinými slovy, musí být injektivní). Parametrizace, která splňuje požadavek, se nazývá identifikovatelná.

Příklad

Graf statistik

Předpokládejme, že existuje určitý počet školáků, kteří mají různý věk. Výška dítěte bude stochasticky spojena s rokem narození: například když je studentovi 7 let, ovlivňuje to pravděpodobnost růstu, pouze tak, že osoba bude vyšší než 3 centimetry.

Je možné formalizovat tento přístup do modelu přímočaré regrese, například takto: výška i = b 0 + b 1agei + εi, kde b 0 je průsečík, b 1 je parametr, kterým se věk vynásobí, když se získá monitorování nadmořské výšky. Toto je termín chyby. To znamená, že předpokládá, že růst je předpovídán věkem s určitou chybou.

Přípustná forma je povinna reagovat na všechny body informací. Přímý směr (úroveň i = b 0 + b 1agei) tedy není schopen být rovnicí pro datový model-pokud jasně neodpovídá absolutně všem bodům. To znamená, že všechny informace bez výjimky leží bezchybně na lince. Účastník chybyεjsem povinen být zaveden do rovnosti, aby formulář odpovídal absolutně všem bodům informací.

Chcete-li učinit statistický závěr, musíte nejprve přijmout některá rozdělení pravděpodobnosti pro ε i. Lze například předpokládat, že distribuce ε I mají Gaussovu formu s nulovým průměrem. V tomto případě bude mít Model 3 parametry: b 0, b 1 a rozptyl Gaussovy distribuce.

Je možné formálně určit model ve formě (S, P).

V tomto příkladu je model definován uvedením s, a proto lze provést některé předpoklady relevantní pro P. Existují dvě možnosti:

Tato výška může být aproximována lineární funkcí věku;

Že chyby v aproximaci jsou distribuovány jako uvnitř Gaussova.

Obecné poznámky

Statistické parametry modelů jsou speciální třídou matematické projekce. Co odlišuje jeden druh od druhého? Statistický model je tedy nedeterministický. V něm tedy na rozdíl od matematických rovnic určité proměnné nemají určité hodnoty, ale místo toho mají rozdělení schopností. To znamená, že samostatný proměnné jsou považovány za stochastické. V předchozím příkladu ε je stochastická proměnná. Bez ní by byla projekce deterministická.

Konstrukce statistického modelu se často používají, i když je hmotný proces považován za deterministický. Například házení mincí je v zásadě předurčující akcí. To je však ve většině případů modelováno jako stochastické (prostřednictvím Bernoulliho procesu).

Podle Konishi a Kitagawa existují tři cíle pro statistický model:

  • Předpověď.
  • Těžba informací.
  • Popis stochastických struktur.

Velikost projekce

Předpokládejme, že existuje statistický Predikční model,

Model se nazývá parametrický, pokud o má konečnou dimenzi. V řešení je třeba napsat, že

Rozdíl modelu

kde K je kladné celé číslo (R označuje všechna reálná čísla). Zde se k nazývá rozměr modelu.

Jako příklad lze předpokládat, že všechna data pocházejí z jednorozměrné Gaussovské distribuce:

Statistický vzorec

V tomto příkladu je rozměr k 2.

A jako další příklad lze předpokládat, že data se skládají z bodů( x, y), které mají být distribuovány v přímce s gaussovými zbytky (s nulovým průměrem). Rozměr statistického ekonomického modelu je pak 3: průsečík čáry, její sklon a rozptyl distribuce zbytků. Nutno všimnout si, že v geometrii má přímka Rozměr 1.

Ačkoli výše uvedená hodnota je formálně jediným parametrem, který má rozměr k, je někdy považován za obsahující k jednotlivých hodnot. Například s jednorozměrným gaussovým rozdělením, Ó je jediný parametr s velikostí 2, ale někdy je považován za obsahující dva samostatné parametry-průměr a směrodatnou odchylku.

Statistický procesní model je neparametrický, pokud je sada hodnot o Nekonečno. A je také semiparametrický, pokud má jak konečné, tak nekonečné dimenzionální parametry. Formálně, pokud k je rozměr o a n je počet vzorků, poloparametrické a neparametrické modely mají

Vzorec modelu

model je pak poloparametrický. Jinak je projekce neparametrická.

Parametrické modely jsou nejčastěji používanými statistickými údaji. Pokud jde o poloparametrické a neparametrické projekce, Sir David Cox uvedl:

"Obecně znamenají nejmenší počet hypotéz o struktuře a formě distribuce, zahrnují však silné teorie o soběstačnosti".

Vnořené modely

Nezaměňujte je s víceúrovňovými projekcemi.

Dva statistické modely jsou vnořené, pokud lze první převést na druhý uložením omezení parametrů prvního. Například množina všech gaussovských distribucí má vnořenou sadu distribucí s nulovým průměrem:

To znamená, že musíte omezit průměr v množině všech gaussovských distribucí, abyste získali distribuce s nulovým průměrem. Jako druhý příklad kvadratický model y = b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ2) má do něj vnořený lineární model y = b0 + b1x + ε, ε ~ N (0, σ2)- tj. parametr b2 rovná se 0.

V obou těchto příkladech má první model vyšší rozměr než druhý model. To je běžné, ale ne vždy se to stane. Jako další příklad lze uvést mnoho Gaussových distribucí s kladným průměrem, který má rozměr 2.

Porovnání modelů

statistický model

Předpokládá se, že existuje "skutečné" rozdělení pravděpodobnosti za pozorovanými daty indukovanými procesem, který je generoval.

Modely lze také navzájem porovnávat pomocí průzkumných analýz nebo potvrzujících. Ve výzkumné analýze jsou formulovány různé modely a vyhodnocuje se, jak dobře každý popisuje data. V potvrzovací analýze je dříve formulovaná hypotéza porovnána s původní. Mezi běžná kritéria patří R2, Bayesovský faktor a relativní pravděpodobnost.

Myšlenka Konishi a Kitagawa

"Většinu problémů statistického matematického modelu lze považovat za otázky související s predikcí. Obvykle jsou formulovány jako srovnání několika faktorů".

Kromě toho Sir David Cox řekl: "jako překlad z tématu je problém ve statistickém modelu nejčastěji nejvíce důležitou součástí analýzy».

Články na téma