Štatistický model: podstata metódy, konštrukcia a analýza

Obsah

Všeobecná projekcia
Vzorec
Úvod
Formálna definícia
Nastaviť
Napríklad
Všeobecné poznámky
Veľkosť Projekcie
Vnorené modely
Porovnanie modelov
Myšlienka Konishi a Kitagawa

Štatistický model je matematická projekcia, ktorá stelesňuje súbor rôznych predpokladov o generovaní niektorých vzorových údajov. , tento výraz je často prezentovaný vo výrazne idealizovanej podobe.

Predpoklady vyjadrené v štatistickom modeli ukazujú množinu rozdelenia pravdepodobnosti. Mnohé z nich, ako je naznačené, správne približujú distribúciu, z ktorej je vybraný určitý súbor informácií. Rozdelenia pravdepodobnosti vlastné štatistickým modelom sú to, čo odlišuje projekciu od iných matematických modifikácií.

Všeobecná projekcia

Matematický model je opis systému používajúceho určité pojmy a jazyk. Uplatňujú sa v prírodných vedách (ako je fyzika, biológia, veda o Zemi, chémia) a inžinierskych disciplínach (ako je informatika, elektrotechnika), ako aj v spoločenských vedách (ako je ekonómia, psychológia, sociológia, politológia).

Model môže pomôcť vysvetliť systém a študovať vplyv rôznych komponentov, ako aj predpovedať správanie.

Matematické modely môžu mať rôzne podoby, vrátane dynamických systémov, štatistických projekcií, diferenciálnych rovníc alebo herno-teoretických parametrov. Tieto a ďalšie typy sa môžu prekrývať a tento model obsahuje mnoho abstraktných štruktúr. Matematické projekcie môžu vo všeobecnosti obsahovať logické komponenty. V mnohých prípadoch kvalita vedeckej oblasti závisí od toho, ako dobre matematické modely vyvinuté z teoretickej stránky súhlasia s výsledkami opakovaných experimentov. Nedostatok zhody medzi teoretickými procesmi a experimentálnymi meraniami často vedie k dôležitému pokroku pri vývoji pokročilejších teórií.

Vo fyzikálnych vedách obsahuje tradičný matematický model veľké množstvo nasledujúcich prvkov:

Riadiace rovnice.
Ďalšie submodely.
Definícia rovníc.
Základné rovnice.
Predpoklady a obmedzenia.
Počiatočné a okrajové podmienky.
Klasické obmedzenia a kinematické rovnice.

Vzorec

Štatistický model je zvyčajne definovaný matematickými rovnicami, ktoré kombinujú jednu alebo viac náhodných premenných a prípadne ďalšie prirodzene sa vyskytujúce premenné. Podobne sa projekcia považuje za "formálny koncepčný koncept".

Všetky testy štatistických hypotéz a štatistické odhady sa získavajú z matematických modelov.

Úvod

Neformálne možno štatistický model považovať za predpoklad (alebo súbor predpokladov) s určitou vlastnosťou: umožňuje vypočítať pravdepodobnosť akejkoľvek udalosti. Ako príklad môžeme zvážiť pár obyčajných šesťuholníkových kociek. Je potrebné študovať dva rôzne štatistické predpoklady o kosti.

Prvý predpoklad je nasledovný:

Pre každú z kociek je pravdepodobnosť, že jedno z čísel vypadne (1, 2, 3, 4, 5, a 6) je: 1/6.

Z tohto predpokladu môžeme vypočítať pravdepodobnosť oboch kociek: 1: 1/6×1/6=1/36.

Všeobecnejšie je možné vypočítať pravdepodobnosť akejkoľvek udalosti. Malo by sa však chápať, že nie je možné vypočítať pravdepodobnosť akejkoľvek inej netriviálnej udalosti.

Iba prvé stanovisko zhromažďuje štatistický matematický model: vzhľadom na skutočnosť, že iba s jedným predpokladom je možné určiť pravdepodobnosť každej akcie.

Vo vyššie uvedenej vzorke s počiatočným povolením je ľahké určiť možnosť udalosti. S niektorými ďalšími príkladmi môže byť výpočet zložitý alebo dokonca nereálny (napríklad môže vyžadovať mnoho rokov výpočtov). Pre osobu, ktorá zostavuje model štatistickej analýzy, sa takáto zložitosť považuje za neprijateľnú: implementácia výpočtov by nemala byť v skutočnosti neuskutočniteľná a teoreticky nemožná.

Formálna definícia

Z matematického hľadiska sa štatistický model systému zvyčajne považuje za pár (S, P), kde S je množina možných pozorovaní, to znamená vzorový priestor, a P je množina rozdelenia pravdepodobnosti na S.

Intuícia tejto definície je nasledovná. Predpokladá sa, že existuje" skutočné " rozdelenie pravdepodobnosti spôsobené procesom, ktorý generuje určité údaje.

Nastaviť

Je to on, kto určuje parametre modelu. Parametrizácia zvyčajne vyžaduje, aby rôzne hodnoty viedli k rôznym distribúciám,. teda.

musí držať (inými slovami, musí byť injekčný). Parametrizácia, ktorá spĺňa požiadavku, sa nazýva identifikovateľná.

Napríklad

Predpokladajme, že existuje určitý počet školákov, ktorí majú rôzny vek. Rast dieťaťa bude stochasticky súvisieť s rokom narodenia: napríklad, keď má študent 7 rokov, ovplyvňuje to pravdepodobnosť rastu, iba ak bude osoba nad 3 centimetre.

Tento prístup môžete formalizovať do lineárneho regresného modelu, napríklad týmto spôsobom: výška i = b 0 + b 1agei + εi, kde b 0 je priesečník, b 1 je parameter, ktorým sa vek vynásobí pri monitorovaní nadmorskej výšky. Toto je termín chyby. To znamená, že predpokladá, že rast je predpovedaný vekom s určitou chybou.

Platný formulár musí spĺňať všetky informačné body. Priamočiary smer (úroveň i = b 0 + b 1agei) teda nie je schopný byť rovnicou pre dátový model — ak jasne nespĺňa absolútne všetky body. To znamená, že bez výnimky všetky informácie ležia bezchybne na linke. Chyba účastníkaεmusím byť zapísaný do rovnosti, aby forma zodpovedala absolútne všetkým informačným bodom.

Ak chcete urobiť štatistický záver, musíte najprv vziať nejaké rozdelenia pravdepodobnosti pre ε i. Môžeme napríklad predpokladať, že distribúcie ε Mám Gaussovu formu s nulovým priemerom. V tomto prípade bude mať model 3 parametre: b 0, b 1 a rozptyl Gaussovho rozdelenia.

Model môžete formálne špecifikovať vo forme (S, P) .

V tomto príklade je model definovaný zadaním s, a preto môžete urobiť niekoľko predpokladov týkajúcich sa P. Existujú dve možnosti:

Tento rast možno aproximovať lineárnou funkciou veku;

Že chyby v aproximácii sú distribuované ako vo vnútri Gaussian.

Všeobecné poznámky

Štatistické parametre modelov sú špeciálnou triedou matematickej projekcie. Čo odlišuje jeden druh od druhého? Je to tak, že štatistický model nie je deterministický. Na rozdiel od matematických rovníc teda určité premenné nemajú určité hodnoty, ale majú rozdelenie možností. To znamená, že jednotlivé premenné sa považujú za stochastické. V príklade uvedenom skôr ε je stochastická premenná. Bez nej by bola projekcia deterministická.

Konštrukcie štatistických modelov sa často používajú, aj keď sa materiálový proces považuje za deterministický. Napríklad hádzanie mincí je v zásade predurčujúcou akciou. Vo väčšine prípadov je však modelovaný ako stochastický (prostredníctvom Bernoulliho procesu).

Podľa Konishi a Kitagawa existujú tri ciele pre štatistický model:

Predpoveď.
Ťažba informácií.
Popis stochastických štruktúr.

Veľkosť Projekcie

Predpokladajme, že existuje model štatistického prognózovania,

Model sa nazýva parametrický, ak o má konečný rozmer. V riešení je potrebné napísať, že

kde k je kladné celé číslo (R označuje akékoľvek reálne čísla). Tu k sa nazýva rozmer modelu.

Ako príklad môžeme predpokladať, že všetky údaje pochádzajú z jednorozmernej gaussovskej distribúcie:

V tomto príklade je rozmer k 2.

A ako ďalší príklad môžeme predpokladať, že údaje pozostávajú z bodov (x, y), o ktorých sa predpokladá, že sú rozdelené v priamke s gaussovskými zvyškami (s nulovým priemerom). Potom sa rozmer štatistického ekonomického modelu rovná 3: priesečník priamky, jej sklon a rozptyl rozdelenia zvyškov. Malo by treba poznamenať, že v geometrii má priamka Rozmer 1.

Aj keď je vyššie uvedená hodnota formálne jediným parametrom, ktorý má rozmer k, niekedy sa považuje za obsahujúcu k samostatné hodnoty. Napríklad s jednorozmerným Gaussovým rozdelením O je jediný parameter s veľkosťou 2, ale niekedy sa považuje za parameter obsahujúci dva samostatné parametre-priemer a smerodajná odchýlka.

Štatistický model procesu je neparametrický, ak je množina hodnôt o nekonečne rozmerná. A je tiež poloparametrický, ak má konečné aj nekonečné dimenzionálne parametre. Formálne, ak k je rozmer O A n je počet vzoriek, poloparametrické a neparametrické modely majú

potom je model poloparametrický. V opačnom prípade je projekcia neparametrická.

Parametrické modely sú najčastejšie používané štatistické údaje. Pokiaľ ide o poloparametrické a neparametrické projekcie, Sir David Cox uviedol:

"Spravidla znamenajú najmenší počet hypotéz o štruktúre a tvare distribúcie, ale zahŕňajú silné teórie o nezávislosti".

Vnorené modely

Nezamieňajte ich s viacúrovňovými projekciami.

Vnorené sú dva štatistické modely, ak je možné prvý transformovať na druhý zavedením obmedzení parametrov prvého. Napríklad množina všetkých gaussovských distribúcií má vnorenú množinu distribúcií s nulovým priemerom:

To znamená, že musíte obmedziť priemer v množine všetkých gaussovských distribúcií, aby ste získali distribúcie s nulovým priemerom. Ako druhý príklad kvadratický model y = b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ²) má v sebe zabudovaný lineárny model y = b₀ + b₁x + ε, ε ~ N (0, σ²)- to znamená parameter b₂ je 0.

V oboch týchto príkladoch má prvý model vyšší rozmer ako druhý model. Stáva sa to často, ale nie vždy. Ako ďalší príklad môžeme uviesť množinu Gaussovských distribúcií s pozitívnym priemerom, ktorý má rozmer 2.

Porovnanie modelov

Predpokladá sa, že existuje" skutočné " rozdelenie pravdepodobnosti, ktoré je základom pozorovaných údajov indukovaných procesom, ktorý ich generoval.

a modely je možné navzájom porovnávať aj pomocou prieskumnej analýzy alebo potvrdzujúcej. Vo výskumnej analýze sú formulované rôzne modely a hodnotí sa, ako dobre každý z nich popisuje údaje. V potvrdzujúcej analýze sa predtým formulovaná hypotéza porovnáva s pôvodnou. Medzi spoločné kritériá patria P², Bayesovský faktor a relatívna pravdepodobnosť.

Myšlienka Konishi a Kitagawa

"Väčšinu problémov štatistického matematického modelu možno považovať za problémy súvisiace s prognózovaním. Zvyčajne sú formulované ako porovnania viacerých faktorov".

Okrem toho, Sir David Cox povedal:" ako preklad z témy, problém v štatistickom modeli je najčastejšie najviac dôležitá časť analýza".