Metode de analiză cantitativă: Estimarea intervalelor de încredere. Intervalele de încredere

Inteligența constă nu numai în cunoaștere, ci și în capacitatea de a aplica cunoștințele în practică. (Aristotel)

Intervalele de încredere

Prezentare generală

Luând un eșantion din populație, obținem o estimare punctuală a parametrului de interes și calculăm eroarea standard pentru a indica precizia estimării.

Cu toate acestea, pentru majoritatea cazurilor, eroarea standard ca atare nu este acceptabilă. Este mult mai util să combinați această măsură de precizie cu o estimare a intervalului pentru parametrul populației.

Acest lucru se poate face prin utilizarea cunoștințelor distribuției teoretice de probabilitate a statisticii (parametrului) eșantionului pentru a calcula un interval de încredere (CI - Intervalul de încredere, CI - Intervalul de încredere) pentru parametru.

În general, un interval de încredere extinde estimările în ambele direcții cu un anumit multiplu al erorii standard (a unui parametru dat); cele două valori (limitele de încredere) care definesc intervalul sunt de obicei separate prin virgulă și cuprinse între paranteze.

Interval de încredere pentru medie

Folosind distribuția normală

Media eșantionului este distribuită în mod normal dacă dimensiunea eșantionului este mare, astfel încât să puteți aplica cunoștințele despre distribuția normală atunci când luați în considerare media eșantionului.

Mai exact, 95% din distribuția mediilor eșantionului se află în 1,96 deviații standard (SD) față de media populației.

Când avem un singur eșantion, îl numim eroarea standard a mediei (SEM) și calculăm intervalul de încredere de 95% pentru medie după cum urmează:

Dacă repetăm ​​acest experiment de mai multe ori, intervalul va conține media reală a populației în 95% din timp.

De obicei, acesta este un interval de încredere, cum ar fi intervalul de valori în care se află media reală a populației (media generală) cu un nivel de încredere de 95%.

Deși nu este în întregime riguros (media populației este o valoare fixă ​​și, prin urmare, nu poate avea o probabilitate atașată) să interpretăm un interval de încredere în acest fel, este conceptual mai ușor de înțeles.

Utilizare t- distributie

Puteți folosi distribuția normală dacă cunoașteți valoarea varianței în populație. De asemenea, atunci când dimensiunea eșantionului este mică, media eșantionului urmează o distribuție normală dacă datele populației subiacente sunt distribuite în mod normal.

Dacă datele care stau la baza populației nu sunt distribuite în mod normal și/sau varianța generală (varianța în populație) este necunoscută, media eșantionului se supune Distribuția t a studentului.

Calculăm intervalul de încredere de 95% pentru media populației generale după cum urmează:

Unde este punctul procentual (percentila) t- Distribuția t a lui Student cu (n-1) grade de libertate, care dă o probabilitate cu două fețe de 0,05.

În general, oferă o gamă mai largă decât atunci când se utilizează distribuția normală, deoarece ia în considerare incertitudinea suplimentară care este introdusă la estimarea abaterea standard populației și/sau datorită dimensiunii reduse a eșantionului.

Când dimensiunea eșantionului este mare (de ordinul a 100 sau mai mult), diferența dintre cele două distribuții ( t-Studentși normal) este nesemnificativă. Cu toate acestea, ele folosesc întotdeauna t- distribuția la calcularea intervalelor de încredere, chiar dacă dimensiunea eșantionului este mare.

De obicei este raportat IC de 95%. Alte intervale de încredere pot fi calculate, cum ar fi IC 99% pentru medie.

În loc de produsul erorii standard și valoarea tabelului t- distribuție, care corespunde unei probabilități cu două fețe de 0,05, înmulțiți-o (eroarea standard) cu valoarea care corespunde unei probabilități cu două fețe de 0,01. Acesta este un interval de încredere mai larg decât intervalul de încredere de 95%, deoarece reflectă o încredere crescută că intervalul include de fapt media populației.

Interval de încredere pentru proporție

Distribuția de eșantionare a proporțiilor are o distribuție binomială. Cu toate acestea, dacă dimensiunea eșantionului n este rezonabil de mare, atunci distribuția de eșantionare a proporției este aproximativ normală cu media .

Evaluăm prin raport selectiv p=r/n(Unde r- numărul de indivizi din eșantion cu cei care ne interesează trăsături caracteristice), iar eroarea standard este estimată:

Intervalul de încredere de 95% pentru proporție este estimat:

Dacă dimensiunea eșantionului este mică (de obicei când n.p. sau n(1-p) Mai puțin 5 ), atunci este necesar să se utilizeze distribuția binomială pentru a calcula intervalele de încredere precise.

Rețineți că dacă p exprimat ca procent, atunci (1-p)înlocuit cu (100-p).

Interpretarea intervalelor de încredere

Când interpretăm un interval de încredere, ne interesează următoarele întrebări:

Cât de larg este intervalul de încredere?

Un interval larg de încredere indică faptul că estimarea este imprecisă; îngust indică o estimare precisă.

Lățimea intervalului de încredere depinde de mărimea erorii standard, care, la rândul său, depinde de dimensiunea eșantionului și, atunci când se ia în considerare o variabilă numerică, variabilitatea datelor produce intervale de încredere mai largi decât studiile unui set mare de date cu puține variabile. .

CI include valori de interes deosebit?

Puteți verifica dacă valoarea probabilă pentru un parametru de populație se încadrează în intervalul de încredere. Dacă da, rezultatele sunt în concordanță cu această valoare probabilă. Dacă nu, atunci este puțin probabil (pentru un interval de încredere de 95% șansa este de aproape 5%) ca parametrul să aibă acea valoare.

În subsecțiunile anterioare am luat în considerare problema estimării unui parametru necunoscut O un număr. Aceasta se numește estimare „punctară”. Într-o serie de sarcini, nu trebuie doar să găsiți parametrul O potrivit valoare numerică, dar și pentru a evalua acuratețea și fiabilitatea acestuia. Trebuie să știți la ce erori poate duce la înlocuirea unui parametru O estimarea sa punctuală Oși cu ce grad de încredere ne putem aștepta ca aceste erori să nu depășească limitele cunoscute?

Problemele de acest fel sunt deosebit de relevante cu un număr mic de observații, când estimare punctuală si in este în mare parte aleatorie și înlocuirea aproximativă a lui a cu a poate duce la erori grave.

Pentru a oferi o idee despre acuratețea și fiabilitatea estimării O,

În statistica matematică se folosesc așa-numitele intervale de încredere și probabilități de încredere.

Lăsați pentru parametru O estimare imparțială obținută din experiență O. Dorim să estimăm eroarea posibilă în acest caz. Să atribuim o probabilitate p suficient de mare (de exemplu, p = 0,9, 0,95 sau 0,99) astfel încât un eveniment cu probabilitatea p poate fi considerat practic de încredere și să găsim o valoare s pentru care

Atunci intervalul este practic valori posibile eroare care apare la înlocuire O pe O, va fi ± s; Erorile mari în valoare absolută vor apărea numai cu o probabilitate mică a = 1 - p. Să rescriem (14.3.1) ca:

Egalitatea (14.3.2) înseamnă că cu probabilitatea p valoarea necunoscută a parametrului O se încadrează în interval

Este necesar să rețineți o circumstanță. Anterior, am luat în considerare în mod repetat probabilitatea ca o variabilă aleatoare să se încadreze într-un interval nealeatoriu dat. Aici situația este alta: amploarea O nu este aleatoriu, dar intervalul / p este aleatoriu. Poziția sa pe axa x este aleatorie, determinată de centrul său O; În general, lungimea intervalului 2s este de asemenea aleatorie, deoarece valoarea lui s este calculată, de regulă, din date experimentale. Prin urmare în în acest caz, ar fi mai bine să interpretăm valoarea p nu ca probabilitatea de a „lovi” un punct Oîn intervalul / p și ca probabilitatea ca un interval aleator / p să acopere punctul O(Fig. 14.3.1).

Orez. 14.3.1

Probabilitatea p este de obicei numită probabilitatea de încredere, și interval / p - interval de încredere. Limite de interval Dacă. a x =a- s și a 2 = a +și sunt chemați limitele de încredere.

Să dăm o altă interpretare conceptului de interval de încredere: acesta poate fi considerat ca un interval de valori ale parametrilor O, compatibile cu datele experimentale și necontrazicându-le. Într-adevăr, dacă suntem de acord să considerăm un eveniment cu probabilitatea a = 1-p practic imposibil, atunci acele valori ale parametrului a pentru care a - a> s trebuie recunoscute ca fiind contrazice ale datelor experimentale, iar cele pentru care |a - O a t na 2 .

Lăsați pentru parametru O există o estimare imparțială O. Dacă am cunoaște legea distribuției cantității O, sarcina de a găsi un interval de încredere ar fi foarte simplă: ar fi suficient să găsim o valoare s pentru care

Dificultatea este că legea distribuției estimărilor O depinde de legea de distribuție a cantității Xși, în consecință, asupra parametrilor săi necunoscuți (în special, asupra parametrului în sine O).

Pentru a ocoli această dificultate, puteți utiliza următoarea tehnică aproximativ aproximativă: înlocuiți parametrii necunoscuți din expresia pentru s cu estimările lor punctuale. Cu comparativ număr mare experimente n(aproximativ 20...30) această tehnică dă de obicei rezultate satisfăcătoare din punct de vedere al preciziei.

Ca exemplu, luați în considerare problema unui interval de încredere pentru așteptarea matematică.

Lasă-l să fie produs n X, ale căror caracteristici sunt așteptarea matematică T si varianta D- necunoscut. Pentru acești parametri s-au obținut următoarele estimări:

Este necesar să se construiască un interval de încredere / p corespunzător probabilității de încredere p pentru așteptarea matematică T cantități X.

Când rezolvăm această problemă, vom folosi faptul că cantitatea T reprezintă suma n variabile aleatoare independente distribuite identic Xh iar conform teoremei limitei centrale, pentru un suficient de mare n legea sa de distribuție este aproape de normal. În practică, chiar și cu un număr relativ mic de termeni (aproximativ 10...20), legea de distribuție a sumei poate fi considerată aproximativ normală. Vom presupune că valoarea T distribuite conform legii normale. Caracteristicile acestei legi - așteptarea matematică și, respectiv, varianța - sunt egale TŞi

(a se vedea capitolul 13 subsecțiunea 13.3). Să presupunem că valoarea D cunoaştem şi vom găsi o valoare Ep pentru care

Folosind formula (6.3.5) din capitolul 6, exprimăm probabilitatea din partea stângă a (14.3.5) prin funcția de distribuție normală

unde este abaterea standard a estimării T.

Din Ec.

găsiți valoarea lui Sp:

unde arg Ф* (х) este funcția inversă a lui Ф* (X), aceste. o astfel de valoare a argumentului pentru care funcția de distribuție normală este egală cu X.

Dispersia D, prin care se exprimă cantitatea O 1P, nu știm exact; ca valoare aproximativă, puteți utiliza estimarea D(14.3.4) și puneți aproximativ:

Astfel, problema construirii unui interval de încredere a fost aproximativ rezolvată, care este egal cu:

unde gp este determinat prin formula (14.3.7).

Pentru a evita interpolarea inversă în tabelele funcției Ф* (l) atunci când se calculează s p, este convenabil să se întocmească un tabel special (Tabelul 14.3.1), care oferă valorile cantității

in functie de r. Valoarea (p determină pentru legea normală numărul de abateri standard care trebuie trasate la dreapta și la stânga din centrul dispersiei, astfel încât probabilitatea de a ajunge în zona rezultată să fie egală cu p.

Prin valoarea lui 7 p, intervalul de încredere se exprimă astfel:

Tabelul 14.3.1

Exemplul 1. S-au efectuat 20 de experimente pe cantitate X; rezultatele sunt prezentate în tabel. 14.3.2.

Tabelul 14.3.2

Este necesar să se găsească o estimare din pentru așteptarea matematică a cantității Xși construiți un interval de încredere corespunzător probabilității de încredere p = 0,8.

Soluţie. Avem:

Alegând l: = 10 ca punct de referință, folosind a treia formulă (14.2.14) găsim estimarea nepărtinitoare D :

Conform tabelului 14.3.1 găsim

Limite de încredere:

Interval de încredere:

Valorile parametrilor T, situate în acest interval sunt compatibile cu datele experimentale date în tabel. 14.3.2.

Un interval de încredere pentru varianță poate fi construit într-un mod similar.

Lasă-l să fie produs n experimente independente asupra variabilă aleatoare X cu parametri necunoscuți atât pentru A cât și pentru dispersie D a fost obținută o estimare imparțială:

Este necesar să se construiască aproximativ un interval de încredere pentru varianță.

Din formula (14.3.11) este clar că cantitatea D reprezintă

cantitate n variabile aleatorii de forma . Aceste valori nu sunt

independent, deoarece oricare dintre ele include cantitatea T, dependent de toți ceilalți. Cu toate acestea, se poate demonstra că odată cu creșterea n legea de distribuție a sumei lor se apropie și ea de normal. Aproape la n= 20...30 poate fi deja considerat normal.

Să presupunem că așa este și să găsim caracteristicile acestei legi: așteptarea și dispersia matematică. De la evaluare D- nepărtinitoare, atunci M[D] = D.

Calculul variației D D este asociat cu calcule relativ complexe, așa că vă prezentăm expresia fără derivare:

unde q 4 este al patrulea moment central al mărimii X.

Pentru a utiliza această expresie, trebuie să înlocuiți valorile \u003d 4 și D(cel putin cele apropiate). În loc de D poți folosi evaluarea lui D.În principiu, al patrulea moment central poate fi înlocuit și cu o estimare, de exemplu, o valoare de forma:

dar o astfel de înlocuire va oferi o precizie extrem de scăzută, deoarece, în general, cu un număr limitat de experimente, momentele ordin înalt sunt determinate cu erori mari. Cu toate acestea, în practică se întâmplă adesea ca tipul de lege de distribuție a cantității X cunoscut dinainte: doar parametrii săi sunt necunoscuți. Apoi puteți încerca să exprimați μ 4 prin D.

Să luăm cel mai frecvent caz, când valoarea X distribuite conform legii normale. Apoi, al patrulea moment central al său este exprimat în termeni de dispersie (vezi Capitolul 6, subsecțiunea 6.2);

iar formula (14.3.12) dă sau

Înlocuirea necunoscutului în (14.3.14) D evaluarea lui D, obținem: de unde

Momentul μ 4 poate fi exprimat prin D de asemenea, în alte cazuri, când distribuirea valorii X nu este normal, dar aspectul ei este cunoscut. De exemplu, pentru legea densității uniforme (vezi capitolul 5) avem:

unde (a, P) este intervalul pe care este specificată legea.

Prin urmare,

Folosind formula (14.3.12) obținem: unde găsim aproximativ

În cazurile în care tipul legii de distribuție a mărimii 26 este necunoscut, atunci când se face o estimare aproximativă a valorii a/) se recomandă totuși folosirea formulei (14.3.16), cu excepția cazului în care există motive speciale pentru a crede că această lege este foarte diferit de cel normal (are o curtoză pozitivă sau negativă vizibilă) .

Dacă valoarea aproximativă a/) este obținută într-un fel sau altul, atunci putem construi un interval de încredere pentru varianță în același mod în care l-am construit pentru așteptarea matematică:

unde valoarea în funcţie de probabilitatea dată p se găseşte conform tabelului. 14.3.1.

Exemplul 2. Găsiți un interval de încredere de aproximativ 80% pentru varianța unei variabile aleatoare Xîn condiţiile exemplului 1, dacă se ştie că valoarea X distribuite după o lege apropiată de normal.

Soluţie. Valoarea rămâne aceeași ca în tabel. 14.3.1:

Conform formulei (14.3.16)

Folosind formula (14.3.18) găsim intervalul de încredere:

Intervalul corespunzător al valorilor abaterii standard: (0,21; 0,29).

14.4. Metode exacte de construire a intervalelor de încredere pentru parametrii unei variabile aleatoare distribuite conform unei legi normale

În subsecțiunea anterioară, am examinat metode aproximative aproximative pentru construirea intervalelor de încredere pentru așteptarea și varianța matematică. Aici vom da o idee despre metodele exacte pentru a rezolva aceeași problemă. Subliniem că pentru a găsi cu exactitate intervalele de încredere este absolut necesar să se cunoască în prealabil forma legii de distribuție a cantității. X,întrucât pentru aplicarea metodelor aproximative acest lucru nu este necesar.

Ideea unor metode precise pentru construirea intervalelor de încredere se rezumă la următoarele. Orice interval de încredere se găsește dintr-o condiție care exprimă probabilitatea îndeplinirii anumitor inegalități, care includ estimarea care ne interesează O. Legea distribuției evaluării Oîn cazul general depinde de parametrii necunoscuți ai cantității X. Cu toate acestea, uneori este posibil să treci inegalități dintr-o variabilă aleatoare O la o altă funcție a valorilor observate X p X 2, ..., X p. a cărui lege de distribuție nu depinde de parametri necunoscuți, ci depinde doar de numărul de experimente și de tipul legii de distribuție a cantității X. Aceste tipuri de variabile aleatoare joacă un rol important în statistica matematică; au fost studiate în cel mai detaliu pentru cazul unei distribuţii normale a cantităţii X.

De exemplu, s-a dovedit că cu o distribuție normală a valorii X variabilă aleatoare

se supune așa-zisului Legea distribuirii studenților Cu n- 1 grad de libertate; densitatea acestei legi are forma

unde G(x) este funcția gamma cunoscută:

De asemenea, s-a dovedit că variabila aleatoare

are o „distribuție %2” cu n- 1 grad de libertate (vezi capitolul 7), a cărui densitate este exprimată prin formula

Fără să ne oprim asupra derivărilor distribuțiilor (14.4.2) și (14.4.4), vom arăta cum acestea pot fi aplicate la construirea intervalelor de încredere pentru parametri. ty D.

Lasă-l să fie produs n experimente independente pe o variabilă aleatorie X, distribuite în mod normal cu parametri necunoscuți LA. Pentru acești parametri s-au obținut estimări

Este necesar să se construiască intervale de încredere pentru ambii parametri corespunzători probabilității de încredere p.

Să construim mai întâi un interval de încredere pentru așteptarea matematică. Este firesc să luăm acest interval simetric în raport cu T; fie s p să desemnăm jumătate din lungimea intervalului. Valoarea s p trebuie aleasă astfel încât condiția să fie îndeplinită

Să încercăm să ne mutăm în partea stângă a egalității (14.4.5) din variabila aleatoare T la o variabilă aleatorie T, distribuite conform legii Studentului. Pentru a face acest lucru, înmulțiți ambele părți ale inegalității |m-w?|

printr-o valoare pozitivă: sau, folosind notația (14.4.1),

Să găsim un număr / p astfel încât valoarea / p poate fi găsită din condiție

Din formula (14.4.2) este clar că (1) - chiar funcția, deci (14.4.8) dă

Egalitatea (14.4.9) determină valoarea / p în funcție de p. Daca aveti la dispozitie un tabel de valori integrale

atunci valoarea lui /p poate fi găsită prin interpolare inversă în tabel. Cu toate acestea, este mai convenabil să întocmești un tabel cu valorile /p în avans. Un astfel de tabel este prezentat în Anexă (Tabelul 5). Acest tabel prezintă valorile în funcție de nivelul de încredere p și de numărul de grade de libertate n- 1. După ce a determinat / p din tabel. 5 și presupunând

vom găsi jumătate din lățimea intervalului de încredere / p și intervalul în sine

Exemplul 1. S-au efectuat 5 experimente independente pe o variabilă aleatorie X, distribuite în mod normal cu parametri necunoscuți Tși o. Rezultatele experimentelor sunt prezentate în tabel. 14.4.1.

Tabelul 14.4.1

Găsiți evaluare T pentru așteptarea matematică și construiți un interval de încredere de 90% / p pentru aceasta (adică intervalul corespunzător probabilității de încredere p = 0,9).

Soluţie. Avem:

Conform tabelului 5 al cererii pentru p - 1 = 4 și p = 0,9 găsim unde

Intervalul de încredere va fi

Exemplul 2. Pentru condițiile exemplului 1 al subsecțiunii 14.3, presupunând valoarea X distribuite în mod normal, găsiți intervalul de încredere exact.

Soluţie. Conform tabelului 5 din anexa găsim la p - 1 = 19ir =

0,8/p = 1,328; de aici

Comparând cu soluția exemplului 1 din subsecțiunea 14.3 (e p = 0,072), suntem convinși că discrepanța este foarte nesemnificativă. Dacă menținem acuratețea până la a doua zecimală, atunci intervalele de încredere găsite prin metoda exactă și cea aproximativă coincid:

Să trecem la construirea unui interval de încredere pentru varianță. Luați în considerare estimatorul de varianță imparțial

și exprimă variabila aleatoare D prin magnitudine V(14.4.3), având distribuția x 2 (14.4.4):

Cunoașterea legii distribuției cantității V, puteți găsi intervalul /(1) în care se încadrează cu o probabilitate dată p.

Legea distribuției kn_x(v) magnitudinea I 7 are forma prezentată în Fig. 14.4.1.

Orez. 14.4.1

Apare întrebarea: cum să alegeți intervalul / p? Dacă legea distribuţiei mărimii V era simetric (ca legea normală sau distribuția Student), ar fi firesc să luăm intervalul /p simetric în raport cu așteptarea matematică. În acest caz legea k p_x (v) asimetric. Să fim de acord să alegem intervalul /p astfel încât probabilitatea ca valoarea să fie V dincolo de intervalul la dreapta și la stânga (zonele umbrite din Fig. 14.4.1) au fost aceleași și egale

Pentru a construi un interval /p cu această proprietate, folosim tabelul. 4 aplicații: conține numere y) astfel încât

pentru valoare V, având x 2 -distribuţie cu r grade de libertate. În cazul nostru r = n- 1. Să reparăm r = n- 1 și găsiți în rândul corespunzător al tabelului. 4 două sensuri x 2 - unul corespunzând probabilităţii celălalt - probabilitate Să le notăm pe acestea

valorile la 2Şi xl? Intervalul are y 2, cu stânga, și y~ capătul drept.

Acum să găsim din intervalul / p intervalul de încredere dorit /|, pentru dispersia cu granițele D și D2, care acoperă punctul D cu probabilitatea p:

Să construim un interval / (, = (?> ь А) care acoperă punctul D dacă și numai dacă valoarea V se încadrează în intervalul /r. Să arătăm că intervalul

indeplineste aceasta conditie. Într-adevăr, inegalitățile sunt echivalente cu inegalitățile

iar aceste inegalități sunt satisfăcute cu probabilitatea p. Astfel, intervalul de încredere pentru varianță a fost găsit și este exprimat prin formula (14.4.13).

Exemplul 3. Găsiți intervalul de încredere pentru varianță în condițiile exemplului 2 din subsecțiunea 14.3, dacă se știe că valoarea X distribuite normal.

Soluţie. Avem . Conform tabelului 4 din anexa

găsim la r = n - 1 = 19

Folosind formula (14.4.13) găsim intervalul de încredere pentru varianță

Intervalul corespunzător pentru abaterea standard este (0,21; 0,32). Acest interval depășește doar puțin intervalul (0,21; 0,29) obținut în exemplul 2 din subsecțiunea 14.3 folosind metoda aproximativă.

  • Figura 14.3.1 consideră un interval de încredere simetric față de a. În general, așa cum vom vedea mai târziu, acest lucru nu este necesar.
Interval de încrederevalori limită o mărime statistică care, cu o probabilitate de încredere dată γ, se va afla în acest interval la eșantionarea unui volum mai mare. Notat cu P(θ - ε. În practică, probabilitatea de încredere γ este aleasă dintre valori destul de apropiate de unitate: γ = 0,9, γ = 0,95, γ = 0,99.

Scopul serviciului. Folosind acest serviciu, puteți determina:

  • interval de încredere pentru media generală, interval de încredere pentru varianță;
  • interval de încredere pentru abaterea standard, interval de încredere pentru cota generală;
Soluția rezultată este salvată într-un fișier Word (vezi exemplu). Mai jos este o instrucțiune video despre cum să completați datele inițiale.

Exemplul nr. 1. Într-o fermă colectivă, dintr-un efectiv total de 1000 de oi, 100 de oi au fost tunse cu control selectiv. Ca urmare, s-a stabilit o tăiere medie a lânii de 4,2 kg per oaie. Determinați cu o probabilitate de 0,99 eroarea pătratică medie a eșantionului atunci când se determină forfecarea medie a lânii per oaie și limitele în care este conținută valoarea forfeței dacă varianța este 2,5. Eșantionul este nerepetitiv.
Exemplul nr. 2. Dintr-un lot de produse importate la postul Vămii de Nord din Moscova, 20 de mostre de produs „A” au fost prelevate prin prelevare aleatorie repetată. În urma testului, a fost stabilit conținutul mediu de umiditate al produsului „A” din probă, care s-a dovedit a fi egal cu 6%, cu o abatere standard de 1%.
Determinați cu o probabilitate de 0,683 limitele conținutului mediu de umiditate al produsului în întregul lot de produse importate.
Exemplul nr. 3. Un sondaj pe 36 de elevi a arătat că numărul mediu de manuale pe care le citesc pe an an universitar, s-a dovedit a fi egal cu 6. Presupunând că numărul de manuale citite de un student pe semestru are o lege de distribuție normală cu o abatere standard egală cu 6, găsiți: A) cu o fiabilitate de 0,99, o estimare de interval pentru matematica așteptarea acestei variabile aleatoare; B) cu ce probabilitate putem spune că numărul mediu de manuale citite de un student pe semestru, calculat din acest eșantion, se va abate de la așteptarea matematică în valoare absolută cu cel mult 2.

Clasificarea intervalelor de încredere

După tipul de parametru evaluat:

După tipul de eșantion:

  1. Interval de încredere pentru un eșantion infinit;
  2. Interval de încredere pentru eșantionul final;
Eșantionul se numește reeșantionare, dacă obiectul selectat este returnat populației înainte de a-l selecta pe următorul. Eșantionul se numește non-repeat, dacă obiectul selectat nu este returnat populației. În practică, de obicei avem de-a face cu mostre nerepetitive.

Calculul erorii medii de eșantionare pentru eșantionarea aleatorie

Discrepanța dintre valorile indicatorilor obținuți din eșantion și parametrii corespunzători ai populației generale se numește eroare de reprezentativitate.
Desemnări ale parametrilor principali ai populațiilor generale și eșantionului.
Formule de eroare medie de eșantionare
re-selectarerepeta selectia
pentru mediepentru împărțirepentru mediepentru împărțire
Relația dintre limita erorii de eșantionare (Δ) este garantată cu o oarecare probabilitate Р(t), iar eroarea medie de eșantionare are forma: sau Δ = t·μ, unde t– coeficient de încredere, determinat în funcție de nivelul de probabilitate P(t) conform tabelului funcției integrale Laplace.

Formule pentru calcularea dimensiunii eșantionului folosind o metodă de eșantionare pur aleatorie

Să construim un interval de încredere în MS EXCEL pentru a estima valoarea medie a distribuției în cazul unei valori de dispersie cunoscute.

Desigur alegerea nivelul de încredere depinde complet de problema rezolvată. Astfel, gradul de încredere al unui pasager aerian în fiabilitatea unui avion ar trebui să fie, fără îndoială, mai mare decât gradul de încredere al unui cumpărător în fiabilitatea unui bec electric.

Formularea problemei

Să presupunem că de la populatie fiind luate eşantion marimea n. Se presupune că abaterea standard această distribuţie este cunoscută. Necesar pe baza acestui lucru mostre evalua necunoscutul mijloc de distribuție(μ, ) și construiți corespunzătoare faţă-verso interval de încredere.

Estimare punctuală

După cum se știe din statistici(să o notăm medie X) este estimare imparțială a mediei acest populatieși are o distribuție N(μ;σ 2 /n).

Nota: Ce să faci dacă trebuie să construiești interval de încredereîn cazul unei distribuţii care nu este normal?În acest caz, vine în ajutor, care spune că cu suficient dimensiune mare mostre n din distribuție nefiind normal, distribuția eșantionului de statistici X avg voinţă aproximativ corespund distributie normala cu parametrii N(μ;σ 2 /n).

Aşa, estimare punctuală medie valorile de distribuție avem - asta eșantion mediu, adică medie X. Acum să începem interval de încredere.

Construirea unui interval de încredere

De obicei, cunoscând distribuția și parametrii acesteia, putem calcula probabilitatea ca variabila aleatoare să ia o valoare din intervalul pe care îl specificăm. Acum să facem invers: găsiți intervalul în care variabila aleatoare va cădea cu o probabilitate dată. De exemplu, din proprietăți distributie normala se ştie că, cu o probabilitate de 95%, o variabilă aleatoare distribuită peste legea normală, se va încadra în intervalul de aproximativ +/- 2 de la valoare medie(vezi articolul despre). Acest interval ne va servi drept prototip interval de încredere.

Acum să vedem dacă știm distribuția , pentru a calcula acest interval? Pentru a răspunde la întrebare, trebuie să indicăm forma distribuției și parametrii acesteia.

Cunoaștem forma de distribuție - aceasta este distributie normala(rețineți că vorbim despre distribuția eșantionului statistici medie X).

Parametrul μ ne este necunoscut (trebuie doar estimat folosind interval de încredere), dar avem o estimare a acesteia medie X, calculat pe baza mostre, care poate fi folosit.

Al doilea parametru - abaterea standard a mediei eșantionului îl vom considera cunoscut, este egal cu σ/√n.

Deoarece nu știm μ, atunci vom construi intervalul +/- 2 abateri standard nu de la valoare medie, și din estimarea sa cunoscută medie X. Aceste. la calcul interval de încredere NU vom presupune că medie X se încadrează în intervalul +/- 2 abateri standard de la μ cu o probabilitate de 95% și vom presupune că intervalul este +/- 2 abateri standard din medie X cu 95% probabilitate va acoperi μ – media populației generale, din care a fost luat eşantion. Aceste două afirmații sunt echivalente, dar a doua declarație ne permite să construim interval de încredere.

În plus, să clarificăm intervalul: o variabilă aleatoare distribuită peste legea normală, cu o probabilitate de 95% se încadrează în intervalul +/- 1.960 abateri standard, nu +/- 2 abateri standard. Aceasta poate fi calculată folosind formula =NORM.ST.REV((1+0,95)/2), cm. fișier exemplu Sheet Interval.

Acum putem formula o afirmație probabilistică care ne va servi să formăm interval de încredere:
„Probabilitatea ca media populatiei situat din medie a probeiîn termen de 1.960" abaterile standard ale mediei eșantionului", egal cu 95%”.

Valoarea probabilității menționată în declarație are o denumire specială , care este asociat cu nivelul de semnificație α (alfa) printr-o expresie simplă nivelul de încredere =1 . În cazul nostru nivelul de semnificație α =1-0,95=0,05 .

Acum, pe baza acestei afirmații probabilistice, scriem o expresie pentru calcul interval de încredere:

unde Z α/2 standard distributie normala(această valoare a variabilei aleatoare z, Ce P(z>=Z α/2 )=α/2).

Nota: α/2-quantila superioară definește lățimea interval de încredere V abateri standard eșantion mediu. α/2-quantila superioară standard distributie normalaîntotdeauna mai mare decât 0, ceea ce este foarte convenabil.

În cazul nostru, cu α=0,05, α/2-quantila superioară este egal cu 1.960. Pentru alte niveluri de semnificație α (10%; 1%) α/2-quantila superioară Z α/2 poate fi calculat folosind formula =NORM.ST.REV(1-α/2) sau, dacă este cunoscută nivelul de încredere, =NORM.ST.OBR((1+nivel de încredere)/2).

De obicei, la construirea intervale de încredere pentru estimarea mediei utilizați numai α superioară/2-cuantilă si nu folositi mai mic α/2-cuantilă. Acest lucru este posibil pentru că standard distributie normala simetric fata de axa x ( densitatea sa de distribuție simetric despre medie, adică 0). Prin urmare, nu este nevoie să se calculeze α/2-cuantilă mai mică(se numește pur și simplu α /2-quantila), pentru că este egal α superioară/2-cuantilă cu semnul minus.

Să ne amintim că, în ciuda formei distribuției valorii x, variabila aleatoare corespunzătoare medie X distribuite aproximativ Amenda N(μ;σ 2 /n) (vezi articolul despre). Prin urmare, în general, expresia de mai sus pentru interval de încredere este doar o aproximare. Dacă valoarea x este distribuită peste legea normală N(μ;σ 2 /n), apoi expresia pentru interval de încredere este exactă.

Calcul intervalului de încredere în MS EXCEL

Să rezolvăm problema.
Timp de răspuns componenta electronica la semnalul de intrare este caracteristică importantă dispozitive. Un inginer dorește să construiască un interval de încredere pentru timpul mediu de răspuns la un nivel de încredere de 95%. Din experiența anterioară, inginerul știe că abaterea standard a timpului de răspuns este de 8 ms. Se știe că pentru a evalua timpul de răspuns, inginerul a făcut 25 de măsurători, valoarea medie a fost de 78 ms.

Soluţie: Inginerul vrea să știe timpul de răspuns dispozitiv electronic, dar înțelege că timpul de răspuns nu este o valoare fixă, ci o variabilă aleatorie care are propria sa distribuție. Deci, cel mai bun lucru la care poate spera este să determine parametrii și forma acestei distribuții.

Din păcate, din condițiile problemei nu cunoaștem forma distribuției timpului de răspuns (nu trebuie să fie normal). , această distribuție este de asemenea necunoscută. Numai el este cunoscut abaterea standardσ=8. Prin urmare, în timp ce nu putem calcula probabilitățile și construi interval de încredere.

Cu toate acestea, în ciuda faptului că nu cunoaștem distribuția timp răspuns separat, știm că conform CPT, distribuția eșantionului timpul mediu de răspuns este de aproximativ normal(vom presupune că condițiile CPT sunt efectuate, deoarece dimensiune mostre destul de mare (n=25)) .

În plus, medie această distribuţie este egală cu valoare medie distribuția unui singur răspuns, adică μ. O abaterea standard a acestei distribuții (σ/√n) poate fi calculată folosind formula =8/ROOT(25) .

De asemenea, se știe că inginerul a primit estimare punctuală parametrul μ egal cu 78 ms (X avg). Prin urmare, acum putem calcula probabilități, deoarece cunoaștem forma de distribuție ( normal) și parametrii săi (X avg și σ/√n).

Inginerul vrea să știe așteptări matematiceμ distribuțiile timpului de răspuns. După cum sa menționat mai sus, acest μ este egal cu așteptarea matematică a distribuției eșantionului a timpului mediu de răspuns. Dacă folosim distributie normala N(X avg; σ/√n), atunci μ dorit va fi în intervalul +/-2*σ/√n cu o probabilitate de aproximativ 95%.

Nivel de semnificație este egal cu 1-0,95=0,05.

În cele din urmă, să găsim marginile din stânga și din dreapta interval de încredere.
Chenarul din stânga: =78-NORM.ST.INV(1-0,05/2)*8/ROOT(25) = 74,864
Chenarul din dreapta: =78+NORM.ST.INV(1-0,05/2)*8/ROOT(25)=81,136

Chenarul din stânga: =NORM.REV(0,05/2; 78; 8/ROOT(25))
Chenarul din dreapta: =NORM.REV(1-0,05/2; 78; 8/ROOT(25))

Răspuns: interval de încredere la Nivel de încredere de 95% și σ=8msec egală 78+/-3,136 ms.

ÎN exemplu de fișier pe foaia Sigma cunoscut, a creat o formă de calcul și construcție faţă-verso interval de încredere pentru arbitrar mostre cu σ dat și nivelul de semnificație.

Funcția CONFIDENCE.NORM().

Dacă valorile mostre sunt în gamă B20:B79 , A nivelul de semnificație egal cu 0,05; apoi formula MS EXCEL:
=MEDIE(B20:B79)-ÎNCREDERE.NORMĂ(0,05;σ; NUMĂRĂ (B20:B79))
va întoarce marginea stângă interval de încredere.

Aceeași limită poate fi calculată folosind formula:
=AVERAGE(B20:B79)-NORM.ST.REV(1-0,05/2)*σ/ROOT(COUNT(B20:B79))

Nota: Funcția CONFIDENCE.NORM() a apărut în MS EXCEL 2010. În versiunile anterioare ale MS EXCEL, a fost folosită funcția TRUST().

„Katren-Style” continuă să publice seria lui Konstantin Kravchik despre statisticile medicale. În două articole anterioare, autorul s-a ocupat de explicarea unor concepte precum și.

Constantin Kravcik

Matematician-analist. Specialist în domeniul cercetării statistice în medicină și umaniste

Oraș: Moscova

Foarte des în articolele despre studii clinice puteți găsi o frază misterioasă: „interval de încredere” (95 % CI sau 95 % CI - interval de încredere). De exemplu, un articol ar putea scrie: „Pentru a evalua semnificația diferențelor, a fost folosit testul t Student pentru a calcula intervalul de încredere de 95 %”.

Care este valoarea „intervalului de încredere 95 %” și de ce să-l calculăm?

Ce este un interval de încredere? - Acesta este intervalul în care adevărata populație înseamnă minciună. Există medii „neadevărate”? Într-un fel, da, o fac. În am explicat că este imposibil să se măsoare parametrul de interes în întreaga populație, așa că cercetătorii se mulțumesc cu un eșantion limitat. În această probă (de exemplu, în funcție de greutatea corporală) există o valoare medie ( o anumită greutate), după care judecăm valoarea medie în întreaga populație. Cu toate acestea, este puțin probabil ca greutatea medie dintr-un eșantion (în special unul mic) să coincidă cu ponderea medie în populația generală. Prin urmare, este mai corect să se calculeze și să se utilizeze intervalul de valori medii ale populației.

De exemplu, imaginați-vă că intervalul de încredere de 95% (IC 95%) pentru hemoglobină este de 110 până la 122 g/L. Aceasta înseamnă că există o șansă de 95% ca valoarea medie reală a hemoglobinei în populație să fie între 110 și 122 g/L. Cu alte cuvinte, nu cunoaștem valoarea medie a hemoglobinei în populație, dar putem, cu o probabilitate de 95 %, să indicăm o gamă de valori pentru această trăsătură.

Intervalele de încredere sunt deosebit de relevante pentru diferențele de medii între grupuri sau mărimea efectului, așa cum sunt numite.

Să presupunem că am comparat eficiența a două preparate de fier: unul care este pe piață de mult timp și unul care tocmai a fost înregistrat. După cursul terapiei, am evaluat concentrația de hemoglobină în loturile de pacienți studiate, iar programul statistic a calculat că diferența dintre valorile medii ale celor două loturi a fost, cu o probabilitate de 95 %, în intervalul de la 1,72 la 14,36 g/l (Tabelul 1).

Masă 1. Testare pentru mostre independente
(grupurile sunt comparate în funcție de nivelul hemoglobinei)

Acest lucru ar trebui interpretat după cum urmează: la unii pacienți din populația generală care iau medicament nou, hemoglobina va fi mai mare în medie cu 1,72–14,36 g/l decât la cei care au luat un medicament deja cunoscut.

Cu alte cuvinte, în populația generală, diferența de valori medii ale hemoglobinei între grupuri este în aceste limite cu o probabilitate de 95%. Va rămâne la latitudinea cercetătorului să judece dacă este mult sau puțin. Ideea tuturor acestor lucruri este că nu lucrăm cu o valoare medie, ci cu o gamă de valori, prin urmare, estimăm mai fiabil diferența unui parametru între grupuri.

În pachetele statistice, la discreția cercetătorului, puteți îngusta sau extinde în mod independent granițele intervalului de încredere. Prin scăderea probabilităților intervalului de încredere, restrângem intervalul de medii. De exemplu, la 90 % CI intervalul de medii (sau diferența de medii) va fi mai restrâns decât la 95 %.

În schimb, creșterea probabilității la 99 % extinde gama de valori. Când se compară grupuri, limita inferioară a CI poate depăși marcajul zero. De exemplu, dacă am extins limitele intervalului de încredere la 99 %, atunci limitele intervalului au variat între –1 și 16 g/l. Aceasta înseamnă că în populația generală există grupuri, diferența de medii între care pentru caracteristica studiată este egală cu 0 (M = 0).

Folosind un interval de încredere, puteți testa ipotezele statistice. Dacă intervalul de încredere depășește valoarea zero, atunci ipoteza nulă, care presupune că grupurile nu diferă în funcție de parametrul studiat, este adevărată. Exemplul este descris mai sus în care am extins limitele la 99 %. Undeva în populația generală am găsit grupuri care nu diferă în niciun fel.

Interval de încredere de 95% al ​​diferenței de hemoglobină, (g/l)


Figura arată intervalul de încredere de 95% pentru diferența dintre valorile medii ale hemoglobinei dintre cele două grupuri. Linia trece prin marcajul zero, prin urmare există o diferență între medii egală cu zero, ceea ce confirmă ipoteza nulă că grupurile nu diferă. Intervalul de diferență între grupuri este de la –2 la 5 g/L. Aceasta înseamnă că hemoglobina poate fie să scadă cu 2 g/L, fie să crească cu 5 g/L.

Intervalul de încredere este un indicator foarte important. Datorită acesteia, puteți vedea dacă diferențele dintre grupuri s-au datorat într-adevăr diferenței de medii sau datorită unui eșantion mare, deoarece la un eșantion mare șansele de a găsi diferențe sunt mai mari decât la unul mic.

În practică ar putea arăta așa. Am luat un eșantion de 1000 de persoane, am măsurat nivelurile de hemoglobină și am constatat că intervalul de încredere pentru diferența de medii a variat între 1,2 și 1,5 g/l. Nivelul semnificației statistice în acest caz p

Vedem că concentrația de hemoglobină a crescut, dar aproape imperceptibil, prin urmare, semnificația statistică a apărut tocmai datorită dimensiunii eșantionului.

Intervalele de încredere pot fi calculate nu numai pentru medii, ci și pentru proporții (și rapoarte de risc). De exemplu, ne interesează intervalul de încredere al proporțiilor de pacienți care au obținut remisie în timp ce luau un medicament dezvoltat. Să presupunem că 95 % CI pentru proporții, adică pentru proporția de astfel de pacienți, se află în intervalul 0,60-0,80. Astfel, putem spune că medicamentul nostru are un efect terapeutic în 60 până la 80 % din cazuri.

Publicații pe această temă