Interval de încredere. ABC al statisticilor medicale

Estimarea intervalelor de încredere

Obiectivele de învățare

Statisticile iau în considerare următoarele două sarcini principale:

    Avem o estimare bazată pe date de eșantion și dorim să facem o declarație probabilistică despre unde se află adevărata valoare a parametrului estimat.

    Avem o ipoteză specifică care trebuie testată folosind date eșantion.

În acest subiect luăm în considerare prima sarcină. Să introducem și definiția unui interval de încredere.

Un interval de încredere este un interval care este construit în jurul valorii estimate a unui parametru și arată unde este situată valoarea adevărată a parametrului estimat cu o probabilitate specificată a priori.

După ce ați studiat materialul pe această temă, dvs.:

    afla ce este interval de încredere evaluări;

    învață să clasifice problemele statistice;

    stăpânește tehnica construirii intervalelor de încredere, atât folosind formule statistice, cât și cu instrumente software;

    invata sa definesti dimensiunile cerute eşantioane pentru realizarea anumitor parametri de acurateţe a estimărilor statistice.

Distribuția caracteristicilor eșantionului

distribuție T

După cum sa discutat mai sus, distribuția variabilă aleatoare aproape de distribuția normală standardizată cu parametrii 0 și 1. Deoarece nu cunoaștem valoarea lui σ, o înlocuim cu o estimare a lui s. Cantitatea are deja o distribuție diferită și anume sau Repartizarea elevilor, care este determinat de parametrul n -1 (numărul de grade de libertate). Această distribuție este apropiată de distribuția normală (cu cât n este mai mare, cu atât distribuțiile sunt mai apropiate).

În fig. 95
este prezentată distribuţia Student cu 30 de grade de libertate. După cum puteți vedea, este foarte aproape de distribuția normală.

Similar cu funcțiile pentru lucrul cu distribuția normală NORMIDIST și NORMINV, există funcții pentru lucrul cu distribuția t - STUDIST (TDIST) și STUDRASOBR (TINV). Un exemplu de utilizare a acestor funcții poate fi văzut în fișierul STUDRASP.XLS (șablon și soluție) și în Fig. 96
.

Distribuții ale altor caracteristici

După cum știm deja, pentru a determina acuratețea estimării așteptărilor matematice, avem nevoie de o distribuție t. Pentru a estima alți parametri, cum ar fi varianța, sunt necesare distribuții diferite. Două dintre ele sunt distribuția F și x 2 -distributie.

Interval de încredere pentru medie

Interval de încredere- acesta este un interval care este construit în jurul valorii estimate a parametrului și arată unde este situată valoarea reală a parametrului estimat cu o probabilitate specificată a priori.

Are loc construirea unui interval de încredere pentru valoarea medie după cum urmează:

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a estima cererea pentru acesta, managerul plănuiește să selecteze aleatoriu 40 de vizitatori dintre cei care l-au încercat deja și să le solicite să își evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește să estimeze valoarea așteptată. numărul de puncte pe care noul produs le va primi și construiți un interval de încredere de 95% pentru această estimare. Cum să faci asta? (vezi fișierul SANDWICH1.XLS (șablon și soluție).

Soluţie

Pentru a rezolva această problemă puteți folosi . Rezultatele sunt prezentate în Fig. 97
.

Interval de încredere pentru valoarea totală

Uneori, folosind datele eșantionului, este necesar să se estimeze nu așteptările matematice, ci suma totală a valorilor. De exemplu, într-o situație cu un auditor, interesul poate fi estimarea nu a mărimii medii a contului, ci a sumei tuturor conturilor.

Fie N numărul total de elemente, n dimensiunea eșantionului, T 3 să fie suma valorilor din eșantion, T" să fie estimarea pentru suma întregii populații, apoi , iar intervalul de încredere este calculat prin formula , unde s este estimarea abaterii standard pentru eșantion și este estimarea mediei pentru eșantion.

Exemplu

Să presupunem că o agenție fiscală dorește să estimeze rambursările totale de taxe pentru 10.000 de contribuabili. Contribuabilul fie primește o rambursare, fie plătește taxe suplimentare. Găsiți intervalul de încredere de 95% pentru suma rambursării, presupunând o dimensiune a eșantionului de 500 de persoane (a se vedea fișierul SUMA REFUND.XLS (șablon și soluție).

Soluţie

StatPro nu are o procedură specială pentru acest caz, cu toate acestea, se poate observa că limitele pot fi obținute din limitele pentru medie pe baza formulelor de mai sus (Fig. 98).
).

Interval de încredere pentru proporție

Fie p așteptarea matematică a cotei clienților și fie p b estimarea acestei cote obținută dintr-un eșantion de mărimea n. Se poate demonstra că pentru suficient de mare distribuția evaluării va fi apropiată de normal cu așteptările matematice p și abaterea standard . Eroare standard de estimare în în acest caz, exprimat ca , iar intervalul de încredere este ca .

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a evalua cererea pentru acesta, managerul a selectat aleatoriu 40 de vizitatori dintre cei care l-au încercat deja și le-a cerut să își evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește să estimeze proporția așteptată de clienții care evaluează noul produs cu cel puțin 6 puncte (se așteaptă ca acești clienți să fie consumatorii noului produs).

Soluţie

Inițial, creăm o nouă coloană pe baza atributului 1 dacă ratingul clientului a fost mai mare de 6 puncte și 0 în caz contrar (vezi fișierul SANDWICH2.XLS (șablon și soluție).

Metoda 1

Numărând numărul de 1, estimăm cota și apoi folosim formulele.

Valoarea zcr este luată din tabele speciale de distribuție normală (de exemplu, 1,96 pentru un interval de încredere de 95%).

Folosind această abordare și date specifice pentru a construi un interval de 95%, obținem următoarele rezultate (Fig. 99
). Valoarea critică a parametrului zcr este 1,96. Eroarea standard a estimării este 0,077. Limita inferioară a intervalului de încredere este 0,475. Limita superioară a intervalului de încredere este 0,775. Astfel, managerul are dreptul să creadă cu 95% de încredere că procentul de clienți care evaluează noul produs cu 6 puncte sau mai mult se va situa între 47,5 și 77,5.

Metoda 2

Această problemă poate fi rezolvată folosind instrumentele standard StatPro. Pentru a face acest lucru, este suficient să rețineți că cota în acest caz coincide cu valoarea medie a coloanei Tip. În continuare aplicăm StatPro/Inferență statistică/Analiza unui eșantion pentru a construi un interval de încredere al mediei (estimarea așteptărilor matematice) pentru coloana Tip. Rezultatele obţinute în acest caz vor fi foarte apropiate de rezultatele primei metode (Fig. 99).

Interval de încredere pentru abaterea standard

s este utilizat ca estimare a abaterii standard (formula este dată în secțiunea 1). Funcția de densitate a estimării s este funcția chi-pătrat, care, ca și distribuția t, are n-1 grade de libertate. Există funcții speciale pentru lucrul cu această distribuție CHIDIST și CHIINV.

Intervalul de încredere în acest caz nu va mai fi simetric. O diagramă de limite convențională este prezentată în Fig. 100.

Exemplu

Mașina trebuie să producă piese cu un diametru de 10 cm. Cu toate acestea, din diverse circumstanțe, apar erori. Controlorul de calitate este preocupat de două circumstanțe: în primul rând, valoarea medie ar trebui să fie de 10 cm; în al doilea rând, chiar și în acest caz, dacă abaterile sunt mari, atunci multe părți vor fi respinse. Zilnic face o mostră de 50 de părți (vezi fișierul CONTROL DE CALITATE.XLS (șablon și soluție). Ce concluzii poate da un astfel de eșantion?

Soluţie

Să construim intervale de încredere de 95% pentru medie și abaterea standard folosind StatPro/Inferență statistică/Analiza unui eșantion(Fig. 101
).

Apoi, folosind ipoteza unei distribuții normale a diametrelor, calculăm proporția de produse defecte, stabilind o abatere maximă de 0,065. Folosind capacitățile tabelului de substituție (cazul a doi parametri), vom reprezenta grafic dependența proporției defectelor de valoarea medie și abaterea standard (Fig. 102).
).

Interval de încredere pentru diferența dintre două medii

Acesta este unul dintre cele mai multe aplicatii importante metode statistice. Exemple de situații.

    Un manager de magazin de îmbrăcăminte ar dori să știe cât cheltuie mai mult sau mai puțin clientul mediu de sex feminin în magazin decât clientul mediu de sex masculin.

    Cele două companii aeriene zboară pe rute similare. O organizație de consumatori ar dori să compare diferența dintre timpii medii de întârziere a zborului estimați pentru ambele companii aeriene.

    Compania trimite cupoane pentru specii individuale mărfuri într-un oraș și nu trimite în altul. Managerii doresc să compare volumele medii de achiziție ale acestor produse în următoarele două luni.

    Un dealer auto se ocupă adesea de cupluri căsătorite la prezentări. Pentru a înțelege reacțiile lor personale la prezentare, cuplurile sunt adesea intervievate separat. Managerul vrea să evalueze diferența dintre ratingurile acordate de bărbați și femei.

Cazul probelor independente

Diferența dintre medii va avea o distribuție t cu n 1 + n 2 - 2 grade de libertate. Intervalul de încredere pentru μ 1 - μ 2 este exprimat prin relația:

Această problemă poate fi rezolvată nu numai folosind formulele de mai sus, ci și folosind instrumentele standard StatPro. Pentru a face acest lucru, este suficient să utilizați

Interval de încredere pentru diferența dintre proporții

Să fie așteptarea matematică a acțiunilor. Fie estimările lor ale eșantionului, construite din eșantioane de dimensiunea n 1 și respectiv n 2. Atunci este o estimare a diferenței. Prin urmare, intervalul de încredere al acestei diferențe este exprimat astfel:

Aici z cr este o valoare obținută dintr-o distribuție normală folosind tabele speciale (de exemplu, 1,96 pentru un interval de încredere de 95%).

Eroarea standard de estimare este exprimată în acest caz prin relația:

.

Exemplu

Magazinul, pregătindu-se pentru o vânzare mare, a întreprins următoarele cercetări de marketing. Primii 300 de cumpărători au fost selectați și împărțiți aleatoriu în două grupuri a câte 150 de membri fiecare. Au fost trimise invitații tuturor clienților selectați pentru a participa la vânzare, dar numai membrii primului grup au primit un cupon care îi dă dreptul la o reducere de 5%. În timpul vânzării, au fost înregistrate achizițiile tuturor celor 300 de cumpărători selectați. Cum poate un manager să interpreteze rezultatele și să emită o judecată cu privire la eficacitatea cupoanelor? (vezi fișierul COUPONS.XLS (șablon și soluție)).

Soluţie

Pentru cazul nostru specific, din 150 de clienți care au primit un cupon de reducere, 55 au făcut o achiziție la vânzare, iar dintre cei 150 care nu au primit un cupon, doar 35 au făcut o achiziție (Fig. 103).
). Apoi, valorile proporțiilor eșantionului sunt 0,3667 și, respectiv, 0,2333. Și diferența de eșantion dintre ele este egală cu 0,1333, respectiv. Presupunând un interval de încredere de 95%, găsim din tabelul de distribuție normală z cr = 1,96. Calculul erorii standard a diferenței de eșantion este 0,0524. În cele din urmă constatăm că limita inferioară a intervalului de încredere de 95% este 0,0307, ​​​​iar limita superioară este 0,2359, respectiv. Rezultatele obținute pot fi interpretate în așa fel încât pentru fiecare 100 de clienți care au primit un cupon de reducere să ne așteptăm de la 3 până la 23 de clienți noi. Totuși, trebuie să ținem cont de faptul că această concluzie în sine nu înseamnă eficiența utilizării cupoanelor (întrucât prin acordarea unei reduceri pierdem profit!). Să demonstrăm acest lucru cu date specifice. Să presupunem că dimensiunea medie a achiziției este de 400 de ruble, din care 50 de ruble. există profit pentru magazin. Atunci profitul așteptat pentru 100 de clienți care nu au primit un cupon este:

50 0,2333 100 = 1166,50 rub.

Calcule similare pentru 100 de clienți care au primit un cupon oferă:

30 0,3667 100 = 1100,10 rub.

Scăderea profitului mediu la 30 se explică prin faptul că, folosind reducerea, clienții care au primit un cupon vor face în medie o achiziție de 380 de ruble.

Astfel, concluzia finală indică ineficacitatea utilizării unor astfel de cupoane în această situație particulară.

Comentariu. Această problemă poate fi rezolvată folosind instrumentele standard StatPro. Pentru a face acest lucru, este suficient să reduceți această problemă la problema estimării diferenței dintre două medii folosind metoda și apoi să aplicați StatPro/Inferență statistică/Analiza cu două eșantioane pentru a construi un interval de încredere pentru diferența dintre două valori medii.

Controlul lungimii intervalului de încredere

Lungimea intervalului de încredere depinde de urmatoarele conditii:

    date direct ( abaterea standard);

    nivelul de semnificație;

    dimensiunea eșantionului.

Dimensiunea eșantionului pentru estimarea mediei

În primul rând, să luăm în considerare problema în cazul general. Să notăm valoarea jumătății din lungimea intervalului de încredere dat nouă ca B (Fig. 104).
). Știm că intervalul de încredere pentru valoarea medie a unei variabile aleatoare X este exprimat ca , Unde . a crede:

și exprimând n, obținem .

Din păcate, valoarea exacta Nu cunoaștem varianța variabilei aleatoare X. În plus, nu cunoaștem valoarea lui tcr, deoarece depinde de n prin numărul de grade de libertate. În această situație, putem face următoarele. În loc de varianța s, folosim o estimare a varianței bazată pe orice implementări disponibile ale variabilei aleatoare studiate. În loc de valoarea t cr, folosim valoarea z cr pentru distribuția normală. Acest lucru este destul de acceptabil, deoarece funcțiile de densitate de distribuție pentru distribuțiile normale și t sunt foarte apropiate (cu excepția cazului n mic). Astfel, formula necesară ia forma:

.

Deoarece formula oferă, în general vorbind, rezultate non-întregi, rotunjirea cu un exces din rezultat este luată ca dimensiune a eșantionului dorită.

Exemplu

Restaurantul fast-food plănuiește să-și extindă sortimentul cu un nou tip de sandviș. Pentru a evalua cererea pentru acesta, managerul plănuiește să selecteze aleatoriu un număr de vizitatori dintre cei care l-au încercat deja și să le solicite să-și evalueze atitudinea față de noul produs pe o scară de la 1 la 10. Managerul dorește să estimeze numărul așteptat de puncte pe care noul produs le va primi produs și construiți un interval de încredere de 95% pentru această estimare. În același timp, el dorește ca jumătatea lățimii intervalului de încredere să nu depășească 0,3. Câți vizitatori trebuie să intervieveze?

arata asa:

Aici r ots este o estimare a proporției p, iar B este o jumătate dată din lungimea intervalului de încredere. O supraestimare pentru n poate fi obținută folosind valoarea r ots= 0,5. În acest caz, lungimea intervalului de încredere nu va depăși valoarea specificată B pentru orice valoare adevărată a lui p.

Exemplu

Lăsați managerul din exemplul anterior să planifice să estimeze ponderea clienților care au preferat un nou tip de produs. El vrea să construiască un interval de încredere de 90% a cărui jumătate de lungime nu depășește 0,05. Câți clienți ar trebui să fie incluși în eșantionul aleatoriu?

Soluţie

În cazul nostru, valoarea lui z cr = 1,645. Prin urmare, cantitatea necesară este calculată ca .

Dacă managerul ar avea motive să creadă că valoarea p dorită este, de exemplu, aproximativ 0,3, atunci prin înlocuirea acestei valori în formula de mai sus, am obține o valoare ale eșantionului aleatoriu mai mică, și anume 228.

Formula de determinare mărimea eșantionului aleatoriu în cazul diferenței dintre două medii scris ca:

.

Exemplu

O companie de calculatoare are un centru de servicii pentru clienți. ÎN în ultima vreme numărul reclamațiilor clienților cu privire la calitatea slabă a serviciilor a crescut. Centrul de servicii angajează în principal două tipuri de angajați: cei care nu au multă experiență, dar au urmat cursuri pregătitoare speciale și cei care au o vastă experiență practică, dar nu au urmat cursuri speciale. Compania dorește să analizeze reclamațiile clienților din ultimele șase luni și să compare numărul mediu de reclamații pentru fiecare dintre cele două grupuri de angajați. Se presupune că numerele din eșantioane pentru ambele grupuri vor fi aceleași. Câți angajați trebuie să fie incluși în eșantion pentru a obține un interval de 95% cu o jumătate de lungime de cel mult 2?

Soluţie

Aici σ ots este o estimare a abaterii standard a ambelor variabile aleatoare în ipoteza că acestea sunt apropiate. Astfel, în problema noastră trebuie să obținem cumva această estimare. Acest lucru se poate face, de exemplu, după cum urmează. După ce a analizat datele privind reclamațiile clienților din ultimele șase luni, un manager poate observa că fiecare angajat primește în general de la 6 la 36 de reclamații. Știind că, pentru o distribuție normală, aproape toate valorile sunt la cel mult trei abateri standard de la medie, el poate crede în mod rezonabil că:

, de unde σ ots = 5.

Înlocuind această valoare în formulă, obținem .

Formula de determinare mărimea eşantionului aleatoriu în cazul estimării diferenţei dintre proporţii are forma:

Exemplu

O anumită companie are două fabrici care produc produse similare. Un manager de companie dorește să compare procentul de produse defecte din ambele fabrici. Conform informațiilor disponibile, rata defectelor la ambele fabrici variază de la 3 la 5%. Este intenționat să construiască un interval de încredere de 99% cu o jumătate de lungime de cel mult 0,005 (sau 0,5%). Câte produse trebuie selectate din fiecare fabrică?

Soluţie

Aici p 1ots și p 2ots sunt estimări ale a două cote necunoscute de defecte la prima și a doua fabrică. Dacă punem p 1ots = p 2ots = 0,5, atunci obținem o valoare supraestimată pentru n. Dar din moment ce în cazul nostru avem câteva informații a priori despre aceste acțiuni, luăm estimarea superioară a acestor acțiuni și anume 0,05. Primim

Atunci când se estimează unii parametri ai populației din datele eșantionului, este util să se dea nu numai o estimare punctuală a parametrului, ci și să se furnizeze un interval de încredere care arată unde se poate afla valoarea exactă a parametrului estimat.

În acest capitol ne-am familiarizat și cu relatii cantitative, permițând construirea unor astfel de intervale pentru diverși parametri; a învățat modalități de a controla durata intervalului de încredere.

Rețineți, de asemenea, că problema estimării dimensiunilor eșantionului (problema planificării unui experiment) poate fi rezolvată folosind instrumente standard StatPro, și anume StatPro/Inferență statistică/Selectare dimensiune eșantion.

Interval de încredere pentru așteptările matematice - acesta este un interval calculat din date care, cu o probabilitate cunoscuta, contine asteptarea matematica a populatiei generale. O estimare naturală pentru așteptarea matematică este media aritmetică a valorilor observate. Prin urmare, pe parcursul lecției vom folosi termenii „medie” și „valoare medie”. În problemele de calculare a unui interval de încredere, un răspuns cel mai adesea cerut este ceva de genul „Intervalul de încredere al numărului mediu [valoarea unei anumite probleme] este de la [valoare mai mică] la [valoare mai mare]”. Folosind un interval de încredere, puteți evalua nu numai valorile medii, ci și proporția unei anumite caracteristici a populației generale. Valorile medii, dispersia, abaterea standard și eroarea, prin care vom ajunge la noi definiții și formule, sunt discutate în lecție Caracteristicile eșantionului și populației .

Estimări punctuale și pe intervale ale mediei

Dacă valoarea medie a populației este estimată printr-un număr (punct), atunci o medie specifică, care este calculată dintr-un eșantion de observații, este luată ca o estimare a valorii medii necunoscute a populației. În acest caz, valoarea mediei eșantionului - o variabilă aleatorie - nu coincide cu valoarea medie a populației generale. Prin urmare, atunci când indicați media eșantionului, trebuie să indicați simultan eroarea de eșantionare. Măsura erorii de eșantionare este eroarea standard, care este exprimată în aceleași unități ca și media. Prin urmare, se folosește adesea următoarea notație: .

Dacă estimarea mediei trebuie să fie asociată cu o anumită probabilitate, atunci parametrul de interes în populație trebuie estimat nu printr-un număr, ci printr-un interval. Un interval de încredere este un interval în care, cu o anumită probabilitate P se constată valoarea indicatorului populaţiei estimate. Interval de încredere în care este probabil P = 1 - α se găsește variabila aleatoare, calculată după cum urmează:

,

α = 1 - P, care poate fi găsit în anexa la aproape orice carte de statistică.

În practică, media și varianța populației nu sunt cunoscute, astfel încât varianța populației este înlocuită cu varianța eșantionului, iar media populației cu media eșantionului. Astfel, intervalul de încredere în majoritatea cazurilor se calculează după cum urmează:

.

Formula intervalului de încredere poate fi utilizată pentru a estima media populației dacă

  • se cunoaște abaterea standard a populației;
  • sau abaterea standard a populației este necunoscută, dar dimensiunea eșantionului este mai mare de 30.

Media eșantionului este o estimare imparțială a mediei populației. La rândul său, varianța eșantionului nu este o estimare imparțială a varianței populației. Pentru a obține o estimare imparțială a varianței populației în formula variației eșantionului, dimensiunea eșantionului n ar trebui înlocuit cu n-1.

Exemplul 1. S-au colectat informații din 100 de cafenele selectate aleatoriu dintr-un anumit oraș că numărul mediu de angajați din acestea este de 10,5 cu o abatere standard de 4,6. Determinați intervalul de încredere de 95% pentru numărul de angajați ai cafenelei.

unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

Astfel, intervalul de încredere de 95% pentru numărul mediu de angajați ai cafenelei a variat între 9,6 și 11,4.

Exemplul 2. Pentru un eșantion aleatoriu din populația de 64 de observații, au fost calculate următoarele valori totale:

suma valorilor din observații,

suma abaterilor pătrate ale valorilor de la medie .

Calculați intervalul de încredere de 95% pentru așteptările matematice.

Să calculăm abaterea standard:

,

Să calculăm valoarea medie:

.

Înlocuim valorile în expresia pentru intervalul de încredere:

unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

Primim:

Astfel, intervalul de încredere de 95% pentru așteptarea matematică a acestui eșantion a variat între 7,484 și 11,266.

Exemplul 3. Pentru un eșantion de populație aleatoriu de 100 de observații, media calculată este 15,2 și abaterea standard este 3,2. Calculați intervalul de încredere de 95% pentru valoarea așteptată, apoi intervalul de încredere de 99%. Dacă puterea eșantionului și variația acesteia rămân neschimbate și coeficientul de încredere crește, intervalul de încredere se va îngusta sau se va lărgi?

Inlocuim aceste valori in expresia pentru intervalul de incredere:

unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

Primim:

.

Astfel, intervalul de încredere de 95% pentru media acestui eșantion a variat între 14,57 și 15,82.

Substituim din nou aceste valori în expresia pentru intervalul de încredere:

unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,01 .

Primim:

.

Astfel, intervalul de încredere de 99% pentru media acestui eșantion a variat între 14,37 și 16,02.

După cum vedem, pe măsură ce coeficientul de încredere crește, crește și valoarea critică a distribuției normale standard și, în consecință, punctele de început și de sfârșit ale intervalului sunt situate mai departe de medie și astfel intervalul de încredere pentru așteptarea matematică crește. .

Estimări punctiforme și pe intervale ale greutății specifice

Ponderea unui atribut al eșantionului poate fi interpretată ca o estimare punctuală greutate specifică p de aceeaşi caracteristică în populaţia generală. Dacă această valoare trebuie să fie asociată cu probabilitatea, atunci intervalul de încredere al greutății specifice trebuie calculat p caracteristică în populaţie cu probabilitate P = 1 - α :

.

Exemplul 4.Într-un oraș sunt doi candidați OŞi B candideaza pentru functia de primar. 200 de locuitori ai orașului au fost chestionați aleatoriu, dintre care 46% au răspuns că ar vota pentru candidat O, 26% - pentru candidat B iar 28% nu știu pe cine vor vota. Determinați intervalul de încredere de 95% pentru proporția de locuitori ai orașului care susțin candidatul O.

Intervalul de încredere ne vine din domeniul statisticii. Acesta este un anumit interval care servește la evaluare parametru necunoscut Cu grad înalt fiabilitate. Cel mai simplu mod de a explica acest lucru este cu un exemplu.

Să presupunem că trebuie să studiați o variabilă aleatorie, de exemplu, viteza de răspuns a serverului la o solicitare a clientului. De fiecare dată când un utilizator introduce adresa unui anumit site web, serverul răspunde cu la viteze diferite. Astfel, timpul de răspuns studiat este aleatoriu. Deci, intervalul de încredere ne permite să determinăm limitele acestui parametru și apoi putem spune că cu o probabilitate de 95% serverul va fi în intervalul pe care l-am calculat.

Sau trebuie să aflați despre câți oameni știu marcă comercială companiilor. Când se calculează intervalul de încredere, se va putea spune, de exemplu, că, cu o probabilitate de 95%, ponderea consumatorilor conștienți de acest lucru este în intervalul de la 27% la 34%.

Strâns legată de acest termen este valoarea probabilității de încredere. Reprezintă probabilitatea ca parametrul dorit să fie inclus în intervalul de încredere. Cât de mare va fi intervalul nostru dorit depinde de această valoare. Cu cât este mai mare valoarea pe care o ia, cu atât intervalul de încredere devine mai îngust și invers. De obicei, este setat la 90%, 95% sau 99%. Valoarea 95% este cea mai populară.

Acest indicator este influențat și de dispersia observațiilor, iar definiția sa se bazează pe presupunerea că caracteristica studiată se supune acestei afirmații, de asemenea, cunoscută sub numele de Legea lui Gauss. Potrivit lui, normala este o distribuție a tuturor probabilităților unei variabile aleatoare continue care poate fi descrisă printr-o densitate de probabilitate. Dacă ipoteza unei distribuții normale este incorectă, atunci estimarea poate fi incorectă.

Mai întâi, să ne dăm seama cum să calculăm intervalul de încredere pentru Există două cazuri posibile aici. Dispersia (gradul de răspândire a unei variabile aleatoare) poate fi cunoscută sau nu. Dacă este cunoscut, atunci intervalul nostru de încredere este calculat folosind următoarea formulă:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - semn,

t - parametru din tabelul de distribuție Laplace,

σ este rădăcina pătrată a varianței.

Dacă varianța este necunoscută, atunci poate fi calculată dacă cunoaștem toate valorile caracteristicii dorite. Pentru aceasta se folosește următoarea formulă:

σ2 = х2ср - (хср)2, unde

х2ср - valoarea medie a pătratelor caracteristicii studiate,

(хср)2 este pătratul acestei caracteristici.

Formula prin care se calculează intervalul de încredere în acest caz se modifică ușor:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - medie eșantion,

α - semn,

t este un parametru care se găsește folosind tabelul de distribuție Student t = t(ɣ;n-1),

sqrt(n) - rădăcina pătrată a dimensiunii totale a eșantionului,

s este rădăcina pătrată a varianței.

Luați în considerare acest exemplu. Să presupunem că pe baza rezultatelor a 7 măsurători, caracteristica studiată a fost determinată a fi egală cu 30, iar varianța eșantionului să fie egală cu 36. Este necesar să se găsească, cu o probabilitate de 99%, un interval de încredere care să conțină adevăratul valoarea parametrului măsurat.

Mai întâi, să determinăm cu ce t este egal: t = t (0,99; 7-1) = 3,71. Folosind formula de mai sus, obținem:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Intervalul de încredere pentru varianță se calculează atât în ​​cazul unei medii cunoscute, cât și atunci când nu există date despre așteptarea matematică și se cunoaște doar valoarea estimării punctuale a varianței. Nu vom da aici formule de calcul, deoarece acestea sunt destul de complexe și, dacă se dorește, pot fi întotdeauna găsite pe Internet.

Să remarcăm doar că este convenabil să determinați intervalul de încredere folosind Excel sau un serviciu de rețea, care se numește astfel.

Să construim un interval de încredere în MS EXCEL pentru a estima valoarea medie a distribuției în cazul unei valori de dispersie cunoscute.

Desigur alegerea nivelul de încredere depinde complet de problema rezolvată. Astfel, gradul de încredere al unui pasager aerian în fiabilitatea unui avion ar trebui să fie, fără îndoială, mai mare decât gradul de încredere al unui cumpărător în fiabilitatea unui bec electric.

Formularea problemei

Să presupunem că de la populatie fiind luate eşantion marimea n. Se presupune că abaterea standard această distribuţie este cunoscută. Necesar pe baza acestui lucru mostre evalua necunoscutul mijloc de distribuție(μ, ) și construiți corespunzătoare faţă-verso interval de încredere.

Estimare punctuală

După cum se știe din statistici(să o notăm medie X) este estimare imparțială a mediei acest populatieși are o distribuție N(μ;σ 2 /n).

Nota: Ce să faci dacă trebuie să construiești interval de încredereîn cazul unei distribuţii care nu este normal?În acest caz, vine în ajutor, care afirmă că cu o dimensiune suficient de mare mostre n din distribuție nefiind normal, distribuția eșantionului de statistici X avg voinţă aproximativ corespund distributie normala cu parametrii N(μ;σ 2 /n).

Aşa, estimare punctuală medie valorile de distribuție avem - asta eșantion mediu, adică medie X. Acum să începem interval de încredere.

Construirea unui interval de încredere

De obicei, cunoscând distribuția și parametrii acesteia, putem calcula probabilitatea ca variabila aleatoare să ia o valoare din intervalul pe care îl specificăm. Acum să facem invers: găsiți intervalul în care variabila aleatoare va cădea cu o probabilitate dată. De exemplu, din proprietăți distributie normala se ştie că, cu o probabilitate de 95%, o variabilă aleatoare distribuită peste legea normală, se va încadra în intervalul de aproximativ +/- 2 de la valoare medie(vezi articolul despre). Acest interval ne va servi drept prototip interval de încredere.

Acum să vedem dacă știm distribuția , pentru a calcula acest interval? Pentru a răspunde la întrebare, trebuie să indicăm forma distribuției și parametrii acesteia.

Cunoaștem forma de distribuție - aceasta este distributie normala(rețineți că vorbim despre distribuția eșantionului statistici medie X).

Parametrul μ ne este necunoscut (trebuie doar estimat folosind interval de încredere), dar avem o estimare a acesteia medie X, calculat pe baza mostre, care poate fi folosit.

Al doilea parametru - abaterea standard a mediei eșantionului îl vom considera cunoscut, este egal cu σ/√n.

Deoarece nu știm μ, atunci vom construi intervalul +/- 2 abateri standard nu de la valoare medie, și din estimarea sa cunoscută medie X. Aceste. la calcul interval de încredere NU vom presupune că medie X se încadrează în intervalul +/- 2 abateri standard de la μ cu o probabilitate de 95% și vom presupune că intervalul este +/- 2 abateri standard din medie X cu 95% probabilitate va acoperi μ – media populației generale, din care a fost luat eşantion. Aceste două afirmații sunt echivalente, dar a doua declarație ne permite să construim interval de încredere.

În plus, să clarificăm intervalul: o variabilă aleatoare distribuită peste legea normală, cu o probabilitate de 95% se încadrează în intervalul +/- 1.960 abateri standard, nu +/- 2 abateri standard. Aceasta poate fi calculată folosind formula =NORM.ST.REV((1+0,95)/2), cm. fișier exemplu Sheet Interval.

Acum putem formula o afirmație probabilistică care ne va servi să formăm interval de încredere:
„Probabilitatea ca media populatiei situat din medie a probeiîn termen de 1.960" abaterile standard ale mediei eșantionului", egal cu 95%”.

Valoarea probabilității menționată în declarație are o denumire specială , care este asociat cu nivelul de semnificație α (alfa) printr-o expresie simplă nivelul de încredere =1 . În cazul nostru nivelul de semnificație α =1-0,95=0,05 .

Acum, pe baza acestei afirmații probabilistice, scriem o expresie pentru calcul interval de încredere:

unde Z α/2 standard distributie normala(această valoare a variabilei aleatoare z, Ce P(z>=Z α/2 )=α/2).

Nota: α/2-quantila superioară definește lățimea interval de încredere V abateri standard eșantion mediu. α/2-quantila superioară standard distributie normalaîntotdeauna mai mare decât 0, ceea ce este foarte convenabil.

În cazul nostru, cu α=0,05, α/2-quantila superioară este egal cu 1.960. Pentru alte niveluri de semnificație α (10%; 1%) α/2-quantila superioară Z α/2 poate fi calculat folosind formula =NORM.ST.REV(1-α/2) sau, dacă este cunoscută nivelul de încredere, =NORM.ST.OBR((1+nivel de încredere)/2).

De obicei, la construirea intervale de încredere pentru estimarea mediei utilizați numai α superioară/2-cuantilă si nu folositi mai mic α/2-cuantilă. Acest lucru este posibil pentru că standard distributie normala simetric fata de axa x ( densitatea sa de distribuție simetric despre medie, adică 0). Prin urmare, nu este nevoie să se calculeze α/2-cuantilă mai mică(se numește pur și simplu α /2-quantila), pentru că este egal α superioară/2-cuantilă cu semnul minus.

Să ne amintim că, în ciuda formei distribuției valorii x, variabila aleatoare corespunzătoare medie X distribuite aproximativ Amenda N(μ;σ 2 /n) (vezi articolul despre). Prin urmare, în general, expresia de mai sus pentru interval de încredere este doar o aproximare. Dacă valoarea x este distribuită peste legea normală N(μ;σ 2 /n), apoi expresia pentru interval de încredere este exactă.

Calcul intervalului de încredere în MS EXCEL

Să rezolvăm problema.
Timpul de răspuns al unei componente electronice la un semnal de intrare este o caracteristică importantă a dispozitivului. Un inginer dorește să construiască un interval de încredere pentru timpul mediu de răspuns la un nivel de încredere de 95%. Din experiența anterioară, inginerul știe că abaterea standard a timpului de răspuns este de 8 ms. Se știe că pentru a evalua timpul de răspuns, inginerul a făcut 25 de măsurători, valoarea medie a fost de 78 ms.

Soluţie: Un inginer vrea să cunoască timpul de răspuns al unui dispozitiv electronic, dar înțelege că timpul de răspuns nu este o valoare fixă, ci o variabilă aleatorie care are propria sa distribuție. Deci, cel mai bun lucru la care poate spera este să determine parametrii și forma acestei distribuții.

Din păcate, din condițiile problemei nu cunoaștem forma distribuției timpului de răspuns (nu trebuie să fie normal). , această distribuție este de asemenea necunoscută. Numai el este cunoscut abaterea standardσ=8. Prin urmare, în timp ce nu putem calcula probabilitățile și construi interval de încredere.

Cu toate acestea, în ciuda faptului că nu cunoaștem distribuția timp răspuns separat, știm că conform CPT, distribuția eșantionului timpul mediu de răspuns este de aproximativ normal(vom presupune că condițiile CPT sunt efectuate, deoarece dimensiune mostre destul de mare (n=25)) .

În plus, medie această distribuţie este egală cu valoare medie distribuția unui singur răspuns, adică μ. O abaterea standard a acestei distribuții (σ/√n) poate fi calculată folosind formula =8/ROOT(25) .

De asemenea, se știe că inginerul a primit estimare punctuală parametrul μ egal cu 78 ms (X avg). Prin urmare, acum putem calcula probabilități, deoarece cunoaștem forma de distribuție ( normal) și parametrii săi (X avg și σ/√n).

Inginerul vrea să știe așteptări matematiceμ distribuțiile timpului de răspuns. După cum sa menționat mai sus, acest μ este egal cu așteptarea matematică a distribuției eșantionului a timpului mediu de răspuns. Dacă folosim distributie normala N(X avg; σ/√n), atunci μ dorit va fi în intervalul +/-2*σ/√n cu o probabilitate de aproximativ 95%.

Nivel de semnificație este egal cu 1-0,95=0,05.

În cele din urmă, să găsim marginile din stânga și din dreapta interval de încredere.
Chenarul din stânga: =78-NORM.ST.INV(1-0,05/2)*8/ROOT(25) = 74,864
Chenarul din dreapta: =78+NORM.ST.INV(1-0,05/2)*8/ROOT(25)=81,136

Chenarul din stânga: =NORM.REV(0,05/2; 78; 8/ROOT(25))
Chenarul din dreapta: =NORM.REV(1-0,05/2; 78; 8/ROOT(25))

Răspuns: interval de încredere la Nivel de încredere de 95% și σ=8msec egală 78+/-3,136 ms.

ÎN exemplu de fișier pe foaia Sigma cunoscut, a creat o formă de calcul și construcție faţă-verso interval de încredere pentru arbitrar mostre cu σ dat și nivelul de semnificație.

Funcția CONFIDENCE.NORM().

Dacă valorile mostre sunt în gamă B20:B79 , A nivelul de semnificație egal cu 0,05; apoi formula MS EXCEL:
=MEDIE(B20:B79)-ÎNCREDERE.NORMĂ(0,05;σ; NUMĂRĂ (B20:B79))
va întoarce marginea stângă interval de încredere.

Aceeași limită poate fi calculată folosind formula:
=AVERAGE(B20:B79)-NORM.ST.REV(1-0,05/2)*σ/ROOT(COUNT(B20:B79))

Nota: Funcția CONFIDENCE.NORM() a apărut în MS EXCEL 2010. În versiunile anterioare ale MS EXCEL, a fost folosită funcția TRUST().

Inteligența constă nu numai în cunoaștere, ci și în capacitatea de a aplica cunoștințele în practică. (Aristotel)

Intervalele de încredere

Prezentare generală

Luând un eșantion din populație, obținem o estimare punctuală a parametrului de interes și calculăm eroarea standard pentru a indica precizia estimării.

Cu toate acestea, pentru majoritatea cazurilor, eroarea standard ca atare nu este acceptabilă. Este mult mai util să combinați această măsură de precizie cu o estimare a intervalului pentru parametrul populației.

Acest lucru se poate face prin utilizarea cunoștințelor distribuției teoretice de probabilitate a statisticii (parametrului) eșantionului pentru a calcula un interval de încredere (CI - Intervalul de încredere, CI - Intervalul de încredere) pentru parametru.

În general, un interval de încredere extinde estimările în ambele direcții cu un anumit multiplu al erorii standard (a unui parametru dat); cele două valori (limitele de încredere) care definesc intervalul sunt de obicei separate prin virgulă și cuprinse între paranteze.

Interval de încredere pentru medie

Folosind distribuția normală

Media eșantionului este distribuită în mod normal dacă dimensiunea eșantionului este mare, astfel încât să puteți aplica cunoștințele despre distribuția normală atunci când luați în considerare media eșantionului.

Mai exact, 95% din distribuția mediilor eșantionului se află în 1,96 deviații standard (SD) față de media populației.

Când avem un singur eșantion, îl numim eroarea standard a mediei (SEM) și calculăm intervalul de încredere de 95% pentru medie după cum urmează:

Dacă repetăm ​​acest experiment de mai multe ori, intervalul va conține media reală a populației în 95% din timp.

De obicei, acesta este un interval de încredere, cum ar fi intervalul de valori în care se află media reală a populației (media generală) cu un nivel de încredere de 95%.

Deși nu este în întregime riguros (media populației este o valoare fixă ​​și, prin urmare, nu poate avea o probabilitate atașată) să interpretăm un interval de încredere în acest fel, este conceptual mai ușor de înțeles.

Utilizare t- distributie

Puteți folosi distribuția normală dacă cunoașteți valoarea varianței în populație. De asemenea, atunci când dimensiunea eșantionului este mică, media eșantionului urmează o distribuție normală dacă datele populației subiacente sunt distribuite în mod normal.

Dacă datele care stau la baza populației nu sunt distribuite în mod normal și/sau varianța generală (varianța în populație) este necunoscută, media eșantionului se supune Distribuția t a studentului.

Calculăm intervalul de încredere de 95% pentru media populației generale după cum urmează:

Unde este punctul procentual (percentila) t- Distribuția t a lui Student cu (n-1) grade de libertate, care dă o probabilitate cu două fețe de 0,05.

În general, oferă o gamă mai largă decât utilizarea distribuției normale deoarece ia în considerare incertitudinea suplimentară introdusă prin estimarea abaterii standard a populației și/sau datorită dimensiunii reduse a eșantionului.

Când dimensiunea eșantionului este mare (de ordinul a 100 sau mai mult), diferența dintre cele două distribuții ( t-Studentși normal) este nesemnificativă. Cu toate acestea, ele folosesc întotdeauna t- distribuția la calcularea intervalelor de încredere, chiar dacă dimensiunea eșantionului este mare.

De obicei este raportat IC de 95%. Alte intervale de încredere pot fi calculate, cum ar fi IC 99% pentru medie.

În loc de produsul erorii standard și valoarea tabelului t- distribuție, care corespunde unei probabilități cu două fețe de 0,05, înmulțiți-o (eroarea standard) cu valoarea care corespunde unei probabilități cu două fețe de 0,01. Acesta este un interval de încredere mai larg decât intervalul de încredere de 95%, deoarece reflectă o încredere crescută că intervalul include de fapt media populației.

Interval de încredere pentru proporție

Distribuția de eșantionare a proporțiilor are o distribuție binomială. Cu toate acestea, dacă dimensiunea eșantionului n este rezonabil de mare, atunci distribuția de eșantionare a proporției este aproximativ normală cu media .

Evaluăm prin raport selectiv p=r/n(Unde r- numărul de indivizi din eșantion cu trăsăturile caracteristice care ne interesează), iar eroarea standard este estimată:

Intervalul de încredere de 95% pentru proporție este estimat:

Dacă dimensiunea eșantionului este mică (de obicei când n.p. sau n(1-p) Mai puțin 5 ), atunci este necesar să se utilizeze distribuția binomială pentru a calcula intervalele de încredere precise.

Rețineți că dacă p exprimat ca procent, atunci (1-p)înlocuit cu (100-p).

Interpretarea intervalelor de încredere

Când interpretăm un interval de încredere, ne interesează următoarele întrebări:

Cât de larg este intervalul de încredere?

Un interval larg de încredere indică faptul că estimarea este imprecisă; îngust indică o estimare precisă.

Lățimea intervalului de încredere depinde de mărimea erorii standard, care, la rândul său, depinde de dimensiunea eșantionului și, atunci când se ia în considerare o variabilă numerică, variabilitatea datelor produce intervale de încredere mai largi decât studiile unui set mare de date cu puține variabile. .

CI include valori de interes deosebit?

Puteți verifica dacă valoarea probabilă pentru un parametru de populație se încadrează în intervalul de încredere. Dacă da, rezultatele sunt în concordanță cu această valoare probabilă. Dacă nu, atunci este puțin probabil (pentru un interval de încredere de 95% șansa este de aproape 5%) ca parametrul să aibă acea valoare.

Publicații pe această temă