Cum se calculează coeficientul de corelație în Excel. Coeficientul de corelație al perechilor în Excel

Coeficientul de corelație (sau coeficientul de corelație liniară) este notat cu „r” (în cazuri rare ca „ρ”) și caracterizează corelația liniară (adică relația dată de o anumită valoare și direcție) a două sau mai multe variabile. Valoarea coeficientului se află între -1 și +1, adică corelația poate fi atât pozitivă, cât și negativă. Dacă coeficientul de corelație este -1, există o corelație negativă perfectă; dacă coeficientul de corelație este +1, există o corelație pozitivă perfectă. În alte cazuri, există o corelație pozitivă, o corelație negativă sau nicio corelație între două variabile. Coeficientul de corelare poate fi calculat manual, folosind calculatoare online gratuite sau folosind un calculator grafic bun.

Pași

Calcularea manuală a coeficientului de corelație

    Colectați date.Înainte de a începe să calculați coeficientul de corelație, studiați perechea de numere dată. Este mai bine să le scrieți într-un tabel care poate fi plasat vertical sau orizontal. Etichetați fiecare rând sau coloană ca „x” și „y”.

    • De exemplu, sunt date patru perechi de valori (numere) ale variabilelor „x” și „y”. Puteți crea următorul tabel:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  1. Calculați media aritmetică a lui „x”. Pentru a face acest lucru, adunați toate valorile „x” și apoi împărțiți rezultatul rezultat la numărul de valori.

    • În exemplul nostru, sunt date patru valori ale variabilei „x”. Pentru a calcula media aritmetică a lui „x”, adăugați aceste valori și apoi împărțiți suma la 4. Calculele vor fi scrise astfel:
    • μ x = (1 + 2 + 4 + 5) / 4 (\displaystyle \mu _(x)=(1+2+4+5)/4)
    • μ x = 12 / 4 (\displaystyle \mu _(x)=12/4)
    • μ x = 3 (\displaystyle \mu _(x)=3)
  2. Aflați media aritmetică „y”. Pentru a face acest lucru, urmați pași similari, adică adăugați toate valorile lui „y”, apoi împărțiți suma la numărul de valori.

    • În exemplul nostru, sunt date patru valori ale variabilei „y”. Adăugați aceste valori și apoi împărțiți suma la 4. Calculele vor fi scrise astfel:
    • μ y = (1 + 3 + 5 + 7) / 4 (\displaystyle \mu _(y)=(1+3+5+7)/4)
    • μ y = 16 / 4 (\displaystyle \mu _(y)=16/4)
    • μ y = 4 (\displaystyle \mu _(y)=4)
  3. Calculați abaterea standard a lui „x”. După calcularea valorilor medii ale lui „x” și „y”, găsiți abateri standard aceste variabile. Abaterea standard se calculează folosind următoarea formulă:

    • σ x = 1 n - 1 Σ (x − μ x) 2 (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(n-1))\Sigma (x-\mu _( x))^(2))))
    • σ x = 1 4 − 1 ∗ ((1 − 3) 2 + (2 − 3) 2 + (4 − 3) 2 + (5 − 3) 2) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(4-1))*((1-3)^(2)+(2-3)^(2)+(4-3)^(2)+(5-3) ^(2)))))
    • σ x = 1 3 ∗ (4 + 1 + 1 + 4) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(3))*(4+1+1+4)) ))
    • σ x = 1 3 ∗ (10) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(3))*(10))))
    • σ x = 10 3 (\displaystyle \sigma _(x)=(\sqrt (\frac (10)(3))))
    • σ x = 1, 83 (\displaystyle \sigma _(x)=1,83)
  4. Calculați abaterea standard a lui „y”. Urmați pașii descriși în pasul anterior. Utilizați aceeași formulă, dar înlocuiți valorile „y” în ea.

    • În exemplul nostru, calculele vor fi scrise astfel:
    • σ y = 1 4 − 1 ∗ ((1 − 4) 2 + (3 − 4) 2 + (5 − 4) 2 + (7 − 4) 2) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(4-1))*((1-4)^(2)+(3-4)^(2)+(5-4)^(2)+(7-4) ^(2)))))
    • σ y = 1 3 ∗ (9 + 1 + 1 + 9) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(3))*(9+1+1+9)) ))
    • σ y = 1 3 ∗ (20) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(3))*(20))))
    • σ y = 20 3 (\displaystyle \sigma _(y)=(\sqrt (\frac (20)(3))))
    • σ y = 2,58 (\displaystyle \sigma _(y)=2,58)
  5. Notați formula de bază pentru calcularea coeficientului de corelație. Această formulă include mediile, abaterile standard și numărul (n) perechi de numere pentru ambele variabile. Coeficientul de corelație este notat cu „r” (în cazuri rare ca „ρ”). Acest articol folosește o formulă pentru a calcula coeficientul de corelație Pearson.

    • Aici și în alte surse, cantitățile pot fi desemnate diferit. De exemplu, unele formule conțin „ρ” și „σ”, în timp ce altele conțin „r” și „s”. Unele manuale dau alte formule, dar sunt analogi matematici ai formulei de mai sus.
  6. Ați calculat mediile și abaterile standard ale ambelor variabile, astfel încât să puteți utiliza formula pentru a calcula coeficientul de corelație. Amintiți-vă că „n” este numărul de perechi de valori pentru ambele variabile. Valorile altor cantități au fost calculate mai devreme.

    • În exemplul nostru, calculele vor fi scrise astfel:
    • ρ = (1 n - 1) Σ (x - μ x σ x) ∗ (y - μ y σ y) (\displaystyle \rho =\left((\frac (1)(n-1))\right) \Sigma \left((\frac (x-\mu _(x))(\sigma _(x)))\right)*\left((\frac (y-\mu _(y)))(\sigma _(y)))\dreapta))
    • ρ = (1 3) ∗ (\displaystyle \rho =\left((\frac (1)(3))\right)*)[ (1 − 3 1 , 83) ∗ (1 − 4 2 , 58) + (2 − 3 1 , 83) ∗ (3 − 4 2 , 58) (\displaystyle \left((\frac (1-3)() 1.83))\right)*\left((\frac (1-4)(2.58))\right)+\left((\frac (2-3)(1.83))\right) *\left((\ frac (3-4)(2.58))\dreapta))
      + (4 − 3 1 , 83) ∗ (5 − 4 2 , 58) + (5 − 3 1 , 83) ∗ (7 − 4 2 , 58) (\displaystyle +\left((\frac (4-3) )(1.83))\dreapta)*\left((\frac (5-4)(2.58))\right)+\left((\frac (5-3)(1.83))\ dreapta)*\left( (\frac (7-4)(2.58))\dreapta))]
    • ρ = (1 3) ∗ (6 + 1 + 1 + 6 4 , 721) (\displaystyle \rho =\left((\frac (1)(3))\right)*\left((\frac (6) +1+1+6)(4.721))\dreapta))
    • ρ = (1 3) ∗ 2 , 965 (\displaystyle \rho =\left((\frac (1)(3))\right)*2.965)
    • ρ = (2 , 965 3) (\displaystyle \rho =\left((\frac (2.965)(3))\right))
    • ρ = 0,988 (\displaystyle \rho =0,988)
  7. Analizați rezultatul.În exemplul nostru, coeficientul de corelație este 0,988. Această valoare caracterizează într-un fel acest set de perechi de numere. Acordați atenție semnului și mărimii valorii.

    • Deoarece valoarea coeficientului de corelare este pozitivă, există o corelație pozitivă între variabilele „x” și „y”. Adică, pe măsură ce valoarea lui „x” crește, crește și valoarea lui „y”.
    • Deoarece valoarea coeficientului de corelație este foarte apropiată de +1, valorile variabilelor „x” și „y” sunt foarte interdependente. Dacă pui puncte plan de coordonate, vor fi situate aproape de vreo linie dreaptă.

    Utilizarea calculatoarelor online pentru a calcula coeficientul de corelație

    1. Găsiți un calculator pe Internet pentru a calcula coeficientul de corelație. Acest coeficient este destul de des calculat în statistici. Dacă există multe perechi de numere, este aproape imposibil să se calculeze manual coeficientul de corelație. Prin urmare, există calculatoare online pentru a calcula coeficientul de corelație. Într-un motor de căutare, introduceți „calculator coeficient de corelare” (fără ghilimele).

    2. Introduceți detaliile dvs. Consultați instrucțiunile de pe site pentru a vă asigura că introduceți corect datele (perechile de numere). Este extrem de important să introduceți perechile adecvate de numere; altfel veți obține un rezultat incorect. Rețineți că site-urile web diferite au formate diferite de introducere a datelor.

      • De exemplu, pe site-ul http://ncalculators.com/statistics/correlation-coefficient-calculator.htm valorile variabilelor „x” și „y” sunt introduse în două linii orizontale. Valorile sunt separate prin virgule. Adică, în exemplul nostru, valorile „x” sunt introduse astfel: 1,2,4,5, iar valorile „y” astfel: 1,3,5,7.
      • Pe un alt site, http://www.alcula.com/calculators/statistics/correlation-coefficient/, datele sunt introduse vertical; în acest caz, nu confundați perechile corespunzătoare de numere.
    3. Calculați coeficientul de corelație. După ce ați introdus datele, faceți clic pe butonul „Calculați”, „Calculați” sau pe butonul similar pentru a obține rezultatul.

      Folosind un calculator grafic

      1. Introduceți detaliile dvs. Luați un calculator grafic, intrați în modul statistic și selectați comanda Editare.

        • Calculatoare diferite necesită apăsări diferite de taste. Acest articol discută despre calculatorul Texas Instruments TI-86.
        • Pentru a comuta la modul de calcul statistic, apăsați – Stat (deasupra tastei „+”). Apoi apăsați F2 – Editați.
      2. Ștergeți datele salvate anterioare. Majoritatea calculatoarelor stochează statisticile pe care le introduceți până când le ștergeți. Pentru a evita confundarea datelor vechi cu datele noi, mai întâi ștergeți orice informație stocată.

        • Utilizați tastele săgeți pentru a muta cursorul și evidențiați titlul „xStat”. Apoi apăsați Clear și Enter pentru a elimina toate valorile introduse în coloana xStat.
        • Utilizați tastele săgeți pentru a evidenția titlul „yStat”. Apoi apăsați Clear și Enter pentru a șterge toate valorile introduse în coloana yStat.
      3. Introduceți datele inițiale. Utilizați tastele săgeți pentru a muta cursorul la prima celulă de sub titlul „xStat”. Introduceți prima valoare și apăsați Enter. „xStat (1) = __” va fi afișat în partea de jos a ecranului, unde valoarea introdusă va apărea în loc de spațiu. După ce apăsați Enter, valoarea introdusă va apărea în tabel și cursorul se va muta pe linia următoare; aceasta va afișa „xStat (2) = __” în partea de jos a ecranului.

        • Introduceți toate valorile pentru variabila „x”.
        • După ce ați introdus toate valorile pentru variabila x, utilizați tastele săgeți pentru a vă deplasa la coloana yStat și introduceți valorile pentru variabila y.
        • După ce au fost introduse toate perechile de numere, apăsați Ieșire pentru a șterge ecranul și a ieși din modul de calcul statistic.
      4. Calculați coeficientul de corelație. Caracterizează cât de aproape sunt datele de o anumită linie. Un calculator grafic poate determina rapid linia corespunzătoare și poate calcula coeficientul de corelație.

        • Faceți clic pe Stat - Calc. Pe TI-86 trebuie să apăsați – –.
        • Selectați funcția „Regresie liniară”. Pe TI-86, apăsați , care este etichetat „LinR”. Ecranul va afișa linia „LinR_” cu un cursor care clipește.
        • Acum introduceți numele a două variabile: xStat și yStat.
          • Pe TI-86, deschideți lista de nume; Pentru a face acest lucru, apăsați – – .
          • Linia de jos a ecranului va afișa variabilele disponibile. Selectați (probabil va trebui să apăsați F1 sau F2 pentru a face acest lucru), introduceți o virgulă, apoi selectați .
          • Apăsați Enter pentru a procesa datele introduse.
      5. Analizează-ți rezultatele. Apăsând Enter, următoarele informații vor fi afișate pe ecran:

        • y = a + b x (\displaystyle y=a+bx): Aceasta este o funcție care descrie o linie dreaptă. Vă rugăm să rețineți că funcția nu este scrisă în formă standard (y = khx + b).
        • a = (\displaystyle a=). Aceasta este coordonata „y” a punctului în care linia intersectează axa Y.
        • b = (\displaystyle b=). Aceasta este panta liniei.
        • corr = (\displaystyle (\text(corr))=). Acesta este coeficientul de corelație.
        • n = (\displaystyle n=). Acesta este numărul de perechi de numere care au fost utilizate în calcule.

Articolul de astăzi va vorbi despre modul în care variabilele pot fi legate între ele. Folosind corelația, putem determina dacă există o relație între prima și a doua variabilă. Sper că veți găsi această activitate la fel de distractivă ca și precedentele!

Corelația măsoară puterea și direcția relației dintre x și y. Figura arată diverse tipuri corelații sub formă de diagrame de dispersie a perechilor ordonate (x, y). În mod tradițional, variabila x este plasată pe axa orizontală, și y - pe verticală.

Graficul A este un exemplu de corelație liniară pozitivă: pe măsură ce x crește, crește și y și liniar. Graficul B ne arată un exemplu de corelație liniară negativă, unde pe măsură ce x crește, y scade liniar. În graficul C vedem că nu există o corelație între x și y. Aceste variabile nu se influențează reciproc în niciun fel.

În cele din urmă, Graficul D este un exemplu de relații neliniare între variabile. Pe măsură ce x crește, y mai întâi scade, apoi își schimbă direcția și crește.

Restul articolului se concentrează pe relațiile liniare dintre variabilele dependente și independente.

Coeficientul de corelație

Coeficientul de corelație, r, ne oferă atât puterea, cât și direcția relației dintre variabilele independente și dependente. Valorile lui r variază între -1,0 și +1,0. Când r are valoare pozitivă, relația dintre x și y este pozitivă (graficul A din figură), iar când valoarea lui r este negativă, relația este și ea negativă (graficul B). Un coeficient de corelație apropiat de zero indică faptul că nu există nicio relație între x și y (graficul C).

Puterea relației dintre x și y este determinată dacă coeficientul de corelație este aproape de - 1,0 sau +- 1,0. Studiați următorul desen.

Graficul A arată o corelație pozitivă perfectă între x și y la r = + 1,0. Graficul B - corelația negativă ideală între x și y la r = - 1,0. Graficele C și D sunt exemple de relații mai slabe între variabilele dependente și independente.

Coeficientul de corelație, r, determină atât puterea, cât și direcția relației dintre variabilele dependente și independente. Valorile r variază de la - 1,0 (relație negativă puternică) la + 1,0 (relație pozitivă puternică). Când r = 0 nu există nicio legătură între variabilele x și y.

Putem calcula coeficientul de corelație real folosind următoarea ecuație:

Ei bine, bine! Știu că această ecuație arată ca un amestec înfricoșător de simboluri ciudate, dar înainte de a intra în panică, să-i aplicăm exemplul unei note de examen. Să presupunem că vreau să determin dacă există o relație între numărul de ore pe care un student le dedică studierii statisticii și nota finală la examen. Tabelul de mai jos ne va ajuta să descompunem această ecuație în mai multe calcule simple și să le facem mai ușor de gestionat.

După cum puteți vedea, există o corelație pozitivă foarte puternică între numărul de ore dedicate studierii unei discipline și nota la examen. Profesorii vor fi foarte bucuroși să afle despre acest lucru.

Care este beneficiul stabilirii de relații între variabile similare? Mare întrebare. Dacă se constată că există o relație, putem prezice rezultatele examenului pe baza unui anumit număr de ore petrecute studiind subiectul. Mai simplu spus, cu cât conexiunea este mai puternică, cu atât predicția noastră va fi mai precisă.

Utilizarea Excel pentru a calcula coeficienții de corelație

Sunt sigur că atunci când te uiți la aceste calcule groaznice ale coeficienților de corelație, vei fi cu adevărat încântat să știi că programul Excel poate face toată această muncă pentru dvs. folosind funcția CORREL cu următoarele caracteristici:

CORREL (matrice 1; matrice 2),

matrice 1 = interval de date pentru prima variabilă,

matrice 2 = interval de date pentru a doua variabilă.

De exemplu, figura prezintă funcția CORREL utilizată pentru a calcula coeficientul de corelare pentru exemplul de calificare la examen.

Coeficientul de corelație este utilizat atunci când este necesar să se determine valoarea relației dintre valori. Ulterior, aceste date sunt specificate într-un tabel care este definit ca o matrice de corelație. Folosind programul Microsoft Excel Puteți calcula corelația.

Coeficientul de corelație este determinat de unele date. Dacă nivelul indicatorului este de la 0 la 0,3, atunci în acest caz nu există nicio conexiune. Dacă indicatorul este de la 0,3 la 0,5, aceasta este o conexiune slabă. Dacă indicatorul ajunge la 0,7, atunci conexiunea este medie. Poate fi numit ridicat atunci când indicatorul ajunge la 0,7-0,9. Dacă indicatorul este 1, aceasta este cea mai puternică conexiune.

Primul pas este conectarea pachetului de analiză a datelor. Fără activarea acesteia, alte acțiuni nu pot fi efectuate. Îl puteți conecta deschizând secțiunea „Acasă” și selectând „Opțiuni” în meniu.


În continuare, se va deschide o nouă fereastră. În el trebuie să selectați „Suplimente” și în câmpul de control al setărilor selectați „Suplimente Excel” din elementele din listă.
După lansarea ferestrei de parametri, utilizați meniul vertical din stânga pentru a merge la secțiunea „Suplimente”. După aceea, faceți clic pe „Go”.

După acești pași, puteți începe să lucrați. A fost creat un tabel cu date și folosind exemplul acestuia vom găsi coeficientul de corelație multiplă.
Mai întâi, deschideți secțiunea „Date” și selectați „Analiza datelor” dintre instrumente.

Se va deschide o fereastră specială cu instrumente de analiză. Selectați „Corelație” și confirmați acțiunea.

O nouă fereastră cu parametrii va apărea în fața utilizatorului. Intervalul de intrare este un interval de valori din tabel. O puteți seta fie manual, fie selectând datele care vor fi afișate într-un câmp special. De asemenea, puteți degrupa elementele tabelului. Vom face ieșirea pe pagina curentă, ceea ce înseamnă că în setările parametrilor de ieșire selectăm „Interval de ieșire”. După aceasta, confirmăm acțiunea.

Analiza de regresie și corelație - metode statistice cercetare. Acestea sunt cele mai comune moduri de a arăta dependența unui parametru de una sau mai multe variabile independente.

Mai jos pe specific exemple practice Să ne uităm la aceste două analize foarte populare printre economiști. Vom da, de asemenea, un exemplu de obținere a rezultatelor atunci când le combinăm.

Analiza de regresie în Excel

Arată influența unor valori (independente, independente) asupra variabilei dependente. De exemplu, cum depinde numărul populației active din punct de vedere economic de numărul de întreprinderi, salarii și alți parametri. Sau: cum afectează investițiile străine, prețurile la energie etc. nivelul PIB-ului.

Rezultatul analizei vă permite să evidențiați prioritățile. Și pe baza factorilor principali, anticipați, planificați dezvoltarea zonelor prioritare și luați decizii de management.

Are loc regresia:

  • liniară (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponențial (y = a * exp(bx));
  • putere (y = a*x^b);
  • hiperbolic (y = b/x + a);
  • logaritmică (y = b * 1n(x) + a);
  • exponențial (y = a * b^x).

Să ne uităm la un exemplu de construire a unui model de regresie în Excel și de interpretare a rezultatelor. Să luăm tipul liniar de regresie.

Sarcină. La 6 întreprinderi, media lunară salariileși numărul de angajați care au plecat. Este necesar să se determine dependența numărului de angajați care renunță la salariul mediu.

Modelul de regresie liniară are următoarea formă:

Y = a 0 + a 1 x 1 +…+a k x k.

Unde a sunt coeficienți de regresie, x sunt variabile de influență, k este numărul de factori.

În exemplul nostru, Y este indicatorul renunțării angajaților. Factorul de influență este salariul (x).

Excel are funcții încorporate care vă pot ajuta să calculați parametrii unui model de regresie liniară. Dar suplimentul „Pachet de analiză” va face acest lucru mai repede.

Activăm un instrument analitic puternic:

Odată activat, suplimentul va fi disponibil în fila Date.

Acum să facem însăși analiza de regresie.



În primul rând, acordăm atenție R-pătratului și coeficienților.

R-pătrat este coeficientul de determinare. În exemplul nostru – 0,755 sau 75,5%. Aceasta înseamnă că parametrii de proiectare modelele explică 75,5% din dependența dintre parametrii studiați. Cu cât coeficientul de determinare este mai mare, cu atât modelul este mai bun. Bun - peste 0,8. Proastă – mai mică de 0,5 (o astfel de analiză nu poate fi considerată rezonabilă). În exemplul nostru – „nu e rău”.

Coeficientul 64,1428 arată ce va fi Y dacă toate variabilele din modelul luat în considerare sunt egale cu 0. Adică valoarea parametrului analizat este influențată și de alți factori nedescriși în model.

Coeficientul -0,16285 arată ponderea variabilei X pe Y. Adică salariul mediu lunar în cadrul acestui model afectează numărul de renunțați cu o pondere de -0,16285 (acesta este un grad mic de influență). Semnul „-” indică un impact negativ: decât mai mult salariu, cu cât renunță mai puțini oameni. Ceea ce este corect.



Analiza corelației în Excel

Analiza corelației ajută la determinarea dacă există o relație între indicatorii din unul sau două eșantioane. De exemplu, între timpul de funcționare al unei mașini și costul reparațiilor, prețul echipamentului și durata de funcționare, înălțimea și greutatea copiilor etc.

Dacă există o conexiune, atunci o creștere a unui parametru duce la o creștere (corelație pozitivă) sau o scădere (negativă) a celuilalt. Analiza corelației ajută analistul să determine dacă valoarea unui indicator poate fi utilizată pentru a prezice valoarea posibilă a altuia.

Coeficientul de corelație se notează cu r. Variază de la +1 la -1. Clasificarea corelaţiilor pentru zone diferite va fi diferit. Când coeficientul este 0 dependență liniară nu există între probe.

Să vedem cum să găsim coeficientul de corelație folosind Excel.

Pentru a găsi coeficienți perechi, este utilizată funcția CORREL.

Obiectiv: Determinați dacă există o relație între timpul de funcționare strungși costul întreținerii acestuia.

Plasați cursorul în orice celulă și apăsați butonul fx.

  1. În categoria „Statistică”, selectați funcția CORREL.
  2. Argumentul „Matrice 1” - primul interval de valori – timpul de funcționare al mașinii: A2:A14.
  3. Argumentul „Matrice 2” - al doilea interval de valori – costul reparației: B2:B14. Faceți clic pe OK.

Pentru a determina tipul de conexiune, trebuie să vă uitați număr absolut coeficient (fiecare domeniu de activitate are propria sa scară).

Pentru analiza corelației mai mulți parametri (mai mult de 2), este mai convenabil să utilizați „Analiza datelor” (suplimentul „Pachet de analiză”). Trebuie să selectați corelația din listă și să desemnați matricea. Toate.

Coeficienții rezultați vor fi afișați în matricea de corelație. Ca aceasta:

Analiza corelației și regresiei

În practică, aceste două tehnici sunt adesea folosite împreună.

Exemplu:


Acum datele sunt vizibile analiza regresiei.

Testul de corelație Pearson este o metodă de statistică parametrică care vă permite să determinați prezența sau absența unei relații liniare între doi indicatori cantitativi, precum și să evaluați apropierea și semnificația statistică a acesteia. Cu alte cuvinte, testul de corelație Pearson vă permite să determinați dacă există o relație liniară între modificările valorilor a două variabile. În calculele statistice și inferențe, coeficientul de corelație este de obicei notat ca r xy sau Rxy.

1. Istoricul dezvoltării criteriului de corelare

Testul de corelație Pearson a fost dezvoltat de o echipă de oameni de știință britanici condusă de Karl Pearson(1857-1936) în anii 90 ai secolului al XIX-lea, pentru a simplifica analiza covarianței a două variabile aleatoare. Pe lângă Karl Pearson, oamenii au lucrat și la criteriul de corelație Pearson Francis EdgeworthŞi Raphael Weldon.

2. Pentru ce este folosit testul de corelație Pearson?

Testul de corelație Pearson vă permite să determinați apropierea (sau puterea) corelației dintre doi indicatori măsurați pe o scară cantitativă. Folosind calcule suplimentare, puteți determina, de asemenea, cât de semnificativă este statistic relația identificată.

De exemplu, folosind criteriul de corelare Pearson, puteți răspunde la întrebarea dacă există o legătură între temperatura corpului și conținutul de leucocite din sânge în timpul infecțiilor respiratorii acute, între înălțimea și greutatea pacientului, între conținutul de apă potabilă fluor şi incidenţa cariilor dentare în populaţie.

3. Condiții și limitări pentru utilizarea testului chi-pătrat Pearson

  1. Indicatorii comparabili trebuie măsurați în scară cantitativă(de exemplu, ritmul cardiac, temperatura corpului, numărul de globule albe la 1 ml de sânge, tensiunea arterială sistolica).
  2. Folosind testul de corelație Pearson, putem doar determina prezența și puterea relației liniareîntre cantităţi. Alte caracteristici ale relației, inclusiv direcția (directă sau inversă), natura modificărilor (rectilinii sau curbilinii), precum și prezența dependenței unei variabile de alta, sunt determinate cu ajutorul analizei de regresie.
  3. Numărul de cantități comparate trebuie să fie egal cu două. În cazul analizei relației dintre trei sau mai mulți parametri, ar trebui să utilizați metoda analiza factorială.
  4. Testul de corelație Pearson este parametrice, și de aceea condiția pentru utilizarea sa este distributie normala variabile comparate. Dacă este necesar să se efectueze o analiză de corelație a indicatorilor a căror distribuție diferă de cea normală, inclusiv a celor măsurați pe o scară ordinală, trebuie utilizat coeficientul de corelație de rang al lui Spearman.
  5. Conceptele de dependență și corelație ar trebui să fie clar distinse. Dependența cantităților determină prezența unei corelații între ele, dar nu invers.

De exemplu, înălțimea unui copil depinde de vârsta lui, adică de ce copil mai mare, cu atât este mai sus. Dacă luăm doi copii de diferite vârste, atunci cu un grad mare de probabilitate cresterea copilului mai mare va fi mai mare decat a celui mai mic. Acest fenomen se numește dependenta, implicând o relație cauză-efect între indicatori. Desigur, între ei există și conexiunea de corelare, ceea ce înseamnă că modificările unui indicator sunt însoțite de modificări ale altui indicator.

Într-o altă situație, luați în considerare relația dintre înălțimea unui copil și ritmul cardiac (HR). După cum se știe, ambele valori depind direct de vârstă, astfel încât, în majoritatea cazurilor, copiii de înălțime mai mare (și, prin urmare, de vârstă mai înaintată) vor avea valori mai mici ale ritmului cardiac. adica conexiunea de corelare vor fi observate și pot avea aglomerație destul de mare. Totuși, dacă luăm copiii aceeasi varsta, Dar diferite înălțimi, atunci, cel mai probabil, pulsul lor va diferi nesemnificativ și, prin urmare, putem concluziona că independenţă Ritmul cardiac de la înălțime.

Exemplul de mai sus arată cât de important este să se facă distincția între conceptele fundamentale în statistică. comunicatiiŞi dependențe indicatori pentru tragerea unor concluzii corecte.

4. Cum se calculează coeficientul de corelație Pearson?

Coeficientul de corelație Pearson se calculează folosind următoarea formulă:

5. Cum se interpretează valoarea coeficientului de corelație Pearson?

Valorile coeficientului de corelație Pearson sunt interpretate pe baza valorilor lor absolute. Valori posibile coeficienții de corelație variază de la 0 la ±1. Cu cât valoarea absolută a lui r xy este mai mare, cu atât este mai mare apropierea relației dintre cele două mărimi. r xy = 0 indică o lipsă completă de comunicare. r xy = 1 – indică prezența unei conexiuni absolute (funcționale). Dacă valoarea criteriului de corelație Pearson se dovedește a fi mai mare de 1 sau mai mică de -1, a fost făcută o eroare în calcule.

Pentru a evalua etanșeitatea sau rezistența unei corelații, se folosesc de obicei criterii general acceptate, conform cărora valorile absolute ale r xy< 0.3 свидетельствуют о slab conexiune, valorile r xy de la 0,3 la 0,7 - despre conexiune medie etanșeitate, valori ale r xy > 0,7 - o puternic comunicatii.

O estimare mai precisă a puterii corelației poate fi obținută dacă utilizați Masa Chaddock:

Nota semnificație statistică Coeficientul de corelație r xy se realizează folosind testul t, calculat folosind următoarea formulă:

Valoarea t r rezultată este comparată cu valoarea critică la un anumit nivel de semnificație și cu numărul de grade de libertate n-2. Dacă t r depășește t crit, atunci se trage o concluzie despre semnificația statistică a corelației identificate.

6. Exemplu de calcul al coeficientului de corelație Pearson

Scopul studiului a fost de a identifica, determina apropierea și semnificația statistică a corelației dintre doi indicatori cantitativi: nivelul de testosteron din sânge (X) și procentul masa muscularaîn corp (Y). Datele inițiale pentru un eșantion format din 5 subiecți (n = 5) sunt rezumate în tabel.

Publicații pe această temă