Rezumatul și gruparea datelor statistice. Soluție: I

Având la dispoziție date de observație statistică care caracterizează un anumit fenomen, în primul rând este necesar să le organizăm, i.e. da un caracter sistematic

statistician englez. UJReichman a spus la figurat despre colecțiile dezordonate că întâlnirea unei mase de date negeneralizate este echivalent cu o situație în care o persoană este aruncată într-un desiș fără busolă. Ce este sistematizarea datelor statistice sub formă de serii de distribuție?

Serii statistice de distribuții sunt agregate statistice ordonate (Tabelul 17). Cel mai simplu tip de serie de distribuție statistică este o serie clasificată, adică. o serie de numere în ordine crescătoare sau descrescătoare, variind caracteristicile. O astfel de serie nu permite să se judece tiparele inerente datelor distribuite: care valoare are majoritatea indicatorilor grupați, ce abateri există de la această valoare; precum şi tabloul general de distribuţie. În acest scop, datele sunt grupate, arătând cât de des apar observații individuale în numărul lor total (Schema 1a 1).

. Tabelul 17

. Vedere generală serii de distribuţie statistică

. Schema 1. Schema statistică seria de distribuție

Distribuția unităților populației după caracteristici care nu au expresie cantitativă se numește serie atributivă(de exemplu, distribuția întreprinderilor în funcție de zona lor de producție)

Seriile de distribuție a unităților populației după caracteristici, au o expresie cantitativă, se numesc serie de variații. În astfel de serii, valoarea caracteristicii (opțiuni) este în ordine crescătoare sau descrescătoare

În seria de distribuție variațională se disting două elemente: varianta și frecvența . Opţiune- acesta este un sens separat al caracteristicilor de grupare frecvenţă- un număr care arată de câte ori apare fiecare opțiune

În statistica matematică, se calculează încă un element al seriei de variații - parţial. Acesta din urmă este definit ca raportul dintre frecvența cazurilor unui interval dat și suma totală a frecvențelor partea este determinată în fracțiuni de unitate, procente (%) în ppm (%o);

Astfel, serie de variații distribuțiile sunt o serie în care opțiunile sunt dispuse în ordine crescătoare sau descrescătoare, iar frecvențele sau frecvențele acestora sunt indicate. Serii de variații sunt discrete (intervale) și alte intervale (continue).

. Serii de variații discrete- sunt serii de distribuţie în care varianta ca valoare a unei caracteristici cantitative nu poate lua decât o anumită valoare. Opțiunile diferă unele de altele prin una sau mai multe unități

Astfel, numărul de piese produse pe schimb de un anumit muncitor poate fi exprimat doar cu unul un anumit număr(6, 10, 12 etc.). Un exemplu de serie de variații discrete ar putea fi distribuția lucrătorilor după numărul de piese produse (Tabelul 18 18).

. Tabelul 18

. Distribuție discretă în serie _

. Interval (continuu) serie de variații- asemenea serii de distribuție în care valoarea opțiunilor este dată sub formă de intervale, i.e. valorile caracteristicilor pot diferi unele de altele printr-o cantitate arbitrar mică. Atunci când se construiește o serie de variații a caracteristicilor perivariante NEP, este imposibil să se indice fiecare valoare a variantei, astfel încât populația este distribuită pe intervale. Acestea din urmă pot fi egale sau inegale. Pentru fiecare dintre ele sunt indicate frecvențele sau frecvențele (Tabelul 1 9 19).

În serii de distribuție de intervale cu intervale inegale, sunt calculate caracteristici matematice precum densitatea de distribuție și densitatea de distribuție relativă pe un interval dat. Prima caracteristică este determinată de raportul dintre frecvență și valoarea aceluiași interval, a doua - de raportul dintre frecvență și valoarea aceluiași interval. Pentru exemplul de mai sus, densitatea distribuției în primul interval va fi 3: 5 = 0,6, iar densitatea relativă în acest interval este 7,5: 5 = 1,55%.

. Tabelul 19

. Serii de distribuție pe intervale _

Gruparea- aceasta este împărțirea unei populații în grupuri care sunt omogene după o anumită caracteristică.

Scopul serviciului. Folosind calculatorul online puteți:

  • construiți o serie de variații, construiți o histogramă și un poligon;
  • găsiți indicatori de variație (medie, mod (inclusiv grafic), mediană, interval de variație, quartile, decile, coeficient de diferențiere cuartile, coeficient de variație și alți indicatori);

Instrucţiuni. Pentru a grupa o serie, trebuie să selectați tipul de serie de variație obținută (discretă sau interval) și să indicați cantitatea de date (numărul de rânduri). Soluția rezultată este salvată într-un fișier Word (vezi exemplul de grupare a datelor statistice).

Numărul de date de intrare
",0);">

Dacă gruparea a fost deja efectuată și serie de variații discrete sau serie de intervale , atunci trebuie să utilizați calculatorul online Indici de variație. Testarea ipotezei despre tipul de distribuție se realizează cu ajutorul serviciului Studierea formularului de distribuire.

Tipuri de grupări statistice

Seria de variații. În cazul observațiilor unei variabile aleatoare discrete, aceeași valoare poate fi întâlnită de mai multe ori. Astfel de valori x i ale unei variabile aleatoare sunt înregistrate indicând n i de câte ori apare în n observații, aceasta este frecvența acestei valori.
În cazul unei variabile aleatoare continue, gruparea este utilizată în practică.
  1. Gruparea tipologică- aceasta este împărțirea populației eterogene calitativ studiate în clase, tipuri socio-economice, grupuri omogene de unități. Pentru a construi această grupare, utilizați parametrul Serie variație discretă.
  2. O grupare se numește structurală, în care o populație omogenă este împărțită în grupuri care îi caracterizează structura după o caracteristică variabilă. Pentru a construi această grupare, utilizați parametrul Interval series.
  3. Se numește o grupare care relevă relațiile dintre fenomenele studiate și caracteristicile acestora grup analitic(vezi gruparea analitică a serii).

Principii de construire a grupărilor statistice

O serie de observații ordonate în ordine crescătoare se numește serie de variații. Caracteristica de grupare este o caracteristică prin care o populație este împărțită în grupuri separate. Se numește baza grupului. Gruparea se poate baza atât pe caracteristici cantitative, cât și calitative.
După stabilirea bazei grupării, trebuie decisă problema numărului de grupuri în care ar trebui să fie împărțită populația studiată.

Atunci când se utilizează computere personale pentru prelucrarea datelor statistice, gruparea unităților de obiect se realizează folosind proceduri standard.
O astfel de procedură se bazează pe utilizarea formulei Sturgess pentru a determina numărul optim de grupuri:

k = 1+3,322*log(N)

Unde k este numărul de grupuri, N este numărul de unități de populație.

Lungimea intervalelor parțiale este calculată ca h=(x max -x min)/k

Apoi se numără numărul de observații care se încadrează în aceste intervale, care sunt luate ca frecvențe n i . Puține frecvențe, ale căror valori sunt mai mici de 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Valorile mijlocii ale intervalelor x i =(c i-1 +c i)/2 sunt luate ca valori noi.

Lucrare de laborator nr 1

Conform statisticii matematice

Tema: Prelucrarea primară a datelor experimentale

3. Scor în puncte. 1

5. Întrebări de securitate.. 2

6. Metoda de executare munca de laborator.. 3

Scopul lucrării

Dobândirea deprinderilor de prelucrare primară a datelor empirice folosind metode de statistică matematică.

Pe baza totalității datelor experimentale, efectuați sarcinile următoare:

Sarcina 1. Construiți o serie de distribuție a variațiilor de interval.

Sarcina 2. Construiți o histogramă de frecvențe ale unei serii de variații de interval.

Sarcina 3. Creați o funcție de distribuție empirică și reprezentați un grafic.

a) mod și mediană;

b) momente iniţiale condiţionale;

c) media eşantionului;

d) varianța eșantionului, varianța populației corectată, abaterea standard corectată;

e) coeficientul de variaţie;

f) asimetrie;

g) curtoză;

Sarcina 5. Determinați limitele valorilor adevărate ale caracteristicilor numerice ale variabilei aleatoare studiate cu o fiabilitate dată.

Sarcina 6. Interpretarea bazată pe conținut a rezultatelor prelucrării primare în funcție de condițiile sarcinii.

Scor în puncte

Sarcinile 1-56 puncte

Sarcina 62 puncte

Apărarea lucrărilor de laborator(interviu oral pe întrebări de testare și lucrări de laborator) - 2 puncte

Lucrarea este scadentă în în scris pe coli A4 și include:

1) Prima pagină(Anexa 1)

2) Date inițiale.

3) Depunerea lucrărilor conform eșantionului specificat.

4) Rezultatele calculului (realizate manual și/sau folosind MS Excel) în ordinea specificată.

5) Concluzii - interpretarea semnificativă a rezultatelor prelucrării primare în funcție de condițiile sarcinii.

6) Interviu oral pe întrebări de lucru și de control.



5. Întrebări de test


Metodologia efectuării lucrărilor de laborator

Sarcina 1. Construiți o serie de distribuție variațională de interval

Pentru a prezenta datele statistice sub forma unei serii de variații cu opțiuni egal distanțate, este necesar:

1. În tabelul de date original, găsiți cele mai mici și cele mai mari valori.

2.Definește gama de variatie :

3. Determinați lungimea intervalului h, dacă proba conține până la 1000 de date, utilizați formula: , unde n – dimensiunea eșantionului – cantitatea de date din eșantion; pentru calcule ia lgn).

Raportul calculat este rotunjit la valoare întreagă convenabilă .

4. Pentru a determina începutul primului interval pentru un număr par de intervale, se recomandă să se ia valoarea ; iar pentru un număr impar de intervale .

5. Notați intervalele de grupare și aranjați-le în ordine crescătoare a limitelor

, ,………., ,

unde este limita inferioară a primului interval. Se ia un număr convenabil care nu este mai mare decât , limita superioară a ultimului interval nu trebuie să fie mai mică de . Se recomandă ca intervalele să conțină valorile inițiale ale variabilei aleatoare și să fie separate de 5 până la 20 intervale.

6. Notați datele inițiale privind intervalele de grupare, de ex. calculați din tabelul sursă numărul de valori ale variabilelor aleatoare care se încadrează în intervalele specificate. Dacă unele valori coincid cu limitele intervalelor, apoi sunt atribuite fie numai intervalului anterior, fie numai intervalului următor.

Nota 1. Intervalele nu trebuie să fie egale ca lungime. În zonele în care valorile sunt mai dense, este mai convenabil să luați intervale mai mici, scurte, iar unde există intervale mai puțin frecvente, mai mari.

Nota 2.Dacă pentru unele valori se obțin valori „zero” sau de frecvență mică, atunci este necesară regruparea datelor, mărind intervalele (mărește pasul).

Având la dispoziție date de observație statistică care caracterizează un anumit fenomen, în primul rând este necesar să le organizăm, i.e. da un caracter sistematic

statistician englez. UJReichman a spus la figurat despre colecțiile dezordonate că întâlnirea unei mase de date negeneralizate este echivalent cu o situație în care o persoană este aruncată într-un desiș fără busolă. Ce este sistematizarea datelor statistice sub formă de serii de distribuție?

Serii statistice de distribuții sunt agregate statistice ordonate (Tabelul 17). Cel mai simplu tip de serie de distribuție statistică este o serie clasificată, adică. o serie de numere în ordine crescătoare sau descrescătoare, variind caracteristicile. O astfel de serie nu permite să se judece tiparele inerente datelor distribuite: care valoare are majoritatea indicatorilor grupați, ce abateri există de la această valoare; precum şi tabloul general de distribuţie. În acest scop, datele sunt grupate, arătând cât de des apar observații individuale în numărul lor total (Schema 1a 1).

. Tabelul 17

. Vedere generală a seriei de distribuție statistică

. Schema 1. Schema statistică seria de distribuție

Distribuția unităților populației după caracteristici care nu au expresie cantitativă se numește serie atributivă(de exemplu, distribuția întreprinderilor în funcție de zona lor de producție)

Seriile de distribuție a unităților populației după caracteristici, au o expresie cantitativă, se numesc serie de variații. În astfel de serii, valoarea caracteristicii (opțiuni) este în ordine crescătoare sau descrescătoare

În seria de distribuție variațională se disting două elemente: varianta și frecvența . Opţiune- acesta este un sens separat al caracteristicilor de grupare frecvenţă- un număr care arată de câte ori apare fiecare opțiune

În statistica matematică, se calculează încă un element al seriei de variații - parţial. Acesta din urmă este definit ca raportul dintre frecvența cazurilor unui interval dat și suma totală a frecvențelor partea este determinată în fracțiuni de unitate, procente (%) în ppm (%o);

Astfel, o serie de distribuție a variațiilor este o serie în care opțiunile sunt dispuse în ordine crescătoare sau descrescătoare, iar frecvențele sau frecvențele acestora sunt indicate. Serii de variații sunt discrete (intervale) și alte intervale (continue).

. Serii de variații discrete- sunt serii de distribuţie în care varianta ca valoare a unei caracteristici cantitative nu poate lua decât o anumită valoare. Opțiunile diferă unele de altele prin una sau mai multe unități

Astfel, numărul de piese produse pe schimb de un anumit muncitor poate fi exprimat doar printr-un anumit număr (6, 10, 12 etc.). Un exemplu de serie de variații discrete ar putea fi distribuția lucrătorilor după numărul de piese produse (Tabelul 18 18).

. Tabelul 18

. Distribuție discretă în serie _

. Interval (continuu) serie de variații- asemenea serii de distribuție în care valoarea opțiunilor este dată sub formă de intervale, i.e. valorile caracteristicilor pot diferi unele de altele printr-o cantitate arbitrar mică. Atunci când se construiește o serie de variații a caracteristicilor perivariante NEP, este imposibil să se indice fiecare valoare a variantei, astfel încât populația este distribuită pe intervale. Acestea din urmă pot fi egale sau inegale. Pentru fiecare dintre ele sunt indicate frecvențele sau frecvențele (Tabelul 1 9 19).

În serii de distribuție de intervale cu intervale inegale, sunt calculate caracteristici matematice precum densitatea de distribuție și densitatea de distribuție relativă pe un interval dat. Prima caracteristică este determinată de raportul dintre frecvență și valoarea aceluiași interval, a doua - de raportul dintre frecvență și valoarea aceluiași interval. Pentru exemplul de mai sus, densitatea distribuției în primul interval va fi 3: 5 = 0,6, iar densitatea relativă în acest interval este 7,5: 5 = 1,55%.

. Tabelul 19

. Serii de distribuție pe intervale _

O serie de variații discrete este construită pentru caracteristici discrete.

Pentru a construi o serie de variații discrete, trebuie să efectuați următorii pași: 1) aranjați unitățile de observație în ordinea crescătoare a valorii studiate a caracteristicii,

2) determinați toate valorile posibile ale caracteristicii x i, ordonați-le în ordine crescătoare,

valoarea atributului, i .

frecvența valorii atributului si denota f i . Suma tuturor frecvențelor unei serii este egală cu numărul de elemente din populația studiată.

Exemplul 1 .

Lista notelor primite de elevi la examene: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Iată numărul X - notaeste discret variabilă aleatoare, iar lista rezultată de evaluări estedate statistice (observabile). .

    aranjați unitățile de observație în ordinea crescătoare a valorii caracteristice studiate:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) determinați toate valorile posibile ale atributului x i, ordonați-le în ordine crescătoare:

În acest exemplu, toate estimările pot fi împărțite în patru grupe cu următoarele valori: 2; 3; 4; 5.

Se numește valoarea unei variabile aleatoare corespunzătoare unui anumit grup de date observate valoarea atributului, opțiune (opțiune) și desemnează x i .

Se numește un număr care arată de câte ori apare valoarea corespunzătoare a unei caracteristici într-un număr de observații frecvența valorii atributului si denota f i .

Pentru exemplul nostru

apare scorul 2 - de 8 ori,

apare scorul 3 - de 12 ori,

apare scorul 4 - de 23 de ori,

nota 5 apare - de 17 ori.

Există 60 de evaluări în total.

4) scrieți datele primite într-un tabel de două rânduri (coloane) - x i și f i.

Pe baza acestor date, este posibil să se construiască o serie de variații discrete

Serii de variații discrete – acesta este un tabel în care valorile apărute ale caracteristicii studiate sunt indicate ca valori individuale în ordine crescătoare și frecvențele acestora

  1. Construirea unei serii de variații de interval

În plus față de seria de variații discrete, este adesea întâlnită o metodă de grupare a datelor, cum ar fi o serie de variații de interval.

O serie de intervale este construită dacă:

    semnul are o natură continuă de schimbare;

    Au fost o mulțime de valori discrete (mai mult de 10)

    frecvențele valorilor discrete sunt foarte mici (nu depășesc 1-3 cu un număr relativ mare de unități de observare);

    multe valori discrete ale unei caracteristici cu aceleași frecvențe.

O serie de variații de interval este o modalitate de grupare a datelor sub forma unui tabel care are două coloane (valorile caracteristicii sub forma unui interval de valori și frecvența fiecărui interval).

Spre deosebire de o serie discretă, valorile caracteristicii unei serii de intervale sunt reprezentate nu de valori individuale, ci de un interval de valori ("de la - la").

Se numește numărul care arată câte unități de observație au căzut în fiecare interval selectat frecvența valorii atributului si denota f i . Suma tuturor frecvențelor unei serii este egală cu numărul de elemente (unități de observație) din populația studiată.

Dacă o unitate are o valoare caracteristică egală cu limita superioară a intervalului, atunci ar trebui să fie atribuită următorului interval.

De exemplu, un copil cu o înălțime de 100 cm va cădea în al 2-lea interval, și nu în primul; iar un copil cu o înălțime de 130 cm va cădea în ultimul interval, și nu în al treilea.

Pe baza acestor date, se poate construi o serie de variații de interval.

Fiecare interval are o limită inferioară (xn), o limită superioară (xv) și o lățime a intervalului ( i).

Limita intervalului este valoarea atributului care se află la granița a două intervale.

inaltimea copiilor (cm)

inaltimea copiilor (cm)

numarul de copii

mai mult de 130

Dacă un interval are o limită superioară și inferioară, atunci se numește interval închis. Dacă un interval are doar o limită inferioară sau numai superioară, atunci este - interval deschis. Numai primul sau ultimul interval poate fi deschis. În exemplul de mai sus, ultimul interval este deschis.

Lățimea intervalului (i) – diferența dintre limitele superioare și inferioare.

i = x n - x in

Se presupune că lățimea intervalului deschis este aceeași cu lățimea intervalului închis adiacent.

inaltimea copiilor (cm)

numarul de copii

Lățimea intervalului (i)

pentru calcule 130+20=150

20 (deoarece lățimea intervalului închis adiacent este de 20)

Toate seriile de intervale sunt împărțite în serii de intervale cu intervale egale și serii de intervale cu intervale inegale . În rândurile distanțate cu intervale egale, lățimea tuturor intervalelor este aceeași. În serii de intervale cu intervale inegale, lățimea intervalelor este diferită.

În exemplul luat în considerare - o serie de intervale cu intervale inegale.

Publicații pe această temă