Construirea unei serii de variații discrete. Serii de distribuție statistică

Rezultatele grupării datelor statistice colectate sunt prezentate de obicei sub formă de serii de distribuție. O serie de distribuție este o distribuție ordonată a unităților populației în grupuri în funcție de caracteristica studiată.

Seriile de distribuție sunt împărțite în atributive și variaționale, în funcție de caracteristica care stă la baza grupării. Dacă atributul este calitativ, atunci seria de distribuție se numește atributivă. Un exemplu de serie de atribute este distribuția întreprinderilor și organizațiilor după tipul de proprietate (a se vedea Tabelul 3.1).

Dacă caracteristica prin care se construiește seria de distribuție este cantitativă, atunci seria se numește variațională.

Seria variațională a unei distribuții constă întotdeauna din două părți: o variantă și frecvențele (sau frecvențele) corespunzătoare. O variantă este valoarea pe care o poate lua o caracteristică în unități de populație, în timp ce frecvența este numărul de unități de observație care au o valoare dată a caracteristicii. Suma frecvențelor este întotdeauna egală cu volumul populației. Uneori, în loc de frecvențe, se calculează frecvențele - acestea sunt frecvențe exprimate fie ca fracții de unitate (atunci suma tuturor frecvențelor este egală cu 1), fie ca procent din volumul populației (suma frecvențelor va fie egal cu 100%).

Serii de variații sunt discrete și interval. Pentru seriile discrete (Tabelul 3.7), opțiunile sunt exprimate în numere specifice, cel mai adesea numere întregi.

Tabelul 3.8.
Repartizarea salariaților pe timp de muncă în societatea de asigurări Timp lucrat în companie, ani întregi (opțiuni)
Numărul de angajați Man (frecvente)
în % din total (frecvență) 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
până la un an 129 100,0

În seriile de intervale (a se vedea tabelul 3.2), valorile indicatorului sunt specificate sub formă de intervale. Intervalele au două limite: inferioară și superioară. Intervalele pot fi deschise sau închise. Cele deschise nu au una dintre limite, deci în Tabel. 3.2 primul interval nu are o limită inferioară, iar ultimul nu are o limită superioară. La construirea unei serii de intervale, în funcție de natura răspândirii valorilor atributelor, se folosesc atât intervale egale, cât și inegale (Tabelul 3.2 prezintă o serie de variații cu intervale egale).

Dacă o caracteristică ia un număr limitat de valori, de obicei nu mai mult de 10, se construiesc serii de distribuție discretă. Dacă opțiunea este mai mare, atunci seria discretă își pierde claritatea; în acest caz, se recomandă utilizarea formei interval a seriei de variații. Cu variația continuă a unei caracteristici, atunci când valorile sale în anumite limite diferă unele de altele printr-o cantitate arbitrar de mică, se construiește și o serie de distribuție a intervalului.

3.3.1. Construcția unor serii de variații discrete

Să luăm în considerare metodologia de construire a seriilor de variații discrete folosind un exemplu.

Exemplul 3.2. Următoarele date sunt disponibile cu privire la compoziția cantitativă a 60 de familii:

Pentru a vă face o idee despre distribuția familiilor după numărul de membri ai acestora, ar trebui construită o serie de variații. Deoarece semnul ia un număr limitat de valori întregi, construim o serie de variații discrete. Pentru a face acest lucru, se recomandă mai întâi să notați toate valorile atributului (numărul de membri ai familiei) în ordine crescătoare (adică, clasificați datele statistice):

Apoi trebuie să numărați numărul de familii cu aceeași compoziție. Numărul membrilor familiei (valoarea unei caracteristici variabile) sunt variante (le vom nota cu x), numărul familiilor cu aceeași compoziție sunt frecvențe (le vom nota cu f). Prezentăm rezultatele grupării sub forma următoarelor serii de distribuție variațională discretă:

Tabelul 3.11.
Numărul de membri ai familiei (x) Numărul de familii (y)
1 8
2 14
3 20
4 9
5 5
6 4
până la un an 60

3.3.2. Construirea seriei de variații de interval

Să demonstrăm tehnica de construire a serii de distribuție a variațiilor de interval folosind următorul exemplu.

Exemplul 3.3. Ca urmare a observației statistice, s-au obținut următoarele date privind valoarea medie dobândă 50 de bănci comerciale (%):

Tabelul 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

După cum putem vedea, vizualizarea unei astfel de date este extrem de incomod, în plus, nu sunt vizibile modele de modificări ale indicatorului. Să construim o serie de distribuție de intervale.

  1. Să determinăm numărul de intervale.

    Numărul de intervale în practică este adesea stabilit de către cercetător însuși pe baza obiectivelor fiecărei observații specifice. În același timp, poate fi calculat și matematic folosind formula Sturgess

    n = 1 + 3,322lgN,

    unde n este numărul de intervale;

    N este volumul populației (numărul de unități de observare).

    Pentru exemplul nostru obținem: n = 1 + 3.322lgN = 1 + 3.322lg50 = 6.6 "7.

  2. Să determinăm dimensiunea intervalelor (i) folosind formula

    unde x max - valoarea maxima semn;

    x min - valoarea minimă a atributului.

    Pentru exemplul nostru

    Intervalele unei serii de variații sunt clare dacă limitele lor au valori „rotunde”, deci să rotunjim valoarea intervalului 1,9 la 2 și valoarea minimă a caracteristicii 12,3 la 12,0.

  3. Să determinăm limitele intervalelor.

    Intervalele, de regulă, sunt scrise în așa fel încât limita superioară a unui interval să fie și limita inferioară a intervalului următor. Deci, pentru exemplul nostru obținem: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    O astfel de intrare înseamnă că atributul este continuu. Dacă variantele unei caracteristici iau valori strict definite, de exemplu, numai numere întregi, dar numărul lor este prea mare pentru a construi o serie discretă, atunci puteți crea o serie de intervale, în care limita inferioară a intervalului nu va coincide cu cea superioară. limita următorului interval (aceasta va însemna că caracteristica este discretă). De exemplu, în distribuția angajaților întreprinderii în funcție de vârstă, puteți crea următoarele grupe de intervale de ani: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 și mai mult.

    În plus, în exemplul nostru, am putea deschide primul și ultimul interval etc. scrie: până la 14,0; 24.0 și mai sus.

  4. Pe baza datelor inițiale, vom construi o serie clasificată. Pentru a face acest lucru, notăm în ordine crescătoare valorile pe care le ia semnul. Prezentăm rezultatele în tabel: Tabelul 3.13.
    Serii clasate de rate ale dobânzilor băncilor comerciale
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Rata bancară % (opțiuni)

    Să numărăm frecvențele.

Când se numără frecvențele, poate apărea o situație când valoarea unei caracteristici se încadrează la limita unui interval. În acest caz, vă puteți ghida după regula: o anumită unitate este atribuită intervalului pentru care valoarea sa este limita superioară. Deci, valoarea 16,0 din exemplul nostru se va referi la al doilea interval.

Rezultatele grupării obținute în exemplul nostru vor fi prezentate într-un tabel.
Tabelul 3.14. Repartizarea băncilor comerciale după rata de creditare Rată scurtă, %
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
până la un an 50 -

Ultima coloană a tabelului prezintă frecvențele acumulate, care se obțin prin însumarea secvențială a frecvențelor începând de la prima (de exemplu, pentru primul interval - 5, pentru al doilea interval 5 + 9 = 14, pentru al treilea interval 5 + 9 + 4 = 18 etc.). Frecvența acumulată, de exemplu 33, arată că 33 de bănci rata de creditare nu depășește 20% (limita superioară a intervalului corespunzător).

În procesul de grupare a datelor la construirea seriilor de variații, se folosesc uneori intervale inegale. Acest lucru se aplică acelor cazuri în care valorile caracteristice respectă aritmetica sau progresie geometrică sau când aplicarea formulei Sturgess duce la apariţia unor grupuri de intervale „vide” care nu conţin o singură unitate de observaţie. Apoi limitele intervalelor sunt stabilite în mod arbitrar de însuși cercetătorul, pe baza bunului simț și a obiectivelor anchetei, sau folosind formule. Deci, pentru schimbarea datelor în progresie aritmetică, dimensiunea intervalelor se calculează după cum urmează.

Dacă variabila aleatoare studiată este continuă, atunci clasarea și gruparea valorilor observate nu permite adesea identificarea trăsături caracteristice variind valorile acesteia. Acest lucru se explică prin faptul că valorile individuale variabilă aleatoare pot diferi unul de celălalt cât se dorește și, prin urmare, în totalitatea datelor observate, rareori pot apărea valori identice de mărime, iar frecvențele variantelor diferă puțin unele de altele.

De asemenea, nu este practic să construiești o serie discretă pentru o variabilă aleatoare discretă, numărul valori posibile ceea ce este grozav. În astfel de cazuri, ar trebui să construiți serie de variații de interval distribuţiile.

Pentru a construi o astfel de serie, întregul interval de variație a valorilor observate ale unei variabile aleatoare este împărțit într-o serie intervale parțiale și numărarea frecvenței de apariție a valorilor în fiecare interval parțial.

Interval serie de variații numiți un set ordonat de intervale de valori variabile ale unei variabile aleatorii cu frecvențe corespunzătoare sau frecvențe relative ale valorilor variabilei care se încadrează în fiecare dintre ele.

Pentru a construi o serie de intervale aveți nevoie de:

  1. defini dimensiune intervale parțiale;
  2. defini lăţime intervale;
  3. setați-l pentru fiecare interval top Şi limita inferioară ;
  4. grupează rezultatele observației.

1 . Problema alegerii numărului și lățimii intervalelor de grupare trebuie să fie decisă în fiecare caz specific pe baza obiective cercetare, volum mostre și gradul de variație caracteristică în probă.

Aproximativ numărul de intervale k poate fi estimat doar pe baza dimensiunii eșantionului n unul dintre următoarele metode:

  • conform formulei Sturges : k = 1 + 3,32 log n ;
  • folosind tabelul 1.

Tabelul 1

2 . În general, sunt preferate spațiile de lățime egală. Pentru a determina lățimea intervalelor h calcula:

  • intervalul de variație R - valorile eșantionului: R = x max - x min ,

Unde xmax Şi xmin - optiuni de esantionare maxima si minima;

  • lăţimea fiecărui interval h determinată de următoarea formulă: h = R/k .

3 . Limită inferioară primul interval x h1 este selectată astfel încât opțiunea de eșantion minimă xmin a scăzut aproximativ la mijlocul acestui interval: x h1 = x min - 0,5 h .

Intervalele intermediare obţinută prin adăugarea lungimii intervalului parţial la sfârşitul intervalului anterior h :

x hi = x hi-1 +h.

Construcția unei scale de interval pe baza calculului limitelor intervalului continuă până la valoarea x salut satisface relatia:

x salut< x max + 0,5·h .

4 . În conformitate cu scara intervalului, valorile caracteristice sunt grupate - pentru fiecare interval parțial se calculează suma frecvențelor n i opțiune inclusă în i al-lea interval. În acest caz, intervalul include valori ale variabilei aleatoare care sunt mai mari sau egale cu limita inferioară și mai mici decât limita superioară a intervalului.

Poligon și histogramă

Pentru claritate, sunt construite diferite grafice de distribuție statistică.

Pe baza datelor unei serii de variații discrete, ei construiesc poligon frecvențe sau frecvențe relative.

Poligon de frecvență x 1 ; n 1 ), (x 2 ; n 2 ), ..., (x k ; n k ). Pentru a construi un poligon de frecvență, opțiunile sunt reprezentate pe axa absciselor. x i , iar pe ordonată - frecvențele corespunzătoare n i . Puncte ( x i ; n i ) sunt legate prin segmente drepte și se obține un poligon de frecvență (fig. 1).

Poligon de frecvențe relative numită linie întreruptă ale cărei segmente leagă puncte ( x 1 ; W 1 ), (x 2 ; W 2 ), ..., (x k ; Sapt ). Pentru a construi un poligon de frecvențe relative, opțiunile sunt reprezentate pe axa absciselor x i , iar pe ordonată - frecvențele relative corespunzătoare W i . Puncte ( x i ; W i ) sunt legate prin segmente drepte și se obține un poligon de frecvențe relative.

În cazul în care semn continuu se recomanda construirea histogramă .

Histograma de frecventa numită figură în trepte constând din dreptunghiuri, ale căror baze sunt intervale parțiale de lungime h , iar înălțimile sunt egale cu raportul NIH (densitatea de frecvență).

Pentru a construi o histogramă de frecvență, intervale parțiale sunt așezate pe axa absciselor și segmente paralele cu axa absciselor sunt desenate deasupra lor la distanță. NIH .

Lecția practică 1

SERIE DE VARIAȚII DE DISTRIBUȚIE

Seria de variații sau aproape de distribuție numiți distribuția ordonată a unităților unei populații în funcție de valorile crescătoare (mai des) sau descrescătoare (mai rar) ale unei caracteristici și numărând numărul de unități cu o anumită valoare a caracteristicii.

Sunt 3 fel rând de distribuție:

1) serii clasate– aceasta este o listă a unităților individuale ale populației în ordinea crescătoare a caracteristicii studiate; dacă numărul de unități de populație este suficient de mare, seria clasată devine greoaie, iar în astfel de cazuri seria de distribuție se construiește prin gruparea unităților de populație în funcție de valorile caracteristicii studiate (dacă caracteristica ia un număr mic de valori, atunci se construiește o serie discretă, iar în caz contrar, o serie de intervale);

2) serie discretă- acesta este un tabel format din două coloane (rânduri) - valori specifice ale unei caracteristici diferite X iși numărul de unități de populație cu o valoare caracteristică dată f i– frecvențe; numărul de grupuri dintr-o serie discretă este determinat de numărul de valori efectiv existente ale caracteristicii variabile;

3) serie de intervale- acesta este un tabel format din două coloane (rânduri) - intervale cu o caracteristică variabilă X iși numărul de unități de populație care se încadrează într-un interval dat (frecvențe), sau proporția acestui număr în numărul total de populații (frecvențe).

Sunt numite numere care arată de câte ori apar opțiuni individuale într-o anumită populație frecvente sau cântare opțiune și sunt desemnate literă mică alfabet latin f. Suma totală a frecvențelor seriei de variații este egală cu volumul populației date, i.e.

Unde k– numărul de grupuri, nnumăr total observații sau dimensiunea populației.

Frecvențele (greutățile) sunt exprimate nu numai în numere absolute, ci și în numere relative - în fracții de unitate sau ca procent din numărul total de variante care alcătuiesc o anumită populație. În astfel de cazuri se numesc greutăți frecvențe relative sau frecvente. Suma totală a părților este egală cu unu

sau
,

dacă frecvenţele sunt exprimate ca procent din numărul total de observaţii p.Înlocuirea frecvențelor cu frecvențe nu este necesară, dar uneori se dovedește a fi utilă și chiar necesară în cazurile în care este necesară compararea serielor de variații între ele care diferă foarte mult în volumele lor.

În funcție de modul în care variază atributul - discret sau continuu, într-un interval larg sau îngust - populația statistică este distribuită în non-interval sau interval serie de variații. În primul caz, frecvențele se referă direct la valorile clasate ale caracteristicii, care dobândesc poziția grupurilor sau claselor individuale ale seriei de variații, în al doilea - ele numără frecvențele legate de intervale sau intervale individuale (de la - to), în care este împărțită variația totală a caracteristicii, variind de la opțiuni minime la maxime pentru o anumită populație. Aceste goluri, sau intervale de clasă, pot fi sau nu egale ca lățime. Prin urmare, se disting serii de variații de intervale egale și inegale.În serii de intervale inegale, natura distribuției de frecvență se modifică pe măsură ce lățimea intervalelor de clasă se modifică. Gruparea pe intervale inegale este folosită relativ rar în biologie. De regulă, datele biometrice sunt distribuite în serii cu intervale egale, ceea ce permite nu numai identificarea modelelor de variație, dar facilitează și calcularea caracteristicilor numerice rezumate ale seriei de variații și compararea seriei de distribuție între ele.

Când începeți să construiți o serie de variații cu intervale egale, este important să conturați corect lățimea intervalului de clasă. Faptul este că gruparea grosieră (când se stabilesc intervale de clasă foarte largi) denaturează caracteristicile tipice ale variației și duce la o scădere a preciziei caracteristicilor numerice ale seriei. Atunci când alegeți intervale excesiv de înguste, acuratețea generalizării caracteristicilor numerice crește, dar seria se dovedește a fi prea întinsă și nu oferă o imagine clară a variației.

Pentru a obține o serie de variații clar vizibilă și Pentru a asigura o acuratețe suficientă a caracteristicilor numerice calculate din aceasta, variația caracteristicii (de la opțiuni minime la maxime) ar trebui împărțită într-un astfel de număr de grupuri sau clase care să satisfacă ambele cerințe. Această problemă este rezolvată prin împărțirea intervalului de variație a caracteristicii la numărul de grupuri sau clase conturate la construirea seriei de variații:

,

Unde h– dimensiunea intervalului; X m a x și X min – valorile maxime și minime în total; k– numărul de grupuri.

Când se construiește o serie de distribuție a intervalelor, este necesar să se selecteze numărul optim de grupuri (intervale de atribut) și să se stabilească lungimea (intervalul) intervalului. Deoarece analiza unei serii de distribuție compară frecvențele în intervale diferite, este necesar ca lungimea intervalelor să fie constantă. Dacă aveți de-a face cu o serie de intervale de distribuții cu intervale inegale, atunci pentru comparabilitate trebuie să reduceți frecvența sau frecvența la unitatea intervalului, valoarea rezultată se numește densitate ρ , adică
.

Numărul optim de grupuri este selectat astfel încât diversitatea valorilor atributelor din agregat să fie suficient reflectată și, în același timp, modelul de distribuție să nu fie distorsionat de fluctuațiile aleatorii ale frecvenței. Dacă sunt prea puține grupuri, modelul de variație nu va apărea; dacă există prea multe grupuri, salturile aleatorii de frecvență vor distorsiona forma distribuției.

Cel mai adesea, numărul de grupuri dintr-o serie de distribuție este determinat folosind formula Sturgess:

Unde n– mărimea populației.

O reprezentare grafică oferă asistență semnificativă în analiza seriei de distribuție și a proprietăților acesteia. O serie de intervale este descrisă printr-o diagramă cu bare, în care bazele barelor situate de-a lungul axei absciselor sunt intervalele de valori ale caracteristicii diferite, iar înălțimile barelor sunt frecvențele corespunzătoare scalei de-a lungul ordonatei. axă. Acest tip de diagramă se numește histogramă.

Dacă există o serie de distribuție discretă sau sunt folosite punctele medii ale intervalelor, atunci reprezentarea grafică a unei astfel de serii se numește poligon, care se obține prin legarea punctelor cu coordonate prin linii drepte X iŞi f i .

Dacă valorile claselor sunt reprezentate de-a lungul axei absciselor, iar frecvențele acumulate sunt reprezentate de-a lungul axei ordonatelor, urmate de conectarea punctelor cu linii drepte, un grafic numit cumula. Frecvențele acumulate se găsesc prin însumare secvențială, sau cumul frecvențe în direcția de la prima clasă până la sfârșitul seriei de variații.

Exemplu. Există date despre producția de ouă a 50 de găini ouătoare într-un an ținute într-o fermă de păsări (Tabelul 1.1).

Tabelul 1.1

Producția de ouă a găinilor ouătoare

Găina ouătoare nr.

Producția de ouă, buc.

Găina ouătoare nr.

Producția de ouă, buc.

Găina ouătoare nr.

Producția de ouă, buc.

Găina ouătoare nr.

Producția de ouă, buc.

Găina ouătoare nr.

Producția de ouă, buc.

Este necesar să construiți o serie de distribuție a intervalelor și să o afișați grafic sub forma unei histograme, poligon și cumul.

Se poate observa că trăsătura variază de la 212 la 245 de ouă obținute de la o găină ouătoare într-un an.

În exemplul nostru, folosind formula Sturgess, determinăm numărul de grupuri:

k = 1 + 3,322lg 50 = 6,643 ≈ 7.

Să calculăm lungimea (intervalul) intervalului folosind formula:

.

Să construim o serie de intervale cu 7 grupuri și un interval de 5 bucăți. ouă (Tabelul 1.2). Pentru a construi grafice în tabel, calculăm mijlocul intervalelor și frecvența acumulată.

Tabelul 1.2

Seria de intervale de distribuție a producției de ouă

Grup de găini ouătoare după producția de ouă

X i

Numărul de găini ouătoare

f i

Mijlocul intervalului

X eu

Frecvența cumulativă

f i

Să construim o histogramă a distribuției producției de ouă (Fig. 1.1).

Orez. 1.1. Histograma distribuției producției de ouă

Aceste histograme arată o formă de distribuție caracteristică multor caracteristici: valorile intervalelor medii ale caracteristicii sunt mai frecvente, iar valorile extreme (mici și mari) ale caracteristicii sunt mai puțin frecvente. Forma acestei distribuții este apropiată de legea distribuției normale, care se formează dacă o variabilă variabilă este influențată de un număr mare de factori, dintre care niciunul nu are o semnificație predominantă.

Poligonul și distribuția cumulată a producției de ouă arată ca (Fig. 1.2 și 1.3).

Orez. 1.2. Zona de distribuție a producției de ouă

Orez. 1.3. Cumulate ale distribuției producției de ouă

Tehnologie pentru rezolvarea problemelor în procesor de masă Microsoft Excela Următorul.

1. Introduceți datele inițiale în conformitate cu Fig. 1.4.

2. Clasează seria.

2.1. Selectați celulele A2:A51.

2.2. Faceți clic stânga pe bara de instrumente de pe butonul<Сортировка по возрастанию > .

3. Determinați dimensiunea intervalului pentru construirea seriei de distribuție a intervalului.

3.1. Copiați celula A2 în celula E53.

3.2. Copiați celula A51 în celula E54.

3.3. Calculați intervalul de variație. Pentru a face acest lucru, introduceți formula în celula E55 =E54-E53.

3.4. Calculați numărul de grupuri de variații. Pentru a face acest lucru, introduceți formula în celula E56 =1+3,322*LOG10(50).

3.5. Introduceți numărul rotunjit de grupuri în celula E57.

3.6. Calculați lungimea intervalului. Pentru a face acest lucru, introduceți formula în celula E58 =E55/E57.

3.7. Introduceți lungimea intervalului rotunjit în celula E59.

4. Construiți o serie de intervale.

4.1. Copiați celula E53 în celula B64.

4.2. Introduceți formula în celula B65 =B64+$E$59.

4.3. Copiați celula B65 în celulele B66:B70.

4.4. Introduceți formula în celula C64 =B65.

4.5. Introduceți formula în celula C65 =C64+$E$59.

4.6. Copiați celula C65 în celulele C66:C70.

Rezultatele soluției sunt afișate pe ecranul de afișare în următoarea formă (Fig. 1.5).

5. Calculați frecvența intervalului.

5.1. Rulați comanda Serviciu,Analiza datelor, făcând clic alternativ cu butonul stâng al mouse-ului.

5.2. În caseta de dialog Analiza datelor utilizați butonul stâng al mouse-ului pentru a instala: Instrumente de analiză <Гистограмма>(Fig. 1.6).

5.3. Faceți clic stânga pe butonul<ОК>.

5.4. Pe fila Histogramă setați parametrii conform fig. 1.7.

5.5. Faceți clic stânga pe butonul<ОК>.

Rezultatele soluției sunt afișate pe ecranul de afișare în următoarea formă (Fig. 1.8).

6. Completați tabelul „Serii de distribuție a intervalelor”.

6.1. Copiați celulele B74:B80 în celulele D64:D70.

6.2. Calculați suma frecvențelor. Pentru a face acest lucru, selectați celulele D64:D70 și faceți clic stânga pe butonul din bara de instrumente<Автосумма > .

6.3. Calculați punctul de mijloc al intervalelor. Pentru a face acest lucru, introduceți formula în celula E64 =(B64+C64)/2și copiați în celulele E65:E70.

6.4. Calculați frecvențele acumulate. Pentru a face acest lucru, copiați celula D64 în celula F64. În celula F65, introduceți formula =F64+D65 și copiați-o în celulele F66:F70.

Rezultatele soluției sunt afișate pe ecranul de afișare în următoarea formă (Fig. 1.9).

7. Editați histograma.

7.1. Faceți clic dreapta pe diagramă de pe numele „buzunar” și pe fila care apare, faceți clic pe butonul<Очистить>.

7.2. Faceți clic dreapta pe diagramă și în fila care apare, faceți clic<Исходные данные>.

7.3. În caseta de dialog Datele inițiale modificați etichetele axei X Pentru a face acest lucru, selectați celulele B64:C70 (Fig. 1.10).

7.5. Apăsați tasta .

Rezultatele sunt afișate pe ecranul de afișare în următoarea formă (Fig. 1.11).

8. Construiți un poligon pentru distribuția producției de ouă.

8.1. Faceți clic stânga pe bara de instrumente de pe butonul<Мастер диаграмм > .

8.2. În caseta de dialog Chart Wizard (pasul 1 din 4) folosind butonul stâng al mouse-ului set: Standard <График>(Fig. 1.12).

8.3. Faceți clic stânga pe butonul<Далее>.

8.4. În caseta de dialog Chart Wizard (pasul 2 din 4) setați parametrii conform fig. 1.13.

8.5. Faceți clic stânga pe butonul<Далее>.

8.6. În caseta de dialog Chart Wizard (pasul 3 din 4) introduceți numele diagramei și ale axei Y (Fig. 1.14).

8.7. Faceți clic stânga pe butonul<Далее>.

8.8. În caseta de dialog Chart Wizard (pasul 4 din 4) setați parametrii conform fig. 1.15.

8.9. Faceți clic stânga pe butonul<Готово>.

Rezultatele sunt afișate pe ecranul de afișare în următoarea formă (Fig. 1.16).

9. Introduceți etichete de date în grafic.

9.1. Faceți clic dreapta pe diagramă și în fila care apare, faceți clic<Исходные данные>.

9.2. În caseta de dialog Datele inițiale modificați etichetele axei X Pentru a face acest lucru, selectați celulele E64:E70 (Fig. 1.17).

9.3. Apăsați tasta .

Rezultatele sunt afișate pe ecranul de afișare în următoarea formă (Fig. 1.18).

Cumulul de distribuție este construit în mod similar cu poligonul de distribuție pe baza frecvențelor acumulate.

Stare:

Există date despre componența pe vârstă a lucrătorilor (ani): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Construiți o serie de distribuție a intervalelor.
    2. Construiți o reprezentare grafică a seriei.
    3. Determinați grafic modul și mediana.

Soluţie:

1) Conform formulei Sturgess, populația trebuie împărțită în 1 + 3.322 lg 30 = 6 grupe.

Vârsta maximă - 38 de ani, minim - 18 ani.

Lățimea intervalului Deoarece capetele intervalelor trebuie să fie numere întregi, împărțim populația în 5 grupuri. Lățimea intervalului - 4.

Pentru a ușura calculele, vom aranja datele în ordine crescătoare: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Distribuția pe vârstă a lucrătorilor

Grafic, o serie poate fi reprezentată ca histogramă sau poligon. Histograma - diagramă cu bare. Baza coloanei este lățimea intervalului. Înălțimea coloanei este egală cu frecvența.

Poligon (sau poligon de distribuție) - grafic de frecvență. Pentru a-l construi folosind o histogramă, conectăm punctele de mijloc ale părților superioare ale dreptunghiurilor. Închidem poligonul pe axa Ox la distanțe egale cu jumătate din intervalul de la valorile extreme ale lui x.

Modul (Mo) este valoarea caracteristicii studiate, care apare cel mai frecvent la o anumită populație.

Pentru a determina modul dintr-o histogramă, trebuie să selectați cel mai înalt dreptunghi, să trageți o linie de la vârful drept al acestui dreptunghi până la colțul din dreapta sus al dreptunghiului anterior și din vârful din stânga al dreptunghiului modal să trageți o linie către vârful stâng al dreptunghiului următor. Din punctul de intersecție al acestor drepte, trageți o perpendiculară pe axa x. Abscisa va fi la modă. Mo ≈ 27,5. Aceasta înseamnă că cea mai frecventă vârstă la această populație este 27-28 de ani.

Mediana (Me) este valoarea caracteristicii studiate, care se află la mijlocul seriei de variații ordonate.

Găsim mediana folosind cumulat. Cumulate - un grafic al frecvențelor acumulate. Abscisele sunt variante ale unei serii. Ordonatele sunt frecvențe acumulate.

Pentru a determina mediana peste cumulat, găsim un punct de-a lungul axei ordonatelor corespunzător la 50% din frecvențele acumulate (în cazul nostru, 15), trageți o linie dreaptă prin acesta, paralelă cu axa Ox, și din punctul de intersecția sa cu cumulul, trageți o perpendiculară pe axa x. Abscisa este mediana. Eu ≈ 25,9. Aceasta înseamnă că jumătate dintre lucrătorii acestei populații au sub 26 de ani.

Gruparea- aceasta este împărțirea unei populații în grupuri care sunt omogene după o anumită caracteristică.

Scopul serviciului. Folosind calculatorul online puteți:

  • construiți o serie de variații, construiți o histogramă și un poligon;
  • găsiți indicatori de variație (medie, mod (inclusiv grafic), mediană, interval de variație, quartile, decile, coeficient de diferențiere cuartile, coeficient de variație și alți indicatori);

Instrucţiuni. Pentru a grupa o serie, trebuie să selectați tipul de serie de variație obținută (discretă sau interval) și să indicați cantitatea de date (numărul de rânduri). Soluția rezultată este salvată într-un fișier Word (vezi exemplul de grupare a datelor statistice).

Numărul de date de intrare
",0);">

Dacă gruparea a fost deja efectuată și serie de variații discrete sau serie de intervale, atunci trebuie să utilizați calculatorul online Indici de variație. Testarea ipotezei despre tipul de distribuție se realizează cu ajutorul serviciului Studierea formularului de distribuire.

Tipuri de grupări statistice

Seria de variații. În cazul observațiilor unei variabile aleatoare discrete, aceeași valoare poate fi întâlnită de mai multe ori. Astfel de valori x i ale unei variabile aleatoare sunt înregistrate indicând n i de câte ori apare în n observații, aceasta este frecvența acestei valori.
În cazul unei variabile aleatoare continue, gruparea este utilizată în practică.
  1. Gruparea tipologică– este împărțirea populației eterogene calitativ studiate în clase, tipuri socio-economice, grupuri omogene de unități. Pentru a construi această grupare, utilizați parametrul Serie variație discretă.
  2. O grupare se numește structurală, în care o populație omogenă este împărțită în grupuri care îi caracterizează structura după o caracteristică variabilă. Pentru a construi această grupare, utilizați parametrul Interval series.
  3. Se numește o grupare care relevă relațiile dintre fenomenele studiate și caracteristicile acestora grup analitic(vezi gruparea analitică a serii).

Principii de construire a grupărilor statistice

O serie de observații ordonate în ordine crescătoare se numește serie de variații. Caracteristica de grupare este o caracteristică prin care o populație este împărțită în grupuri separate. Se numește baza grupului. Gruparea se poate baza atât pe caracteristici cantitative, cât și calitative.
După stabilirea bazei grupării, trebuie decisă problema numărului de grupuri în care ar trebui să fie împărțită populația studiată.

Atunci când se utilizează computere personale pentru prelucrarea datelor statistice, gruparea unităților de obiect se realizează folosind proceduri standard.
O astfel de procedură se bazează pe utilizarea formulei Sturgess pentru a determina numărul optim de grupuri:

k = 1+3,322*log(N)

Unde k este numărul de grupuri, N este numărul de unități de populație.

Lungimea intervalelor parțiale este calculată ca h=(x max -x min)/k

Apoi se numără numărul de observații care se încadrează în aceste intervale, care sunt luate ca frecvențe n i . Puține frecvențe, ale căror valori sunt mai mici de 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Valorile mijlocii ale intervalelor x i =(c i-1 +c i)/2 sunt luate ca valori noi.

Publicații pe această temă