Un exemplu de utilizare a analizei cluster STATISTICA în asigurările auto. Fundamentele analizei datelor Inteligență Analiza datelor

Răspuns:

Folosind metode grafice, puteți găsi dependențe, tendințe și compensații „ascunse” în seturi de date nestructurate.

Metodele de vizualizare includ:

Reprezentarea datelor sub formă de diagrame coloane, linii în spațiu multidimensional;

Suprapuneți și îmbinați mai multe imagini;

Identificarea și etichetarea subgrupurilor de date care îndeplinesc anumite condiții;

Împărțirea sau îmbinarea subgrupurilor de date pe o diagramă;

agregarea datelor;

netezirea datelor;

Construire de pictograme;

Crearea structurilor de mozaic;

Planuri spectrale, hărți cu linii de nivel; metode de rotație dinamică și stratificare dinamică a imaginilor tridimensionale; selectarea anumitor seturi și blocuri de date etc.

Tipuri de grafice în Statistica:

§ grafice bidimensionale; (histograme)

§ grafice tridimensionale;

§ grafice matriceale;

§ pictograme.

Răspuns:Aceste diagrame sunt seturi de diagrame 2D, 3D, ternare sau n-dimensionale (cum ar fi histograme, diagrame de dispersie, diagrame cu linii, suprafețe, diagrame circulare), câte un grafic pentru fiecare categorie (subset) selectată de observații.

Graficul este un set de grafice, diagrame circulare pentru fiecare categorie definită a variabilei selectate (2 sexe - 2 sexe).

Structura de date clasificată poate fi tratată într-un mod similar. : de exemplu, s-au acumulat statistici despre cumpărători și este necesară analizarea sumei de achiziție pentru diverse categorii (bărbați-femei, bătrâni-maturi-tineri).

În statistici - histograme, diagrame de dispersie, diagrame cu linii, diagrame circulare, diagrame 3D, diagrame ternare 3D

După cum puteți vedea, această variabilă are în general o distribuție normală pentru fiecare grup (tip de culoare).

5. Ce informații despre natura datelor pot fi obținute din analiza graficelor de dispersie și a graficelor de dispersie clasificate?

Răspuns:

Graficele de dispersie sunt utilizate în mod obișnuit pentru a dezvălui natura relației dintre două variabile (de exemplu, câștigurile și fondul). salariile) deoarece oferă mult mai multe informații decât coeficientul de corelație.



Dacă se presupune că unul dintre parametri depinde de celălalt, atunci, de obicei, valorile parametrului independent sunt reprezentate de-a lungul axei orizontale, iar valorile parametrului dependent sunt reprezentate de-a lungul axei verticale. Scatterploturile sunt folosite pentru a arăta prezența sau absența unei corelații între două variabile.

Fiecare punct marcat pe diagramă include două caracteristici, cum ar fi vârsta și venitul individului, fiecare reprezentată pe propria axă. Adesea, acest lucru ajută la a afla dacă există vreo relație statistică semnificativă între aceste caracteristici și ce tip de funcție are sens să fie selectat. DAR

6. Ce informații despre natura datelor pot fi obținute din analiza histogramelor și histogramelor clasificate?

Răspuns

: Histogramele sunt folosite pentru a studia distribuțiile de frecvență ale valorilor variabilelor. Această distribuție de frecvență indică ce valori specifice sau intervale de valori ale variabilei studiate apar cel mai frecvent, cât de diferite sunt aceste valori, dacă majoritatea observațiilor sunt situate în apropierea mediei, este distribuția simetrică sau asimetrică, multimodală ( adică are două sau mai multe vârfuri), sau unimodal etc. Histogramele sunt, de asemenea, folosite pentru comparații ale distribuțiilor observate și teoretice sau așteptate.



Histogramele categorizate sunt seturi de histograme care corespund unor valori diferite ale uneia sau mai multor variabile de categorizare sau seturi de condiții de categorizare logică.

O histogramă este o modalitate de a prezenta datele statistice într-o formă grafică - sub forma unei diagrame cu bare. Afișează distribuția măsurătorilor individuale ale produsului sau ale parametrilor procesului. Uneori este chemată distribuția de frecvență, deoarece histograma arată frecvența de apariție a valorilor măsurate ale parametrilor obiectului.

Înălțimea fiecărei coloane indică frecvența de apariție a valorilor parametrilor în intervalul selectat, iar numărul de coloane indică numărul de intervale selectate.

Un avantaj important al histogramei este că vă permite să vizualizați tendințele parametrilor măsurați ai calității obiectului și să evaluați vizual legea distribuției lor. În plus, histograma face posibilă determinarea rapidă a centrului, răspândirii și formei distribuției unei variabile aleatorii. O histogramă este construită, de regulă, pentru modificările de interval ale valorilor parametrului măsurat.

7. Care este diferența fundamentală dintre diagramele categorizate și diagramele matrice din Statistica?

Răspuns:

Graficele matriceale constau, de asemenea, din mai multe diagrame; totuși, aici fiecare dintre ele se bazează (sau poate fi) pe același set de observații, iar diagramele sunt construite pentru toate combinațiile de variabile din una sau două liste.

diagrame matriceale. Diagramele matriceale arată relațiile dintre mai multe variabile sub forma unei matrice de diagrame XY. Cel mai comun tip de diagramă matriceală este matricea grafică de dispersie, care poate fi considerată ca echivalentul grafic al unei matrice de corelație.

Matrix Plots - Scatterplots. Acest tip de diagramă matriceală afișează diagrame de dispersie 2D organizate într-un format de matrice (valorile variabile dintr-o coloană sunt folosite ca coordonate). X, iar valorile variabilei după șir - ca coordonate Y). Histogramele care descriu distribuția fiecărei variabile sunt situate pe diagonala matricei (în cazul matricelor pătrate) sau de-a lungul marginilor (în cazul matricelor dreptunghiulare).

Vezi și secțiunea Reducerea dimensiunii eșantionului.

Graficele categorizate necesită aceeași alegere de variabile ca și diagramele necategorizate de tipul corespunzător (de exemplu, două variabile pentru un grafic de dispersie). În același timp, pentru graficele categorizate, este necesar să se precizeze cel puțin o variabilă de grupare (sau o modalitate de împărțire a observațiilor în categorii), care să conțină informații despre dacă fiecare observație aparține unui anumit subgrup. Variabila de grupare nu va fi reprezentată direct pe grafic (adică nu va fi reprezentată grafic), dar va servi drept criteriu pentru împărțirea tuturor observațiilor analizate în subgrupuri separate. Pentru fiecare grup (categorie) definit de variabila de grupare, se va construi un grafic.

8. Care sunt avantajele și dezavantajele metodelor grafice pentru analiza exploratorie a datelor?

Răspuns:+ Vizibilitate și simplitate.

Vizibilitatea (reprezentarea grafică multidimensională a datelor, prin care analistul însuși identifică tipare și relații dintre date).

- Metodele dau valori aproximative.

n - O proporție mare de subiectivitate în interpretarea rezultatelor.

n Lipsa modelelor analitice.

9. Ce metode analitice de analiză primară a datelor exploratorii cunoașteți?

Răspuns:Metode statistice, rețele neuronale.

10. Cum se testează ipoteza despre acordul distribuției datelor eșantionului cu modelul de distribuție normală în sistemul Statistica?

Răspuns:Distribuția x 2 (chi-pătrat) cu n grade de libertate este distribuția sumei pătratelor a n variabile aleatoare normale standard independente.

Chi-pătratul este o măsură a diferenței. Setați nivelul de eroare la a=0,05. În consecință, dacă valoarea p>a , atunci distribuția este optimă.

- pentru a testa ipoteza despre acordul distribuției datelor eșantionului cu modelul de distribuție normală folosind testul chi-pătrat, selectați elementul de meniu Statistics/Distribution Fittings. Apoi, în caseta de dialog Fitting Contentious Distribution, setați tipul de distribuție teoretică - Normal, selectați variabila - Variabile, setați parametrii de analiză - Parametri.

11. Care sunt principalele caracteristici statistice ale variabilelor cantitative cunoașteți? Descrierea și interpretarea lor în ceea ce privește problema rezolvată.

Răspuns:Principalele caracteristici statistice ale variabilelor cantitative:

așteptări matematice (media în eșantion, suma valorilor\n , producția medie între întreprinderi)

mediană (mijlocul valorilor.)

abatere standard (rădăcină pătrată a varianței)

varianță (o măsură a răspândirii unei variabile aleatoare date, adică abaterea acesteia de la așteptările matematice)

coeficient de asimetrie (Determinăm deplasarea față de centrul de simetrie conform regulii: dacă B1>0, atunci deplasarea la stânga, în caz contrar - la dreapta.)

coeficient de curtoză (aproape de distribuția normală)

valoarea minimă a eșantionului, valoarea maximă a eșantionului,

împrăștia

eșantionați quartilele superioare și inferioare

Mod (valoare de vârf)

12. Ce măsuri de comunicare sunt folosite pentru a măsura gradul de apropiere a relației dintre variabilele cantitative și ordinale? Calculul lor în Statistică și interpretare.

Răspuns:Corelația este o relație statistică între două sau mai multe variabile aleatoare.

În acest caz, modificările uneia sau mai multor dintre aceste cantități conduc la o modificare sistematică a celeilalte cantități sau a altor cantități. Coeficientul de corelație servește ca măsură a corelației dintre două variabile aleatoare.

Cantitativ:

Coeficientul de corelație este un indicator al naturii modificării a două variabile aleatoare.

Coeficientul de corelație al lui Pearson (măsoară gradul de relații liniare dintre variabile. Putem spune că corelația determină gradul în care valorile a două variabile sunt proporționale între ele.)

Coeficient de corelație parțială (măsoară gradul de apropiere dintre variabile, cu condiția ca valorile altor variabile să fie fixate la un nivel constant).

Calitate:

Coeficientul de corelare a rangului lui Spearman (utilizat în scopul studierii statistice a relației dintre fenomene. Obiectele studiate sunt ordonate în funcție de un anumit atribut, adică li se atribuie numere de serie - ranguri.)

| următoarea prelegere =>

Cartea, scrisă în 1977 de un cunoscut statistician matematician american, prezintă elementele de bază ale analizei exploratorii a datelor, i.e. prelucrarea primară a rezultatelor observațiilor, efectuată prin cele mai simple mijloace - un creion, hârtie și o riglă de calcul. Folosind numeroase exemple, autorul arată cum prezentarea observațiilor într-o formă vizuală folosind diagrame, tabele și grafice facilitează identificarea tiparelor și selectarea metodelor pentru o prelucrare statistică mai profundă. Prezentarea este însoțită de numeroase exerciții care implică material bogat din practică. Limbajul animat, figurat, facilitează înțelegerea materialului prezentat.

John Tukey. Analiza rezultatelor observațiilor. Analiza exploratorie. – M.: Mir, 1981. – 696 p.

Descărcați rezumatul ( rezumat) în format sau , exemple în format

La momentul publicării notei, cartea se găsește doar în librăriile second-hand.

Autorul subîmparte analiza statistică în două etape: exploratorie și confirmatoare. Prima etapă include transformarea datelor de observație și modalități de vizualizare a acestora, permițându-vă să identificați modele interne care apar în date. În a doua etapă, sunt aplicate metodele statistice tradiționale pentru estimarea parametrilor și testarea ipotezelor. Această carte este despre analiza exploratorie a datelor (pentru analiza de confirmare, vezi ). Citirea cărții nu necesită cunoștințe prealabile de teoria probabilităților și statistica matematică.

Notă. Baguzin. Având în vedere anul în care a fost scrisă cartea, autorul se concentrează pe vizualizarea datelor folosind un creion, riglă și hârtie (uneori hârtie milimetrică). În opinia mea, astăzi reprezentarea vizuală a datelor este conectată cu computerul. Așa că am încercat să combin idei originale autor și procesare în Excel. Comentariile mele sunt indentate.

Capitolul 1

O diagramă este cea mai valoroasă atunci când ne obligă să observăm lucruri pe care nu ne așteptam să le vedem. Reprezentarea numerelor sub formă de tulpină și frunze vă permite să identificați modele. De exemplu, luând zeci ca bază a tulpinii, numărul 35 poate fi atribuit tulpinii 3. Frunza va fi egală cu 5. Pentru numărul 108, tulpina este 10, frunza este 8.

Ca exemplu, am luat 100 de numere aleatoare distribuite conform legii normale cu o medie de 10 și o abatere standard de 3. Pentru a obține astfel de numere, am folosit formula =NORM.INV(RAND();10;3) ( Fig. 1). Deschideți fișierul Excel atașat. Apăsând F9, veți genera o nouă serie de numere aleatorii.

Orez. 1. 100 de numere aleatorii

Se poate observa că numerele sunt distribuite în principal în intervalul de la 5 la 16. Cu toate acestea, este greu de observat vreun model interesant. Graficul tulpinii și frunzelor (Figura 2) dezvăluie o distribuție normală. Perechi de numere învecinate au fost luate ca trunchi, de exemplu, 4-5. Frunzele reflectă numărul de valori din acel interval. În exemplul nostru, există 3 astfel de valori.

Orez. 2. Graficul „tulpină și frunze”

Există două caracteristici în Excel care vă permit să studiați rapid tiparele de frecvență: funcția FREQUENCY (Fig. 3; vezi pentru mai multe detalii) și tabele pivot (Fig. 4; vezi pentru mai multe detalii, secțiunea Gruparea câmpurilor numerice).

Orez. 3. Analiză folosind funcția matrice FREQUENCY

Orez. 4. Analiza folosind tabele pivot

Reprezentarea sub formă de tulpină cu frunze (reprezentare în frecvență) vă permite să identificați următoarele caracteristici date:

  • împărțirea în grupuri;
  • cădere asimetrică până la capete - o „coadă” este mai lungă decât cealaltă;
  • înțelesuri neașteptate de „popular” și „nepopular”;
  • despre ce valoare sunt „centrate” observațiile;
  • Cât de mare este dispersia în date.

Capitolul 2. REZUMAT SIMPLU DE DATE - NUMERICE ȘI GRAFICE

Reprezentarea numerelor sub forma unei tulpini cu frunze vă permite să percepeți imagine de ansamblu mostre. Ne confruntăm cu sarcina de a învăța cum să exprimăm într-o formă concisă cea mai frecventă aspecte comune mostre. Pentru aceasta, sunt utilizate rezumate de date. Cu toate acestea, deși rezumatele pot fi foarte utile, ele nu oferă toate detaliile eșantionului. Dacă nu sunt atât de multe dintre aceste detalii încât să deranjeze, cel mai bine este să avem datele complete în fața ochilor, așezate într-un mod clar convenabil pentru noi. Pentru seturi mari de date, sunt necesare rezumate. Nu presupunem și nu ne așteptăm că vor înlocui datele complete. Desigur, de multe ori se întâmplă ca adăugarea de detalii nu face prea mult, dar este important să ne dăm seama că uneori detaliile fac foarte multe.

Dacă, pentru a caracteriza eșantionul în ansamblu, trebuie să selectăm mai multe numere care sunt ușor de găsit, atunci probabil că vom avea nevoie de:

  • valori extreme - cele mai mari și cele mai mici, pe care le vom marca cu simbolul „1” (în funcție de rangul sau adâncimea lor);
  • vreo valoare medie.

Median= valoarea mediană.

Pentru o serie reprezentată ca o tulpină cu frunze, valoarea mijlocie poate fi găsită cu ușurință prin numărătoare inversă de la oricare dintre capete, atribuind rangul „1” valorii extreme. Astfel, fiecare valoare din eșantion devine proprie rang. Puteți începe să numărați de la oricare capăt. Cel mai mic dintre cele două ranguri astfel obținute care poate fi atribuit aceleiași valori, îl vom numi adâncime(Fig. 5). Adâncimea valorii extreme este întotdeauna 1.

Orez. 5. Determinarea adâncimii pe baza a două direcții de clasare

adâncimea (sau rangul) medianei = (1 + număr de valori)/2

Dacă vrem să mai adăugăm două numere pentru a forma un rezumat de 5 numere, atunci este firesc să le definim numărând până la jumătate din distanța de la fiecare capăt la mediană. Procesul de găsire a mediei și apoi aceste noi valori poate fi gândit ca plierea unei bucăți de hârtie. Prin urmare, este firesc să numim aceste noi valori pliuri(termen folosit acum mai des quartila).

Când este prăbușită, o serie de 13 valori ar putea arăta astfel:

Cinci numere pentru a caracteriza seria în ordine crescătoare vor fi: -3,2; 0,1; 1,5; 3,0; 9.8 - câte unul la fiecare punct de inflexiune al rândului. Cele cinci numere (extreme, pliuri, mediană) care alcătuiesc un rezumat de 5 numere, le vom reprezenta sub forma următoarei diagrame simple:

unde în stânga am arătat numărul de numere (marcate cu semnul #), adâncimea medianei (litera M), adâncimea pliurilor (litera C) și adâncimea valorilor extreme (întotdeauna 1, nu este nevoie să marcați altceva).

Pe fig. 8 arată cum să afișați grafic un rezumat din 5 cifre. Acest tip de grafic se numește cutie cu mustață.

Orez. 8. Schema schematică sau cutia cu mustață

Din păcate, Excel construiește în mod obișnuit grafice bursiere bazate pe doar trei sau patru valori (Figura 9; vezi cum să ocoliți această limitare). Pentru a construi un rezumat din 5 cifre, puteți utiliza pachetul statistic R (Figura 10; consultați Capacitățile grafice de bază R: diagrame de dispersie pentru detalii; dacă nu sunteți familiarizat cu R, puteți începe cu). Funcția boxplot() din R, pe lângă cele 5 numere, afișează și valori aberante (mai multe despre ele mai târziu).

Orez. 9. Posibile tipuri de diagrame bursiere în Excel

Orez. 10. Boxplot în R; pentru a construi un astfel de grafic, este suficient să executați comanda boxplot (count ~ spray, data = InsectSprays), datele stocate în program vor fi încărcate, iar graficul prezentat va fi construit

Când construim o diagramă cu cutie și mustață, vom respecta următoarea schemă simplă:

  • „C-width” = diferența dintre valorile celor două pliuri;
  • "pas" - o valoare de o ori și jumătate mai mare decât lățimea C;
  • „barierele interne” sunt în afara pliurilor la o distanță de un pas;
  • „bariere exterioare” – din exterior cu un pas mai departe decât cele interne;
  • valorile dintre barierele interioare și exterioare adiacente vor fi „exterioare”;
  • valorile din spatele barierelor exterioare vor fi numite „sărire” (sau valori aberante);
  • „interval” = diferența dintre valorile extreme.

Orez. 19. Calculul medianei mobile: (a) în detaliu pentru o parte a datelor; (b) pentru întregul eșantion

Orez. 20. Curbă netedă

Capitolul 10. UTILIZAREA ANALIZEI DUPĂ CĂI

Este timpul să luăm în considerare două analiza factorilor atât datorită importanţei sale, cât şi pentru că este o introducere într-o varietate de metode de cercetare. Baza tabelului cu doi factori (tabelul „răspuns”) este:

  • un tip de răspuns;
  • doi factori – și fiecare dintre ei se manifestă în fiecare observație.

Tabel cu doi factori de reziduuri. Analiza rând-plus-coloană. Pe fig. Figura 21 arată temperaturile medii lunare pentru trei locații din Arizona.

Orez. 21. Temperaturi medii lunare în trei orașe din Arizona, °F

Să determinăm mediana pentru fiecare loc și să o scădem din valorile individuale (Fig. 22).

Orez. 22. Valori de aproximare (mediane) pentru fiecare oraș și reziduuri

Acum să determinăm aproximarea (mediana) pentru fiecare rând și să o scădem din valorile rândului (Fig. 23).

Orez. 23. Valori de aproximare (mediane) pentru fiecare lună și reziduuri

Pentru fig. 23 introducem conceptul de „efect”. Numărul -24,7 este efectul de coloană, iar numărul 19,1 este efectul de rând. Efectul arată modul în care un factor sau un set de factori se manifestă în fiecare dintre valorile observate. Dacă partea emergentă a factorului este mai mare decât ceea ce rămâne, atunci este mai ușor să vedeți și să înțelegeți ce se întâmplă cu datele. Numărul care a fost scăzut din toate datele fără excepție (aici 70,8) se numește „total”. Este manifestarea tuturor factorilor comuni tuturor datelor. Astfel, pentru valorile din Fig. 23 formula este valabilă:

Acesta este modelul analizei rând-PLUS-coloană de beton. Revenim la vechiul nostru truc de a încerca să găsim o descriere parțială simplă - o descriere parțială care este mai ușor de înțeles - o descriere parțială a cărei scădere ne va oferi o privire mai profundă asupra a ceea ce nu a fost încă descris.

Ce putem învăța din analiza completă în două sensuri? Cel mai mare reziduu, 1,9, este mic în comparație cu magnitudinea modificării efectului punct la punct și de la lună la lună. Flagstaff este cu aproximativ 25°F mai rece decât Phoenix, în timp ce Yuma este cu 5-6°F mai cald decât Phoenix. Secvența efectelor lunilor scade monoton de la lună la lună, la început încet, apoi rapid, apoi din nou încet. Aceasta este similară cu simetria din jurul lunii octombrie (am observat acest model mai devreme în exemplul lungimii zilei; vezi . - Notă. Baguzina); Am îndepărtat ambele voaluri - efectul anotimpului și efectul locului. După aceea, am putut să vedem destul de multe lucruri care înainte trecuseră neobservate.

Pe fig. 24 este dat diagramă cu doi factori. Deși principalul lucru din această figură este o aproximare, nu ar trebui să neglijăm reziduurile. În patru puncte, am trasat linii verticale scurte. Lungimile acestor liniuțe sunt egale cu valorile reziduurilor corespunzătoare, astfel încât coordonatele celui de-al doilea capăt nu sunt valori de aproximare, ci

Date = aproximare PLUS rest.

Orez. 24. Diagrama cu doi factori

Rețineți, de asemenea, că proprietatea acestei diagrame sau a oricărei alte diagrame cu doi factori este „scalarea într-o singură direcție”, definind dimensiunea verticală, i.e. linii orizontale punctate desenate de-a lungul părților laterale ale imaginii și absența oricărei dimensiuni în direcția orizontală.

Pentru funcțiile Excel, consultați . Este curios că unele dintre formulele folosite în această notă poartă numele lui Tukey.

Ceea ce s-a întâmplat apoi, după părerea mea, a devenit destul de complicat...

  1. 1. Curs 2. Analiza exploratorie a datelor Lector: prof. Avdeenko Tatyana Vladimirovna, Universitatea Tehnică de Stat Novosibirsk, Facultatea de Afaceri, Departamentul de Informatică Economică
  2. 2. Analiza exploratorie a datelor - Analiza preliminara a datelor in vederea identificarii celor mai comune tipare si tendinte, natura si proprietatile datelor analizate, legile de distributie a valorilor analizate. Este folosit pentru a găsi relații între variabile în situații în care nu există (sau insuficiente) idei a priori despre natura acestor relații. De regulă, analiza exploratorie ia în considerare și compară un număr mare de variabile și sunt utilizate o varietate de metode pentru a găsi modele.
  3. 3. Analiza explorativă a datelor Termenul „analiza exploratorie” a fost introdus pentru prima dată de matematicianul de la Universitatea Princeton J. Tukey. De asemenea, a formulat principalele obiective ale acestei analize: - „Pătrundere” maximă în date. - Identificarea structurilor principale. - Selectarea celor mai importante variabile. - Detectarea abaterilor si anomaliilor. - Verificarea principalelor ipoteze (ipoteze). - Dezvoltarea modelelor initiale. .
  4. 4. Analiza exploratorie a datelor Rezultatele analizei exploratorii nu sunt folosite pentru a lua decizii de management. Scopul lor este de a ajuta la dezvoltarea celei mai bune strategii de analiză aprofundată, de a formula ipoteze, de a clarifica caracteristicile aplicării anumitor metode și modele matematice. Fără o analiză exploratorie, analiza aprofundată a datelor va fi efectuată aproape „orb”.
  5. 5. Analiza explorativă a datelor Principalele metode de analiză exploratorie includ procedura de analiză a distribuțiilor variabilelor, vizualizarea matricelor de corelație în vederea găsirii coeficienților care depășesc anumite valori de prag, analiza factorială, analiza discriminantă, scalarea multivariată, analiza vizuală a histogramelor etc. .
  6. 6. Analiza exploratorie a datelor Un studiu preliminar al datelor nu poate servi decât ca prim pas în procesul de analiză a datelor, iar până când rezultatele sunt confirmate pe alte probe sau pe un set de date independent, acestea ar trebui luate cel mult ca ipoteză. Dacă rezultatele analizei exploratorii favorizează un anumit model, atunci corectitudinea acestuia poate fi apoi testată prin aplicarea lui la date noi.
  7. 7. Cele mai simple statistici descriptive (Statistici descriptive) Dispersie medie Percentilă Kurtoză Interval cuantilă Median Quartil Mod Asimism Interval intercuartil
  8. 8. Măsuri de distribuție centrală: medie, mediană și mod O modalitate de a rezuma datele este de a calcula o singură valoare care caracterizează întregul set de date. Această valoare este adesea denumită tipică sau cea mai reprezentativă. Median. Reprezintă mijlocul distribuției, adică jumătate din acest set de date are valori mai mici, iar cealaltă jumătate are valori mai mari. Pentru a determina mediana, mai întâi trebuie să sortați (clasați) datele. Secvența rezultată se numește serie variațională, iar elementele sale sunt numite statistici de ordine. Fiecărei observații i se atribuie un rang (număr). Calculul exact al mediei depinde de numărul de observații din setul de date. Pentru un număr impar de valori, mediana este valoarea intermediară, iar pentru un număr par, mediana este jumătatea sumei celor două valori centrale.
  9. 9. Măsuri centrale ale distribuției: medie Media: Media eșantionului are o proprietate remarcabilă: suma pătratelor distanțelor este minimă. Alte proprietăți statistice ale mediei eșantionului sunt imparțialitatea, consistența, eficiența. ∑ = = N i ixx 1 1 ∑ = − N i ixx 1 2)(
  10. 10. Măsuri centrale de distribuție: mediană sau medie Unul dintre dezavantajele mediei este că depinde foarte mult de valorile extreme. Luați în considerare distribuția salariilor pentru jucătorii profesioniști de baseball. Majoritatea jucătorilor de baseball câștigă mai puțin de un milion de dolari pe an, dar există jucători de baseball care câștigă peste 10 milioane de dolari și un jucător de baseball care câștigă peste 20 de milioane de dolari. Cum se stabilește salariul „tipic”? Mediana acestei distribuții este de 900.000 USD, iar mediana este de 2,5 milioane USD. Se pare că mediana este mai reprezentativă pentru salariul „tipic”.În statisticile oficiale din SUA, mediana este cea care este folosită ca estimare a punctului central de venit al populației. Dacă distribuția este denaturată, există valori aberante
  11. 11. Măsuri de distribuție centrală: mediană sau medie media unui set de date care exclude câteva procente din valorile de la ambele capete ale distribuției. De exemplu, o medie redusă de 5% este egală cu media a 90% din valorile din setul de date, excluzând 5% la fiecare capăt al distribuției. Media tăiată este un compromis al caracteristicii finale în comparație cu mediana și media.
  12. 12. Măsuri centrale de distribuție Media geometrică Media geometrică este folosită cel mai adesea pentru seturi de date care variază de la 0 la 1. De exemplu, rezultatele studiilor farmaceutice sunt adesea scrise ca proporții relative ale componentelor chimice, deci este convenabil să se folosească media geometrică pentru ei.. Medie armonică Această caracteristică este utilă pentru calcularea valorilor medii ale vitezelor. Să presupunem că este necesar să se determine viteza medie a unei mașini care se deplasează din punctul A în punctul B cu o viteză S și în sens opus - cu o viteză T. În acest caz, viteza medie a mașinii va fi egală cu media armonică pentru valorile S și T. n n i ix∏ =1 ∑ = = n i ixnН 1 111
  13. 13. Măsuri centrale ale distribuției O altă caracteristică finală a distribuției este modul (modul, Pearson 1894), cea mai comună valoare (la modă) a distribuției. Modul este adesea folosit atunci când se ocupă cu date calitative sau cu date cantitative discrete care au relativ puține valori diferite. Nu ar trebui utilizat pentru date cantitative continue, deoarece atunci există foarte puține sau aproape deloc valori repetate în astfel de distribuții. Un exemplu clasic de utilizare a modei este alegerea mărimii lotului de pantofi produs sau a culorii tapetului.
  14. 14. Măsuri de distribuție centrală Dacă distribuția are mai multe moduri, atunci se numește multimodală. Multimodalitatea oferă informații importante despre natura variabilei studiate. De exemplu, în anchetele sociologice, dacă o variabilă reprezintă o preferință sau atitudine față de ceva, atunci multimodalitatea poate însemna că există mai multe opinii clare. Multimodalitatea poate servi ca un indicator că eșantionul nu este omogen și observațiile pot fi generate de două sau mai multe distribuții „impuse”.
  15. 15. Măsuri ale variabilității Media și mediana nu caracterizează pe deplin distribuția, deoarece nu iau în considerare variabilitatea datelor. Variabilitatea caracterizează diferențele dintre date sau, echivalent, răspândirea de la centru. Cea mai simplă măsură a variabilității este intervalul (intervalul), adică diferența dintre valorile maxime și minime ale distribuției. Cu toate acestea, intervalul de valori nu caracterizează cu acuratețe variabilitatea distribuției și poate induce în eroare.
  16. 16. Măsuri ale variabilității Varianta (Fischer, 1918) Abaterea standard ∑ = − − = n i i xx n s 1 22)(1 1 2 1 1 () 1 n i i s x x n = = − − ∑
  17. 17. Măsuri ale variabilității Varianța eșantionului de eșantioane repetate și nerepetate este o estimare imparțială și consecventă a varianței generale, i.e. și Varianța eșantionului nu este un estimator eficient, dar este eficientă asimptotic (adică, deoarece eficiența tinde spre 1). 2 s 2 σ 2 s 2 σ 22)(σ=sM 2 2 P n s σ →∞ → ∞→n
  18. 18 Măsuri de formă: asimetrie și curtoză Asimetria sau asimetria este o măsură a asimetriei unei distribuții (Pearson 1895): asimetria pozitivă înseamnă că valorile distribuției sunt aglomerate în regiunea valorilor mici și a distribuția are o coadă lungă în regiunea valorilor mari. Și invers: asimetria negativă înseamnă că valorile distribuției sunt aglomerate în regiunea valorilor mari, iar distribuția are o coadă lungă în regiunea valorilor mici. O valoare de asimetrie egală cu zero corespunde unei distribuții simetrice. 2 3 1 2 1 3)(1)(1         − − = ∑ ∑ = = n i i n i i xx n xx n A
  19. 19. Măsuri de formă: asimetrie și curtoză Kurtosis (Pearson 1905) caracterizează claritatea sau netezimea relativă a unei distribuții în comparație cu o distribuție normală. Curtoza pozitivă denotă o distribuție relativ țepoasă, în timp ce kurtoza negativă denotă o distribuție relativ netedă. Cum se verifică dacă o distribuție este normală folosind asimetrie și curtoză? Pentru o distribuție normală A=E=0. 3)(1)(1 2 1 2 1 4 −         − − = ∑ ∑ = = n i i n i i xx n xx n E
  20. 20. Percentile (Percentile) și Quartile Quantile (Kendall 1940) o valoare a unei distribuții date care este mai mare decât p procent din toate valorile distribuției. Percentilele sunt utilizate în mod obișnuit atunci când se analizează creșterea nou-născuților, dacă, de exemplu, un copil este atribuit percentilei 75 sau 90, atunci cântărește mai mult de 75% sau 90% din toți nou-născuții. ()pF x p=
  21. 21. Percentile (percentile) și quartiles Quartilele (Galton 1982) (quartiles) sunt destul de apropiate ca semnificație de percentilele - valori care corespund percentilelor 25, 50 și 75, adică. sferturi de distributie. Ele sunt de obicei denumite prima, a doua și a treia quartile. În statistică, este adesea folosit intervalul intercuartil, care denotă diferența dintre primul și al treilea quartile (un alt nume este intervalul de quartile). Deoarece acest interval conține 50% din toate datele, dimensiunea sa oferă o idee despre lățimea distribuției.
  22. 22. Cutie cu mustăți Un diagramă de casete (boxplot) descrie caracteristici importante ale statisticii descriptive într-o figură compactă. A fost propus de John Tukey în 1977. c. O diagramă cu casete și mustăți afișează următoarele caracteristici ale statisticilor descriptive: primul cuartil, mediana, al treilea cuartil și intervalul intercuartil. Valori minime și maxime. Emisii moderate și extreme. O diagramă cu casete și mustăți oferă o bună reprezentare vizuală a variabilității datelor, precum și a asimetriei distribuției.
  23. 23. Cutie cu mustăți După afișarea intervalului intercuartil, puteți începe să calculați gardurile interioare și exterioare. Gardurile interioare sunt situate în zona mai mare decât a treia cuartilă + 1,5 × IQR sau mai mică decât prima cuartilă - 1,5 × IQR. Gardurile exterioare sunt situate în zona mai mare decât a treia cuartilă + 3xIQR sau mai mică decât prima cuartilă - 3xIQR. 3-a quartila 1-a cuartilă interioară = 1-a cuartilă - 1,5xIQR exterior = 1-a cuartilă - 3xIQR interior = a 3-a quartila + 1,5xIQR exterior = a 3-a quartila + 3xIQR IQR median
  24. 24. Cutie cu mustață Toate valorile care se află între gardurile interioare și exterioare sunt numite valori aberante moderate și sunt notate cu simbolurile . Toate valorile care se află în afara gardurilor exterioare sunt numite emisii extreme (extreme outlier) și sunt notate cu simbolurile  . a 3-a cuartilă 1-a cuartilă interior exterior interior interior exterior mediană
  25. 25. Box&WhiskerPlot: Salariul Median 25%-75% Min-Max F M Sex 18000 20000 22000 24000 26000 28000 30000 32000 34000 36000 36000 36000 4000 400 400 400 400 400 400 400 400 400
  26. 26. Analiza tabelelor Tabele de frecvență Tabele de contingență Tabele de antet Răspunsuri multivariate Dihotomii
  27. 27. Tabele de contingență Crosstabulation este procesul de combinare a două (sau mai multe) tabele de frecvență astfel încât fiecare celulă (celulă) din tabelul construit să fie reprezentată printr-o singură combinație de valori sau niveluri de variabile tabulate. Astfel, tabelul încrucișat face posibilă combinarea frecvențelor de apariție a observațiilor la diferite niveluri ale factorilor considerați. Prin examinarea acestor frecvențe, pot fi determinate relații între variabilele tabulate. De obicei, variabilele categoriale sau variabilele cu un număr relativ mic de valori sunt tabulate.
  28. 28. Tabele de gaz de contingență. apă: A Gaz. apă: B Sex: femei 20 (40%) 30 (60%) 50 (50%) Sex: bărbați 30 (60%) 20 (40%) 50 (50%) 50 (50%) 50 (50%) 100 100 %)
  29. 29. Tabelele de contingență Frecvențele marginale. Valorile de la marginile tabelului de contingență sunt tabelele de frecvență obișnuite (cu o singură intrare) pentru variabilele în cauză. Deoarece aceste frecvențe sunt situate la marginile tabelului, ele sunt numite marginale. Valorile marginale sunt importante pentru că vă permit să evaluați distribuția frecvențelor în coloane și rânduri individuale ale tabelului. De exemplu, 40% și 60% dintre bărbații și femeile (respectiv) care au ales marca A nu ar putea prezenta nicio relație între Gen și Gaz. Apă dacă frecvențele marginale ale Genului ar fi, de asemenea, 40% și 60%. În acest caz, ele ar reflecta pur și simplu proporțiile diferite de bărbați și femei care participă la sondaj.
  30. 30. Tabelele de contingență Tabelul de frecvență (Sondaj) Celulele marcate au un număr > 10 (Rezumatele marginale nu sunt marcate) Var1 Var2 Math Var2 Biz_Ekon Var2 Med_Health Var2 Sociol Row Totals PC 29 49 8 28 114 Mainframe 22 12 3 5 2 3 1 1 4 Mac 12 4 0 6 22 Toate grupurile 65 66 11 48 190
  31. 31. Tabele de contingență Testarea ipotezei H0: distribuția diferitelor tipuri de calculatoare este aceeași în cadrul fiecărui departament (variabilele sunt independente). H1: distribuția diferitelor tipuri de computere depinde de departament (variabilele sunt dependente)
  32. 32. Tabelele de contingență În 1900, Karl Pearson a propus un test de testare a ipotezei (testul chi-pătrat al lui Pearson): , frecvențe așteptate, frecvențe marginale Dacă atunci ipoteza independenței variabilelor este respinsă (variabilele sunt dependente). ∑∑ = = − = r i s j ij ijijn 1 1 2 2)(ν ν χ n nn ji ij .. =ν 2 2 ,(1)(1)r sαχ χ − −> ∑ = = s j iji nn 1 . 1 r j ij i n n = = ∑

Data Mining Frolov Timofey. BI-1102 Data mining este procesul de explorare analitică a unor cantități mari de informații (de obicei de natură economică) pentru a identifica anumite modele și relații sistematice între variabile, care pot fi apoi aplicate unor noi seturi de date. Acest proces include trei pași principali: explorare, construirea unui model sau a unei structuri și testarea acestuia. În mod ideal, cu date suficiente, poate fi organizată o procedură iterativă pentru a construi un model robust. În același timp, într-o situație reală este aproape imposibil de verificat model economicîn stadiul de analiză și deci rezultatele inițiale au caracter de euristică care poate fi folosită în procesul de luare a deciziilor (de exemplu, „Dovezile disponibile sugerează că la femei frecvența de utilizare a somniferelor crește cu vârsta mai rapid decât la bărbați. "). Metodele de extragere a datelor devin din ce în ce mai populare ca instrument de analiză a informațiilor economice, mai ales în cazurile în care se presupune că cunoştinţele pot fi extrase din datele existente pentru luarea deciziilor în condiţii de incertitudine. Deși recent a crescut interesul pentru dezvoltarea de noi metode de analiză a datelor special concepute pentru sectorul de afaceri (de exemplu, Clasification Trees), în general, sistemele de Data Mining se bazează încă pe principiile clasice ale analizei exploratorii a datelor (EDA) și ale construirii de modele. și folosiți aceleași abordări și metode. Există, totuși, o diferență importantă între procedura Data Mining și analiza clasică a datelor exploratorii (RAD): sistemele de Data Mining sunt mai axate pe aplicarea practică a rezultatelor obținute decât pe clarificarea naturii fenomenului. Cu alte cuvinte, cu Data Mining, nu suntem foarte interesați de tipul specific de dependențe dintre variabilele sarcinii. Nu este scopul principal această procedură. Atenția principală este acordată găsirii de soluții pe baza cărora să fie posibilă construirea de previziuni fiabile. Astfel, în domeniul Data Mining-ului se adoptă o astfel de abordare a analizei datelor și a extragerii cunoștințelor, care se caracterizează uneori prin cuvintele „cutie neagră”. În acest caz, se folosesc nu doar metodele clasice de analiză exploratorie a datelor, ci și metode precum rețelele neuronale care vă permit să construiți previziuni fiabile fără a specifica tipul specific al acelor dependențe pe care se bazează o astfel de prognoză. Foarte des, Data Mining este interpretat ca „un amestec de statistici, metode de inteligență artificială (AI) și analiză de baze de date” (Pregibon, 1997, p. 8), iar până de curând nu a fost recunoscut ca o zonă cu drepturi depline a interes pentru statisticieni, și uneori chiar numită „curtea din spate a statisticii” (Pregibon, 1997, p. 8). Cu toate acestea, datorită importanței sale practice, această problemă este acum intens dezvoltată și atrage un mare interes (inclusiv în aspectele ei statistice) și s-au obținut rezultate teoretice importante în ea (a se vedea, de exemplu, materialele anuale). Conferinta Internationala on Knowledge Discovery and Data Mining (International Conferences on Knowledge Discovery and Data Mining), unul dintre organizatorii cărora în 1997 a fost Asociația Americană de Statistică). un depozit de date este un loc în care sunt stocate seturi mari de date multidimensionale, ceea ce facilitează recuperarea și utilizarea informațiilor în procedurile de analiză. O arhitectură eficientă a depozitului de date ar trebui organizată astfel încât să fie parte integrantă Sistem informatic managementul întreprinderii (sau cel puțin să fie conectat la toate datele disponibile). În acest caz, este necesar să folosiți tehnologii speciale pentru lucrul cu bazele de date corporative (de exemplu, Oracle, Sybase, MS SQL Server). O tehnologie de depozit de date de înaltă performanță care permite utilizatorilor să organizeze și să utilizeze eficient o bază de date de întreprindere de complexitate aproape nelimitată a fost dezvoltată de către sistemele de întreprindere StatSoft și se numește SENS și SEWSS). Termenul OLAP (sau FASMI - Rapid Analysis of Distributed Multidimensional Information) se referă la metode care permit utilizatorilor bazelor de date multidimensionale în timp real să genereze rezumate descriptive și comparative („vizualizări”) ale datelor și să primească răspunsuri la diferite alte întrebări analitice. Rețineți că, în ciuda numelui său, această metodă nu implică prelucrare interactivă (în timp real) a datelor; înseamnă procesul de analiză a bazelor de date multidimensionale (care, în special, pot conține informații actualizate dinamic) prin compilarea de interogări „multidimensionale” eficiente pe date de diferite tipuri. Instrumentele OLAP pot fi încorporate în sistemele de baze de date corporative (la nivelul întregii întreprinderi) și permit analiștilor și managerilor să monitorizeze progresul și performanța afacerii lor sau a pieței în ansamblu (de exemplu, diverse aspecte ale procesului de producție sau numărul și categoriile de tranzacții finalizate de diferite regiuni). Analiza efectuată prin metodele OLAP poate varia de la simple (de exemplu, tabele de frecvență, statistici descriptive, tabele simple) la destul de complexe (de exemplu, poate include ajustarea sezonieră, eliminarea valorii aberante și alte curățări de date). Deși metodele Data Mining pot fi aplicate oricărei informații, neprelucrate anterior și chiar informații nestructurate, ele pot fi folosite și pentru analiza datelor și rapoartelor primite de instrumentele OLAP în scopul cercetării mai aprofundate, de obicei în dimensiuni mai mari. În acest sens, metodele Data Mining pot fi văzute ca o abordare analitică alternativă (care servește altor scopuri decât OLAP) sau ca o extensie analitică a sistemelor OLAP. RAD și testarea ipotezelor Spre deosebire de testarea tradițională a ipotezelor, care este concepută pentru a testa ipotezele anterioare cu privire la asocierile dintre variabile (de exemplu, „Există o corelație pozitivă între vârsta unui individ și aversiunea lui la risc”), este utilizată analiza exploratorie a datelor (EPA). să găsească asocieri.între variabile în situaţiile în care nu există (sau insuficiente) idei a priori despre natura acestor relaţii. De regulă, analiza exploratorie ia în considerare și compară un număr mare de variabile și sunt utilizate o varietate de metode pentru a găsi modele. Metode de calcul ale RAD Metodele de calcul de analiză exploratorie a datelor includ metode statistice de bază, precum și metode mai complexe, special dezvoltate de analiză multivariată, concepute pentru a găsi modele în datele multivariate. Metode de bază ale analizei statistice exploratorii. Principalele metode de analiză statistică exploratorie includ procedura de analiză a distribuțiilor variabilelor (de exemplu, pentru identificarea variabilelor cu distribuție asimetrică sau non-Gauss, inclusiv bimodală), vizualizarea matricelor de corelație în vederea căutării coeficienților care depășesc anumite valori de prag. (vezi exemplul anterior) sau analiza tabelelor de frecvență cu mai multe intrări (de exemplu, vizualizarea secvențială „stratificată” a combinațiilor de niveluri ale variabilelor de control). Metode de analiză exploratorie multidimensională. Metodele de analiză exploratorie multivariată sunt concepute special pentru a găsi modele în datele multivariate (sau secvențe de date univariate). Acestea includ: analiza clusterului, analiza factorială, analiza funcțiilor liscriminante, scalarea multivariată, analiza log-liniară, corelațiile canonice, regresia liniară și neliniară în trepte (de exemplu, logit), analiza corespondenței, analiza serii de timp. Rețele neuronale. Această clasă de metode analitice se bazează pe ideea de a reproduce procesele de învățare ale ființelor gânditoare (așa cum le apar cercetătorilor) și funcțiile celulelor nervoase. Rețelele neuronale pot prezice valorile viitoare ale variabilelor pe baza valorilor deja existente ale aceleiași sau ale altor variabile, având în prealabil efectuat așa-numitul proces de învățare pe baza datelor disponibile. Preexaminarea datelor poate servi doar ca prim pas în procesul de analiză a datelor, iar până când rezultatele sunt verificate (prin metode de validare încrucișată) pe alte părți ale bazei de date sau pe un set independent de date, acestea pot fi luate. ca o ipoteză cel mult. Dacă rezultatele analizei exploratorii sunt în favoarea unui model, atunci corectitudinea acestuia poate fi apoi testată prin aplicarea lui la date noi și determinarea gradului de consistență a acestuia cu datele (testarea „predictibilității”). Pentru a selecta rapid diferite subseturi de date (de exemplu, pentru curățare, verificare etc.) și pentru a evalua fiabilitatea rezultatelor, este convenabil să folosiți condițiile pentru selectarea observațiilor.

Articole similare

2022 selectvoice.ru. Treaba mea. Contabilitate. Povesti de succes. Idei. Calculatoare. Revistă.