Przykład wykorzystania analizy skupień STATISTICA w ubezpieczeniach komunikacyjnych. Podstawy analizy danych Inteligencja Analiza danych

Odpowiedź:

Do wyszukiwania zależności, trendów i przesunięć ukrytych w nieustrukturyzowanych zbiorach danych można użyć metod graficznych.

Metody wizualizacji obejmują:

Prezentacja danych w postaci wykresów słupkowych, liniowych w przestrzeni wielowymiarowej;

Nakładaj i łącz wiele obrazów;

Identyfikacja i oznakowanie podgrup danych, które spełniają określone warunki;

Dzielenie lub łączenie podgrup danych na wykresie;

Agregacja danych;

Wygładzanie danych;

Budowa piktogramów;

Tworzenie struktur mozaikowych;

Płaszczyzny widmowe, mapy poziomów; metody dynamicznej rotacji i dynamicznej stratyfikacji obrazów 3D; alokacja określonych zestawów i bloków danych itp.

Rodzaje wykresów w programie Statistica:

§ dwuwymiarowe wykresy; (histogramy)

§ trójwymiarowa grafika;

§ wykresy macierzowe;

§ piktogramy.

Odpowiedź:Wykresy te to zbiory wykresów 2D, 3D, trójskładnikowych lub n-wymiarowych (takich jak histogramy, wykresy rozrzutu, wykresy liniowe, powierzchnie, wykresy kołowe), po jednym wykresie dla każdej wybranej kategorii (podzbioru) obserwacji.

Wykres to zestaw wykresów, wykresów kołowych dla każdej określonej kategorii wybranej zmiennej (2 płcie - 2 płcie).

W podobny sposób można obsługiwać skategoryzowaną strukturę danych. : np. statystyki dotyczące klientów zostały zebrane i konieczne jest przeanalizowanie wielkości zakupów według różnych kategorii (mężczyźni-kobiety, starcy-dojrzali-młodzi).

W statystyce - histogramy, wykresy rozrzutu, wykresy liniowe, wykresy kołowe, wykresy 3D, wykresy trójskładnikowe 3D

Jak widać, ta zmienna ma ogólnie rozkład normalny dla każdej grupy (rodzaj kolorów).

5. Jakie informacje o charakterze danych można uzyskać analizując wykresy rozrzutu i skategoryzowane wykresy rozrzutu?

Odpowiedź:

Wykresy rozrzutu są powszechnie używane do ujawnienia charakteru związku między dwiema zmiennymi (np. Zyskiem i funduszem wynagrodzenie), ponieważ dostarczają znacznie więcej informacji niż współczynnik korelacji.



Jeśli przyjmie się, że jeden z parametrów jest zależny od drugiego, to zwykle wartości parametru niezależnego są wykreślane wzdłuż osi poziomej, a wartości parametru zależnego są nanoszone wzdłuż osi pionowej. Wykresy rozrzutu służą do pokazania obecności lub braku korelacji między dwiema zmiennymi.

Każdy punkt zaznaczony na wykresie zawiera dwie cechy, na przykład wiek i dochód osoby, każda naniesiona wzdłuż własnej osi. Często pomaga to ustalić, czy istnieje jakaś istotna statystyczna zależność między tymi cechami i jakiego rodzaju funkcji warto wybrać. ZA

6. Jakie informacje o charakterze danych można uzyskać analizując histogramy i skategoryzowane histogramy?

Odpowiedź

: Histogramy służą do badania rozkładów częstotliwości wartości zmiennych. Taki rozkład częstości pokazuje, które konkretne wartości lub zakresy wartości badanej zmiennej występują najczęściej, jak różne są te wartości, czy większość obserwacji znajduje się w pobliżu wartości średniej, czy rozkład jest symetryczny czy asymetryczny, multimodalny (tj. Ma dwa lub więcej wierzchołków), czy unimodalny itp. Histogramy są również używane do porównywanie obserwowanych i teoretycznych lub oczekiwanych rozkładów.



Skategoryzowane histogramy to zestawy histogramów odpowiadające różnym wartościom jednej lub większej liczby zmiennych kategoryzujących lub zestawów logicznych warunków kategoryzacji.

Histogram to sposób prezentacji danych statystycznych w formie graficznej - w postaci wykresu słupkowego. Wyświetla rozkład poszczególnych pomiarów parametrów produktu lub procesu. Czasami do niej dzwonią rozkład częstotliwości, ponieważ histogram pokazuje częstotliwość występowania zmierzonych wartości parametrów obiektu.

Wysokość każdej kolumny wskazuje częstotliwość występowania wartości parametrów w wybranym zakresie, a liczba kolumn wskazuje liczbę wybranych zakresów.

Ważną zaletą histogramu jest to, że pozwala na wizualizację tendencji zmian mierzonych parametrów jakościowych obiektu oraz wizualną ocenę prawa ich rozkładu. Ponadto histogram umożliwia szybkie określenie środka, rozrzutu i kształtu rozkładu zmiennej losowej. Histogram jest z reguły budowany dla interwałowej zmiany wartości mierzonego parametru.

7. Czym zasadniczo różnią się skategoryzowane wykresy od wykresów macierzowych w programie Statistica?

Odpowiedź:

Wykresy macierzowe również składają się z wielu wykresów; jednak tutaj każda z nich jest oparta (lub może być oparta) na tym samym zestawie obserwacji, a wykresy są rysowane dla wszystkich kombinacji zmiennych z jednej lub dwóch list.

wykresy atrix. Wykresy macierzowe przedstawiają zależności między kilkoma zmiennymi w postaci macierzy wykresów XY. Najpopularniejszym rodzajem wykresu macierzowego jest macierz wykresu rozrzutu, którą można traktować jako graficzny odpowiednik macierzy korelacji.

Wykresy macierzowe - wykresy punktowe. Na wykresach macierzowych tego typu wyświetlane są 2M wykresy rozrzutu zorganizowane w postaci macierzy (jako współrzędne służą wartości zmiennej kolumnowej X, a wartości zmiennej wzdłuż linii - jako współrzędne Y). Histogramy przedstawiające rozkład każdej zmiennej znajdują się na przekątnej macierzy (w przypadku macierzy kwadratowych) lub wzdłuż krawędzi (w przypadku macierzy prostokątnych).

Zobacz także sekcję Zmniejszanie wielkości próbki.

Wykresy skategoryzowane wymagają takiego samego wyboru zmiennych, jak wykresy nieskategoryzowane odpowiedniego typu (na przykład dwie zmienne dla wykresu punktowego). Jednocześnie w przypadku wykresów skategoryzowanych konieczne jest wskazanie przynajmniej jednej zmiennej grupującej (lub sposobu podziału obserwacji na kategorie), która zawierałaby informację o przynależności każdej obserwacji do określonej podgrupy. Zmienna grupująca nie zostanie bezpośrednio wykreślona (tj. Nie zostanie wykreślona), ale posłuży jako kryterium podziału wszystkich analizowanych przypadków na osobne podgrupy. Dla każdej grupy (kategorii) zdefiniowanej przez zmienną grupującą zostanie wykreślony jeden wykres.

8. Jakie są zalety i wady graficznych metod eksploracyjnej analizy danych?

Odpowiedź:+ Widoczność i prostota.

Widoczność (wielowymiarowa graficzna prezentacja danych, według której analityk sam identyfikuje wzorce i relacje między danymi).

- Metody podają przybliżone wartości.

n - Wysoki odsetek subiektywizmu w interpretacji wyników.

n Brak modeli analitycznych.

9. Jakie znasz metody analityczne pierwotnej eksploracyjnej analizy danych?

Odpowiedź:Metody statystyczne, sieci neuronowe.

10. Jak przetestować hipotezę o zgodności rozkładu danych próby z modelem rozkładu normalnego w programie Statistica?

Odpowiedź:Rozkład x 2 (chi-kwadrat) z n stopniami swobody jest rozkładem sumy kwadratów n niezależnych standardowych normalnych zmiennych losowych.

Chi-kwadrat jest miarą różnicy. Ustawiamy poziom błędu równy a \u003d 0,05. Odpowiednio, jeśli p\u003e a, to rozkład jest optymalny.

- aby przetestować hipotezę o zgodności rozkładu danych z próby z modelem rozkładu normalnego za pomocą testu chi-kwadrat należy wybrać z menu opcję Statystyka / Dopasowania rozkładu. Następnie w oknie dialogowym Dopasowanie rozkładu sprzecznego należy ustawić typ rozkładu teoretycznego - Normalny, wybrać zmienną - Zmienne, ustawić parametry analizy - Parametry.

11. Jakie są główne cechy statystyczne znanych Ci zmiennych ilościowych? Ich opis i interpretacja pod kątem rozwiązywanego problemu.

Odpowiedź:Główne cechy statystyczne zmiennych ilościowych:

oczekiwanie (średnia z próby, suma wartości \\ n, szósta wielkość produkcji wśród przedsiębiorstw)

mediana (środek wartości)

średnie odchylenie kwadratowe (pierwiastek kwadratowy z wariancji)

wariancja (miara rozrzutu danej zmiennej losowej, czyli jej odchylenia od matematycznego oczekiwania)

współczynnik asymetrii (Określ przesunięcie względem środka symetrii zgodnie z regułą: jeśli B1\u003e 0, to przesunięcie w lewo, w przeciwnym razie - w prawo.)

współczynnik kurtozy (zbliżony do rozkładu normalnego)

minimalna próbkowana wartość, maksymalna próbkowana wartość,

rozpraszać

próbkowany górny i dolny kwartyl

Moda (wartość szczytowa)

12. Jakich miar zależności używa się do pomiaru stopnia bliskości związku między zmiennymi ilościowymi i porządkowymi? Ich obliczenia w programie Statistica i interpretacja.

Odpowiedź:Korelacja to statystyczna zależność między dwiema lub więcej zmiennymi losowymi.

W takim przypadku zmiany jednej lub więcej z tych wielkości prowadzą do systematycznej zmiany innych lub innych wielkości. Miarą korelacji dwóch zmiennych losowych jest współczynnik korelacji.

Ilościowy:

Współczynnik korelacji jest wskaźnikiem charakteru zmian dwóch zmiennych losowych.

Współczynnik korelacji Pearsona (mierzy stopień liniowych zależności między zmiennymi. Można powiedzieć, że korelacja określa stopień, w jakim wartości dwóch zmiennych są do siebie proporcjonalne).

Współczynnik korelacji częściowej (mierzy stopień bliskości między zmiennymi, pod warunkiem, że wartości pozostałych zmiennych są ustalone na stałym poziomie).

Jakościowy:

Współczynnik korelacji rang Spearmana (służy do statystycznego badania zależności między zjawiskami. Badane obiekty są uporządkowane ze względu na jakąś cechę, czyli przypisuje im się liczby porządkowe - rangi).

| następny wykład \u003d\u003d\u003e

W książce napisanej w 1977 roku przez znanego amerykańskiego statystykę matematyczną podstawy eksploracyjnej analizy danych, tj. wstępna obróbka wyników obserwacji, prowadzona najprostszymi środkami - ołówkiem, papierem i suwakiem logarytmicznym. Na licznych przykładach autorka pokazuje, jak prezentacja obserwacji w formie wizualnej za pomocą diagramów, tabel i wykresów ułatwia identyfikację wzorców i dobór metod do głębszej obróbki statystycznej. Prezentacji towarzyszą liczne ćwiczenia wykorzystujące bogaty materiał z praktyki. Żywy, figuratywny język ułatwia zrozumienie prezentowanego materiału.

John Tukey. Analiza wyników obserwacji. Analiza eksploracyjna. - M .: Mir, 1981. - 696 str.

Pobierz streszczenie (podsumowanie) w formacie lub przykłady w formacie

W momencie publikacji książkę można znaleźć tylko w antykwariatach.

Autorka dzieli analizę statystyczną na dwa etapy: eksploracyjną i konfirmacyjną. Pierwszy etap obejmuje transformację danych obserwacyjnych i metody ich wizualnej prezentacji, pozwalające na ujawnienie wewnętrznych wzorców pojawiających się w danych. W drugim etapie stosuje się tradycyjne metody statystyczne do estymacji parametrów i testowania hipotez. Ta książka dotyczy eksploracyjnej analizy danych (patrz Analiza potwierdzająca). Do przeczytania tej książki nie jest wymagana żadna wcześniejsza znajomość teorii prawdopodobieństwa i statystyki matematycznej.

Około. Baguzin. Biorąc pod uwagę rok powstania książki, autor skupia się na wizualizacji danych za pomocą ołówka, linijki i papieru (czasem milimetra). Moim zdaniem dzisiejsza wizualizacja danych jest związana z komputerem PC. Dlatego starałem się połączyć oryginalne pomysły autora z obróbką w Excelu. Moje komentarze są wcięte.

Rozdział 1. JAK ZAPISAĆ LICZBY („Łodyga Z LIŚCIAMI”)

Wykres jest najbardziej wartościowy, gdy zmusza nas do zauważenia czegoś, czego nigdy się nie spodziewaliśmy. Reprezentacja liczb jako łodyg i liści ujawnia wzory. Na przykład przyjmując dziesiątki jako podstawę łodygi, liczbę 35 można przypisać łodydze 3. Liść będzie miał 5. W przypadku liczby 108 łodyga to 10, a liść to 8.

Jako przykład wziąłem 100 losowych liczb rozłożonych zgodnie z prawem normalnym ze średnią 10 i odchyleniem standardowym 3. Aby otrzymać takie liczby, użyłem wzoru \u003d NORM.OBR (RAND (); 10; 3) (ryc. 1). Otwórz załączony plik Excel. Naciskając F9, wygenerujesz nową serię liczb losowych.

Postać: 1.100 liczb losowych

Widać, że liczby rozkładają się głównie w przedziale od 5 do 16. Trudno jednak zauważyć jakiś interesujący wzór. Poletko łodygi i liści (ryc. 2) wykazuje rozkład normalny. Za pień przyjęto pary sąsiednich liczb, na przykład 4-5. Liście reprezentują liczbę wartości w tym zakresie. W naszym przykładzie są 3 takie wartości.

Postać: 2. Harmonogram „łodyga i liście”

Excel ma dwie funkcje, które pozwalają na szybkie badanie wzorców częstotliwości: funkcję FREQUENCY (ryc. 3; zobacz szczegóły) i tabele przestawne (ryc. 4; więcej szczegółów w sekcji Grupowanie pól numerycznych).

Postać: 3. Analiza za pomocą funkcji tablicowej FREQUENCY

Postać: 4. Analiza za pomocą tabel przestawnych

Reprezentacja łodygi i liścia (reprezentacja częstotliwości) ujawnia następujące cechy danych:

  • podział na grupy;
  • asymetryczny opad na końce - jeden „ogon” jest dłuższy od drugiego;
  • nieoczekiwanie „popularne” i „niepopularne” znaczenia;
  • w stosunku do jakiej wartości obserwacje są „wyśrodkowane”;
  • jak szerokie są dane.

Rozdział 2. PROSTE PODSUMOWANIE DANYCH - NUMERYCZNE I GRAFICZNE

Reprezentacja liczb w postaci łodygi z liśćmi pozwala dostrzec ogólny obraz próbki. Naszym zadaniem jest nauczenie się, jak w zwięzły sposób wyrazić najczęściej spotykane cechy próbek. W tym celu wykorzystywane są podsumowania danych. Jednak, chociaż podsumowania mogą być bardzo przydatne, nie zawierają wszystkich szczegółów próbki. Jeśli tych szczegółów nie ma tak wiele, aby się w nich pomylić, najlepiej mieć przed oczami pełne dane, umieszczone w sposób, który jest dla nas wyraźnie wygodny. W przypadku dużych zbiorów danych konieczne są podsumowania. Nie zakładamy ani nie oczekujemy, że zastąpią one pełne dane. Oczywiście często zdarza się, że dodawanie szczegółów niewiele robi, ale ważne jest, aby zdać sobie sprawę, że czasami szczegóły dużo robią.

Jeśli aby scharakteryzować próbkę jako całość, musimy wybrać kilka łatwych do znalezienia liczb, to prawdopodobnie będziemy potrzebować:

  • wartości ekstremalne - największe i najmniejsze, które oznaczamy symbolem „1” (zgodnie z ich rangą lub głębokością);
  • pewna wartość mediany.

Mediana \u003d wartość mediana.

W przypadku rzędu przedstawionego w postaci łodygi z liśćmi, medianę można łatwo znaleźć, licząc do wewnątrz od każdego końca, przypisując rangę „1” wartości ekstremalnej. W ten sposób każda wartość w próbce otrzymuje swoją własną ranga... Możesz zacząć liczyć od dowolnego końca. Najmniejsza z dwóch uzyskanych w ten sposób rang, które można przypisać do tej samej wartości, zostanie wywołana głębokość (rys. 5). Głębokość wartości ekstremalnej zawsze wynosi 1.

Postać: 5. Określenie głębokości na podstawie dwóch kierunków rankingu

głębokość (lub pozycja) mediany \u003d (1 + liczba wartości) / 2

Jeśli chcemy dodać jeszcze dwie liczby, aby utworzyć podsumowanie 5-liczbowe, to naturalne jest określenie ich przez policzenie ich do połowy odległości od każdego końca do mediany. Proces znajdowania mediany, a następnie tych nowych wartości, można sobie wyobrazić jako składanie kartki papieru. Dlatego naturalne jest nazywanie tych nowych wartości marszczenie (teraz termin ten jest częściej używany kwartyl).

Po zwinięciu wiersz 13 wartości może wyglądać następująco:

Pięć liczb charakteryzujących szereg w porządku rosnącym będzie wynosić: –3,2; 0,1; 1,5; 3.0; 9,8 - po jednym w każdym punkcie przegięcia rzędu. Pięć liczb (wartości ekstremalne, fałdy, mediana), które składają się na 5-cyfrowe podsumowanie, przedstawimy w postaci następującego prostego diagramu:

gdzie po lewej stronie pokazaliśmy liczbę liczb (oznaczonych #), głębokość mediany (litera M), głębokość fałd (litera C) oraz głębokość skrajnych wartości (zawsze 1, nie trzeba zaznaczać niczego więcej).

Na rys. 8 pokazuje, jak graficznie wyświetlić 5-cyfrowe podsumowanie. Ten typ wykresu nazywany jest „pudełkiem z wąsami”.

Postać: 8. Schemat lub pudełko z wąsami

Niestety program Excel domyślnie tworzy wykresy giełdowe na podstawie tylko trzech lub czterech wartości (Rysunek 9; zobacz, jak obejść to ograniczenie). Możesz użyć pakietu statystycznego R, aby zbudować 5-cyfrowe podsumowanie (Rysunek 10; szczegóły można znaleźć w Basic R Graphics: Plot Charts; jeśli nie znasz pakietu R, możesz zacząć od). Funkcja boxplot () w R, oprócz 5 liczb, również odzwierciedla wartości odstające (więcej o nich później).

Postać: 9. Możliwe typy wykresów giełdowych w Excelu

Postać: 10. Diagram pudełkowy w R; aby zbudować taki wykres wystarczy wykonać polecenie boxplot (count ~ spray, data \u003d InsectSprays), dane zapisane w programie zostaną załadowane i przedstawiony wykres zostanie zbudowany

Podczas konstruowania diagramu pudełkowego i wąsowego będziemy przestrzegać następującego prostego schematu:

  • „C-width” \u003d różnica między wartościami dwóch fałdów;
  • „Step” - wartość półtora raza większa niż szerokość C;
  • „Bariery wewnętrzne” znajdują się na zewnątrz fałd o jeden krok od siebie;
  • „Bariery zewnętrzne” - na zewnątrz o krok dalej niż do wewnątrz;
  • wartości między wewnętrzną i przyległą zewnętrzną barierą będą „na zewnątrz”;
  • wartości kryjące się za zewnętrznymi barierami będą nazywane „odbijaniem” (lub wartościami odstającymi);
  • Swing \u003d różnica między skrajnymi wartościami.

Postać: 19. Obliczanie ruchomej mediany: a) szczegółowe informacje dla danych; b) dla całej próbki

Postać: 20. Wygładzona krzywa

Rozdział 10. WYKORZYSTANIE ANALIZY DWUSKŁADNIKOWEJ

Czas rozważyć dwa analiza czynników - zarówno ze względu na swoje znaczenie, jak i dlatego, że jest wprowadzeniem do różnorodnych metod badawczych. Tabela dwuczynnikowa (tabela „odpowiedzi”) opiera się na:

  • jeden rodzaj odpowiedzi;
  • dwa czynniki - a każdy z nich przejawia się w każdej obserwacji.

Dwuskładnikowa tabela reszt. Analiza wiersz-plus-kolumna.Na rys. 21 pokazuje średnie miesięczne temperatury dla trzech lokalizacji w Arizonie.

Postać: 21. Średnie miesięczne temperatury w trzech miastach w Arizonie, ° F

Określmy medianę dla każdego miejsca i odejmijmy ją od poszczególnych wartości (ryc. 22).

Postać: 22. Wartości przybliżenia (mediana) dla każdego miasta i reszty

Teraz zdefiniujmy przybliżenie (medianę) dla każdego wiersza i odejmijmy je od wartości wierszy (Rys. 23).

Postać: 23. Wartości przybliżeń (mediana) dla każdego miesiąca i reszty

Na rys. 23 wprowadzamy pojęcie „efektu”. Liczba –24,7 reprezentuje efekt kolumny, a liczba 19,1 reprezentuje efekt wierszowy. Efekt pokazuje, jak dany czynnik lub zbiór czynników przejawia się w każdej z obserwowanych wartości. Jeśli pojawiająca się część czynnika jest większa niż to, co pozostaje, łatwiej jest zobaczyć i zrozumieć, co się dzieje z danymi. Liczba, która została odjęta od wszystkich danych bez wyjątku (tutaj 70,8) jest nazywana „całkowitą”. Jest to przejaw wszystkich czynników wspólnych dla wszystkich danych. Zatem dla wielkości na ryc. 23 wzór jest ważny:

To jest specyficzny schemat analizy „wiersz-PLUS-kolumna”. Wracamy do naszej starej sztuczki polegającej na próbie znalezienia prostego opisu częściowego - częściowego opisu, który jest łatwiejszy do odczytania - częściowego opisu, który można odjąć, aby uzyskać głębsze spojrzenie na coś, co nie zostało jeszcze opisane.

Czego możemy się nauczyć z pełnej analizy dwuczynnikowej? Największe saldo, wynoszące 1,9, jest niewielkie w porównaniu z wielkością zmiany w poszczególnych punktach iz miesiąca na miesiąc. Flagstaff jest o około 25 ° F chłodniejszy niż Phoenix, a Yuma jest o 5-6 ° F cieplejszy niż Phoenix. Sekwencja efektów miesięcy maleje jednostajnie z miesiąca na miesiąc, najpierw powoli, potem szybko, potem znowu powoli. Jest to podobne do symetrii względem października (wcześniej obserwowałem ten wzór na przykładzie długości dnia; patrz - Około. Baguzina); Usunęliśmy obie zasłony - efekt pory roku i efekt lokalizacji. Potem mogliśmy zobaczyć sporo z tego, co wcześniej pozostawało niezauważone.

Na rys. 24 jest podane diagram dwuczynnikowy... Chociaż najważniejsze na tym rysunku jest przybliżenie, nie powinniśmy lekceważyć reszt. Narysowaliśmy krótkie pionowe linie w czterech punktach. Długości tych kresek są równe wartościom odpowiednich reszt, tak że współrzędne drugich końców nie reprezentują wartości przybliżonych, ale

Dane \u003d przybliżenie PLUS reszta.

Postać: 24. Diagram dwuczynnikowy

Należy również zauważyć, że właściwością tego lub innego diagramu dwuskładnikowego jest „skala tylko w jednym kierunku”, która określa rozmiar pionowy, tj. przerywane poziome linie wzdłuż boków obrazu i brak rozmiaru w kierunku poziomym.

Aby zapoznać się z funkcjami programu Excel, zobacz. Ciekawe, że niektóre formuły użyte w tym poście mają nazwę Tukey.

Dalsza prezentacja, moim zdaniem, stała się dość trudna ...

  1. 1. Wykład 2. Eksploracyjna analiza danych Wykładowca: prof. Avdeenko Tatyana Vladimirovna, Państwowy Uniwersytet Techniczny w Nowosybirsku, Wydział Biznesu, Katedra Informatyki Ekonomicznej
  2. 2. Eksploracyjna analiza danych - Wstępna analiza danych w celu określenia najbardziej ogólnych wzorców i trendów, charakteru i właściwości analizowanych danych, praw dystrybucji analizowanych wielkości. Służy do znajdowania relacji między zmiennymi w sytuacjach, gdy nie ma (lub jest niewystarczająco) poglądów a priori na temat natury tych relacji. Zazwyczaj analiza eksploracyjna bierze pod uwagę i porównuje dużą liczbę zmiennych oraz wykorzystuje różnorodne metody w celu znalezienia wzorców.
  3. 3. Eksploracyjna analiza danych Termin „analiza eksploracyjna” został po raz pierwszy ukuty przez matematyka z Princeton J. Tukey. Sformułował również główne cele tej analizy: - Maksymalna „penetracja” danych. - Identyfikacja głównych struktur. - Wybór najważniejszych zmiennych. - Wykrywanie odchyleń i anomalii. - Testowanie głównych hipotez (założeń). - Opracowanie wstępnych modeli. ...
  4. 4. Eksploracyjna analiza danych Wyniki analizy eksploracyjnej nie są wykorzystywane do podejmowania decyzji zarządczych. Ich celem jest pomoc w opracowaniu najlepszej strategii pogłębionej analizy, proponowaniu hipotez, wyjaśnianiu cech zastosowania określonych metod i modeli matematycznych. Bez analizy eksploracyjnej pogłębiona analiza danych zostanie przeprowadzona prawie na ślepo.
  5. 5. Eksploracyjna analiza danych Do głównych metod analizy eksploracyjnej należy procedura analizy rozkładów zmiennych, przeglądanie macierzy korelacji w celu znalezienia współczynników przekraczających określone wartości progowe, analiza czynnikowa, analiza dyskryminacyjna, skalowanie wieloczynnikowe, wizualna analiza histogramów itp.
  6. 6. Eksploracyjna analiza danych Wstępna eksploracja danych może być tylko pierwszym etapem procesu analizy danych i dopóki wyniki nie zostaną potwierdzone na innych próbach lub na niezależnym zbiorze danych, należy je traktować co najwyżej jako hipotezę. Jeżeli wyniki analizy eksploracyjnej przemawiają na korzyść pewnego modelu, wówczas jego poprawność można zweryfikować, stosując go do nowych danych.
  7. 7. Najprostsze statystyki opisowe Średnia Wariancja Percentyl Kurtoza Kwantyle Swing Mediana Kwartyle Mod Asymetria Rozstęp międzykwartylowy
  8. 8. Centralne miary dystrybucji: średnia, mediana i mod Jednym ze sposobów podsumowania danych jest obliczenie jednej wartości charakteryzującej cały zbiór danych. Ta wartość jest często określana jako typowa lub najbardziej reprezentatywna. Mediana. Reprezentuje środek rozkładu, tj. połowa danego zbioru danych ma mniejsze wartości, a druga połowa ma większe wartości. Aby określić medianę, musisz najpierw posortować (uszeregować) dane. Wynikowa sekwencja nazywana jest serią wariacyjną, a jej elementy nazywane są statystyką porządkową. Każdej obserwacji przypisywana jest ranga (liczba). Dokładne obliczenie mediany zależy od liczby obserwacji w zbiorze danych. W przypadku nieparzystej liczby wartości mediana jest wartością pośrednią, a dla liczby parzystej stanowi połowę sumy dwóch wartości środkowych.
  9. 9. Centralne miary rozkładu: średnia Wartość średnia: Średnia z próby ma jedną niezwykłą właściwość: suma kwadratów odległości jest minimalna Inne właściwości statystyczne średniej z próby to bezstronność, spójność, wydajność. ∑ \u003d \u003d N i ix n x 1 1 ∑ \u003d - N i ixx 1 2) (
  10. 10. Centralne miary dystrybucji: mediana lub średnia Jedną z wad średniej jest to, że jest ona silnie zależna od wartości ekstremalnych. Rozważ podział zarobków zawodowych graczy w baseball. Większość graczy w baseball zarabia mniej niż milion dolarów rocznie, ale są bejsboliści powyżej 10 milionów dolarów i jeden bejsbolista ponad 20 milionów dolarów. Jak ustalasz „typowe” wynagrodzenie? Mediana tego rozkładu to pensja 900 000 dolarów, a średnia to 2,5 miliona dolarów. Wydaje się, że mediana jest bardziej reprezentatywna dla „typowego” wynagrodzenia. W oficjalnych statystykach USA to mediana jest używana jako oszacowanie centralnego punktu dochodu ludności. Jeśli rozkład jest asymetryczny, istnieją wartości odstające
  11. 11. Centralne miary rozkładu: mediana lub średnia Aby zmniejszyć wpływ wartości ekstremalnych, można użyć średniej obciętej, tj. średnia dla zbioru danych, który wyklucza kilka procent wartości na obu końcach rozkładu. Na przykład średnia obcięta 5% jest równa średniej 90% wartości w zbiorze danych, z wyłączeniem 5% na każdym końcu rozkładu. Średnia obcięta to kompromis między wynikami końcowymi a medianą i średnią.
  12. 12. Centralne miary dystrybucji Średnia geometryczna Średnia geometryczna jest najczęściej używana dla zbiorów danych w zakresie od 0 do 1. Na przykład wyniki eksperymentów farmaceutycznych są często rejestrowane jako ułamki względne składników chemicznych, dlatego wygodnie jest użyć dla nich średniej geometrycznej. ... Średnia harmoniczna Ta cecha jest wygodna do obliczania średnich wartości prędkości. Załóżmy, że wymagane jest wyznaczenie średniej prędkości samochodu poruszającego się z punktu A do punktu B z prędkością S, aw przeciwnym kierunku - z prędkością T. W tym przypadku średnia prędkość samochodu będzie równa średniej harmonicznej dla wartości S i T. nni ix∏ \u003d 1 ∑ \u003d \u003d ni ixnН 1 111
  13. 13. Centralne miary dystrybucji Kolejną końcową cechą rozkładu jest mod (mod, Pearson 1894), tj. najczęstsza (modna) wartość dystrybucji. Tryb jest często używany w przypadku danych jakościowych lub dyskretnych danych ilościowych, które mają stosunkowo niewiele różnych znaczeń. Nie należy go używać do ciągłych danych ilościowych, ponieważ wtedy w takich rozkładach występuje bardzo niewiele lub prawie nie ma duplikatów wartości. Klasycznym przykładem wykorzystania mody jest dobór wielkości produkowanej partii butów czy koloru tapety.
  14. 14. Środkowe środki dystrybucji Jeśli dystrybucja ma kilka trybów, nazywa się ją multimodalną. Multimodalność dostarcza ważnych informacji o charakterze badanej zmiennej. Na przykład w badaniach socjologicznych, jeśli zmienna reprezentuje preferencje lub podejście do czegoś, to multimodalność może oznaczać, że istnieje kilka określonych opinii. Multimodalność może służyć jako wskaźnik, że próbka nie jest jednorodna, a obserwacje są prawdopodobnie generowane przez dwa lub więcej „nałożonych” rozkładów.
  15. 15. Miary zmienności Średnia i mediana nie w pełni charakteryzują rozkład, ponieważ nie uwzględniają zmienności danych. Zmienność charakteryzuje różnice między danymi lub, równoważnie, rozrzut od środka. Najprostszą miarą zmienności jest rozstęp, tj. różnica między maksymalnymi i minimalnymi wartościami dystrybucji. Jednak zakres wartości nie charakteryzuje dokładnie zmienności rozkładu i może wprowadzać w błąd.
  16. 16. Miary zmienności Wariancja (Fisher, 1918) Odchylenie standardowe ∑ \u003d - - \u003d n i i xx n s 1 22) (1 1 2 1 1 () 1 n i i s x x n \u003d \u003d - - ∑
  17. 17. Miary zmienności Wariancja próby powtarzanego i niepowtarzalnego próbkowania jest bezstronną i spójną oceną całkowitej wariancji, tj. a wariancja selektywna nie jest efektywnym oszacowaniem, ale jest asymptotycznie skuteczna (tj. gdy wydajność dąży do 1). 2 s 2 σ 2 s 2 σ 22) (σ \u003d sM 2 2 P n s σ → ∞ → ∞ → n
  18. 18. Miary kształtu: skośność i kurtooza Skośność jest miarą skośności rozkładu (Pearson 1895): Dodatnia skośność oznacza, że \u200b\u200bwartości rozkładu są skupione przy niskich wartościach, a rozkład ma długi ogon przy wysokich wartościach. I odwrotnie, ujemna skośność oznacza, że \u200b\u200brozkład jest skupiony przy dużych wartościach, a rozkład ma długi ogon przy niskich wartościach. Wartość skośności równa zero odpowiada rozkładowi symetrycznemu. 2 3 1 2 1 3) (1) (1         - - \u003d ∑ ∑ \u003d \u003d n i i n i i xx n xx n A
  19. 19. Miary kształtu: skośność i kurtoza Kurtosis (Pearson 1905) charakteryzuje względną ostrość lub gładkość rozkładu w porównaniu z rozkładem normalnym. Dodatnia kurtoza wskazuje na względnie kolczasty rozkład, a ujemna kurtoza wskazuje na względnie wygładzony rozkład. Jak sprawdzić normalność rozkładu za pomocą skośności i kurtozy? Dla rozkładu normalnego A \u003d E \u003d 0. 3) (1) (1 2 1 2 1 4 -         - - \u003d ∑ ∑ \u003d \u003d n i i n i i xx n xx n E
  20. 20. Percentyle i kwantyle Kwantyle (Kendall 1940) Jednym z końcowych punktów orientacyjnych jest percentyl p-I, tj. wartość danego rozkładu, która jest większa niż p procent wszystkich wartości rozkładu. Percentyle są powszechnie stosowane przy analizie wzrostu noworodków, jeśli np. Dziecko jest przypisane do 75 lub 90 percentyla, wówczas waży więcej niż 75% lub 90% wszystkich noworodków. () pF x p \u003d
  21. 21. Percentyle (percentyle) i kwartyle Dość zbliżone znaczeniem do percentyli są kwartyle (Galton 1982) (kwartyle) - wartości odpowiadające 25, 50 i 75 percentylowi, tj. ćwiartki dystrybucji. Nazywa się je zwykle pierwszym, drugim i trzecim kwartylem. W statystykach często stosuje się rozstęp międzykwartylowy, który oznacza różnicę między pierwszym a trzecim kwartylem (nazywanym również rozstępem kwartylowym). Ponieważ ten zakres zawiera 50% wszystkich danych, jego rozmiar daje wyobrażenie o szerokości rozkładu.
  22. 22. Ramka z wąsami Wykres pudełkowy przedstawia ważne cechy statystyk opisowych na jednej zwięzłej figurze. Zaproponował ją John Tukey w 1977 c. Wykres prostokątny przedstawia następujące cechy statystyki opisowej: pierwszy kwartyl, mediana, trzeci kwartyl i zakres międzykwartylowy. Wartości minimalne i maksymalne. Umiarkowane i ekstremalne emisje. Wykres pudełkowy i wąsowy zapewnia dobrą wizualną reprezentację zmienności danych, a także skośności rozkładu.
  23. 23. Pudełko z wąsami Po wyświetleniu rozstępu międzykwartylowego można przystąpić do obliczania ogrodzeń wewnętrznych i zewnętrznych. Ogrodzenia wewnętrzne znajdują się na obszarze większym niż trzeci kwartyl + 1,5 × IQR lub mniejszym niż pierwszy kwartyl - 1,5 × IQR. Ogrodzenia zewnętrzne znajdują się na obszarze większym niż trzeci kwartyl + 3 × IQR lub mniejszym niż pierwszy kwartyl - 3 × IQR. 3 kwartyl 1 kwartyl wewnętrzny \u003d 1 kwartyl - 1,5 x IQR zewnętrzny \u003d 1 kwartyl - 3 x IQR wewnętrzny \u003d 3 kwartyl + 1,5 x IQR zewnętrzny \u003d 3 kwartyl + 3xIQR mediana IQR
  24. 24. Pudełko z wąsami Wszystkie wartości, które znajdują się między wewnętrzną i zewnętrzną barierką, nazywane są umiarkowanymi wartościami odstającymi i są oznaczone symbolem . Wszystkie wartości leżące poza zewnętrznymi obudowami nazywane są skrajnymi wartościami odstającymi i są oznaczone symbolem символ. 3. kwartyl 1. kwartyl wewnętrzna zewnętrzna wewnętrzna zewnętrzna mediana
  25. 25. Box & Whisker Zakładka: Mediana wynagrodzenia 25% -75% Min-Max K M Płeć 18000 20000 22000 24000 26000 28000 30000 32000 34000 36000 38000 40000 42000 44000 46000 Wynagrodzenie
  26. 26. Analiza tabel Tabele częstotliwości Tabele kontyngencji Tabele nagłówków Odpowiedzi wielowymiarowe Dychotomie
  27. 27. Tabele krzyżowe Tabele krzyżowe to proces łączenia dwóch (lub więcej) tabel częstości w taki sposób, aby każda komórka (komórka) w skonstruowanej tabeli była reprezentowana przez pojedynczą kombinację wartości lub poziomów zmiennych tabelarycznych. W ten sposób zestawienie krzyżowe umożliwia połączenie częstotliwości występowania obserwacji na różnych poziomach rozważanych czynników. Badając te częstotliwości, można określić relacje między zmiennymi tabelarycznymi. Zwykle zmienne kategorialne lub zmienne o stosunkowo niewielkiej liczbie wartości są umieszczane w tabeli.
  28. 28. Tabele awaryjnego gazu. woda: gaz. woda: V Płeć: kobiety 20 (40%) 30 (60%) 50 (50%) Płeć: mężczyźni 30 (60%) 20 (40%) 50 (50%) 50 (50%) 50 (50%) 100 sto%)
  29. 29. Tabele awaryjne Częstotliwości krańcowe. Wartości na krawędziach tabeli kontyngencji to zwykłe tabele częstotliwości (z jednym wejściem) dla danych zmiennych. Ponieważ te częstotliwości znajdują się na krawędziach stołu, nazywa się je marginalnymi. Wartości krańcowe są ważne, ponieważ pozwalają oszacować rozkład częstości w poszczególnych kolumnach i wierszach tabeli. Na przykład 40% i 60% mężczyzn i 60% kobiet i mężczyzn, którzy wybrali markę A, nie mogło wykazać żadnego związku między zmiennymi Płeć i Gaz.woda, gdyby krańcowe częstotliwości zmiennej Płeć wynosiły również 40% i 60%. W tym przypadku odzwierciedlałyby one po prostu różne proporcje kobiet i mężczyzn biorących udział w badaniu.
  30. 30. Podsumowanie tabel krzyżowych Tabela częstotliwości (ankieta) Zaznaczone komórki mają zliczenia\u003e 10 (podsumowania marginalne nie są zaznaczone) Var1 Var2 Mat Var2 Bus_Econ Var2 Med_Health Var2 Sociol Row Totals PC 29 49 8 28 114 Mainframe 22 12 3 13 50 Mini komputer 2 1 0 1 4 Mac 12 4 0 6 22 Wszystkie Grps 65 66 11 48190
  31. 31. Tabele kontyngencji Testowanie hipotezy H0: rozkład różnych typów komputerów jest taki sam w każdym dziale (zmienne są niezależne). H1: rozmieszczenie różnych typów komputerów zależy od działu (zmienne są zależne)
  32. 32. Tabele kontyngencji W 1900 r. Carl Pearson zaproponował test do testowania hipotezy (test chi-kwadrat Pearsona): częstości oczekiwane, częstości krańcowe Jeśli wówczas hipoteza o niezależności zmiennych zostanie odrzucona (zmienne są zależne). ∑∑ \u003d \u003d - \u003d risj ij ijijn 1 1 2 2) (ν ν χ n nn ji ij .. \u003d ν 2 2, (1) (1) r sαχ χ - -\u003e ∑ \u003d \u003d sj iji nn 1. 1 , rj ij inn \u003d \u003d ∑

Data Mining Frolov Timofey. BI-1102 Eksploracja danych to proces analitycznego badania dużych ilości informacji (zwykle o charakterze ekonomicznym) w celu zidentyfikowania pewnych wzorców i systematycznych relacji między zmiennymi, które można następnie zastosować do nowych zbiorów danych. Proces ten obejmuje trzy główne etapy: badanie, budowanie modelu lub struktury oraz walidacja. W idealnym przypadku, mając wystarczającą ilość danych, można zorganizować procedurę iteracyjną w celu zbudowania solidnego modelu. Jednocześnie w rzeczywistej sytuacji prawie niemożliwe jest przetestowanie modelu ekonomicznego na etapie analizy, dlatego wstępne wyniki mają charakter heurystyk, które można wykorzystać w procesie decyzyjnym (np. „Dostępne dane wskazują, że częstość przyjmowania środków nasennych u kobiet wzrasta wraz z starzeć się szybciej niż mężczyźni. ”). Coraz popularniejsze stają się metody Data Mining jako narzędzie analizy informacji gospodarczych, zwłaszcza w przypadkach, w których zakłada się, że z dostępnych danych będzie można wydobywać wiedzę do podejmowania decyzji w warunkach niepewności. Chociaż rośnie zainteresowanie rozwojem nowych metod eksploracji danych zaprojektowanych specjalnie dla sektora biznesowego (na przykład drzew klasyfikacyjnych), generalnie systemy Data Mining nadal opierają się na klasycznych zasadach eksploracyjnej analizy danych (RAD) oraz budowania modeli i wykorzystują te same podejścia i metody. Istnieje jednak istotna różnica między procedurą Data Mining a klasyczną eksploracyjną analizą danych (RAD): systemy Data Mining są bardziej skoncentrowane na praktycznym zastosowaniu uzyskanych wyników niż na wyjaśnieniu natury zjawiska. Innymi słowy, w Data Mining nie jesteśmy zbytnio zainteresowani konkretnym rodzajem zależności między zmiennymi problemu. Wyjaśnienie natury zaangażowanych funkcji lub konkretnej formy interaktywnych wielowymiarowych zależności między zmiennymi nie jest główny cel Tej procedury. Główny nacisk kładzie się na znalezienie rozwiązań, na podstawie których możliwe byłoby zbudowanie wiarygodnych prognoz. Stąd w dziedzinie Data Mining przyjęto takie podejście do analizy danych i ekstrakcji wiedzy, które czasami charakteryzuje się określeniem „czarna skrzynka”. W tym przypadku wykorzystywane są nie tylko klasyczne techniki eksploracyjnej analizy danych, ale także metody takie jak sieci neuronowe, które pozwalają budować wiarygodne prognozy bez określania konkretnego rodzaju tych zależności, na których taka prognoza się opiera. Data Mining jest często interpretowany jako „mieszanka statystyk, sztucznej inteligencji (AI) i analizy baz danych” (Pregibon, 1997, s. 8) i do niedawna nie był uznawany za pełnoprawny obszar zainteresowań statystyków, a czasem nawet zwane „podwórkiem statystyki” (Pregibon, 1997, s. 8). Jednak ze względu na swoje duże znaczenie praktyczne problem ten jest obecnie intensywnie rozwijany i cieszy się dużym zainteresowaniem (w tym w aspektach statystycznych), osiągnięto w nim ważne wyniki teoretyczne (zob. M.in. materiały z corocznej Międzynarodowej Konferencji Poszukiwania Wiedzy i Danych Mining (International Conferences on Knowledge Discovery and Data Mining), którego jednym z organizatorów w 1997 roku było Amerykańskie Towarzystwo Statystyczne). Hurtownia danych to miejsce przechowywania dużych, wielowymiarowych zestawów danych, które umożliwia łatwe wyszukiwanie informacji i wykorzystanie ich w procedurach analitycznych. Efektywna architektura hurtowni danych musi być zorganizowana w taki sposób, aby była część system informacyjny zarządzanie przedsiębiorstwem (a przynajmniej mieć połączenie ze wszystkimi dostępnymi danymi). W takim przypadku konieczne jest zastosowanie specjalnych technologii do pracy z korporacyjnymi bazami danych (np. Oracle, Sybase, MS SQL Server). Wysokowydajna technologia hurtowni danych, która umożliwia użytkownikom organizowanie i efektywne korzystanie z korporacyjnej bazy danych o niemal nieograniczonej złożoności, została opracowana przez systemy korporacyjne StatSoft i nosi nazwę SENS i SEWSS). Termin OLAP (lub FASMI - Rapid Analysis of Distributed Multidimensional Information) odnosi się do technik, które umożliwiają użytkownikom wielowymiarowych baz danych generowanie opisowych i porównawczych „widoków” danych w czasie rzeczywistym oraz uzyskiwanie odpowiedzi na różne inne zapytania analityczne. Należy zauważyć, że pomimo swojej nazwy metoda ta nie oznacza interaktywnego przetwarzania danych (w czasie rzeczywistym); Oznacza to proces analizy wielowymiarowych baz danych (które w szczególności mogą zawierać informacje aktualizowane dynamicznie) poprzez wykonywanie efektywnych zapytań „wielowymiarowych” o dane różnego typu. Narzędzia OLAP można wbudować w korporacyjne (obejmujące całe przedsiębiorstwo) systemy baz danych i umożliwiać analitykom i menedżerom monitorowanie postępów i wyników ich działalności lub całego rynku (na przykład różnych aspektów procesu produkcyjnego lub liczby i kategorii transakcji dokonywanych w różnych regionach). Analiza OLAP może być prosta (na przykład tabele częstotliwości, statystyki opisowe, proste tabele) lub złożona (na przykład może obejmować korekty sezonowe, wartości odstające i inne techniki czyszczenia danych). Chociaż metody eksploracji danych można zastosować do wszelkich nieprzetworzonych lub nawet nieustrukturyzowanych informacji, można je również wykorzystać do analizy danych i raportów generowanych przez narzędzia OLAP w celu bardziej dogłębnej eksploracji, zwykle w wyższych wymiarach. W tym sensie metody Data Mining można postrzegać jako alternatywne podejście analityczne (służące do innych celów niż OLAP) lub jako analityczne rozszerzenie systemów OLAP. RAD i testowanie hipotez W przeciwieństwie do tradycyjnego testowania hipotez, które ma na celu testowanie założeń a priori dotyczących relacji między zmiennymi (na przykład „Istnieje pozytywna korelacja między wiekiem osoby a jej awersją do ryzyka”), eksploracyjna analiza danych (ARA) służy do znajdowania relacji między zmiennymi w sytuacjach, gdy nie ma (lub jest niewystarczająco) poglądów a priori na temat natury tych relacji. Zazwyczaj analiza eksploracyjna bierze pod uwagę i porównuje dużą liczbę zmiennych oraz wykorzystuje różnorodne metody w celu znalezienia wzorców. Obliczeniowe metody AHR Obliczeniowe metody eksploracyjnej analizy danych obejmują zarówno podstawowe metody statystyczne, jak i bardziej wyrafinowane, specjalnie opracowane metody analizy wielowymiarowej, przeznaczone do wyszukiwania wzorców w danych wielowymiarowych. Podstawowe metody eksploracyjnej analizy statystycznej. Główne metody eksploracyjnej analizy statystycznej obejmują procedurę analizy rozkładów zmiennych (na przykład w celu identyfikacji zmiennych o rozkładzie niesymetrycznym lub niegaussowskim, w tym bimodalnych), przeglądanie macierzy korelacji w celu znalezienia współczynników przekraczających określone wartości progowe (patrz poprzedni przykład) lub analiza wielowejściowych tabel częstotliwości (na przykład sekwencyjne przeglądanie kombinacji poziomów zmiennych kontrolnych „warstwa po warstwie”). Metody analizy eksploracyjnej na wielu odmianach. Techniki analizy eksploracyjnej na wielu odmianach są specjalnie zaprojektowane do znajdowania wzorców w danych wielowymiarowych (lub sekwencjach danych jednowymiarowych). Należą do nich: analiza skupień, analiza czynnikowa, analiza funkcji dyskryminacyjnych, skalowanie wieloczynnikowe, analiza log-liniowa, korelacje kanoniczne, krokowa regresja liniowa i nieliniowa (np. Logit), analiza korespondencji, analiza szeregów czasowych. Sieci neuronowe. Ta klasa metod analitycznych opiera się na idei odtwarzania procesów uczenia się istot myślących (tak jak się wydaje badaczom) i funkcji komórek nerwowych. Sieci neuronowe mogą przewidywać przyszłe wartości zmiennych na podstawie już istniejących wartości tych samych lub innych zmiennych, po uprzednim przeprowadzeniu tzw. Procesu uczenia się na podstawie dostępnych danych. Wstępna eksploracja danych może stanowić jedynie pierwszy etap w procesie ich analizy, a do momentu potwierdzenia wyników (metodami walidacji krzyżowej) na innych fragmentach bazy danych lub na niezależnym zbiorze danych można je traktować co najwyżej jako hipotezę. Jeżeli wyniki analizy eksploracyjnej sprzyjają określonemu modelowi, wówczas jego poprawność można zweryfikować, stosując go do nowych danych i określając stopień jego zgodności z danymi (test „zdolności predykcyjnej”). Aby szybko wybrać różne podzbiory danych (na przykład do czyszczenia, sprawdzenia itp.) I ocenić wiarygodność wyników, wygodnie jest zastosować warunki wyboru obserwacji.

Podobne artykuły

2021 choosevoice.ru. Mój biznes. Księgowość. Historie sukcesów. Pomysły. Kalkulatory. Magazyn.