Od konstruowania przedziału ufności dla predyktora punktowego po testowanie hipotez – statystyka może być złożoną dyscypliną.
Na szczęście ten przewodnik pomoże Ci zrozumieć szeroką dziedzinę analizy danych, przeprowadzając Cię przez różne etapy podstaw jej pochodzenia i składu.
Co to jest statystyka?
Aby odpowiedzieć na to pytanie, zadaj sobie pytanie: jaka jest wartość danych? Chociaż odpowiedź na to właśnie pytanie jest bardzo istotna, ocena wartości danych nie jest nowoczesnym zjawiskiem. Wszyscy znamy obrazy danych i analizę danych z lat 90, które zazwyczaj nawiązywały do karykatur powstałych u początków ery cyfrowej, czego najlepszym przykładem jest Matrix.
W dzisiejszych czasach dane statystyczne, czyli programy statystyczne do ich analizy, są dostępne dla każdego, kto ma Internet. Od algorytmów, które najlepiej dopasowują Twój profil randkowy do innego, po sposób, w jaki sklepy identyfikują, które przedmioty wystawić na sprzedaż – analiza danych jest wszechobecna w naszym współczesnym życiu.
Pierwsi statystycy w pełni korzystali z metod statystycznych, którymi dysponowali, w celu gromadzenia, sortowania i rejestrowania danych kategorycznych i ilościowych.
Chociaż zawód statystyka nie obejmował narzędzi wnioskowania stosowanych w statystyce bayesowskiej, podstawowe zasady pozostały takie same na przestrzeni wieków: gromadzenie, analiza i interpretacja danych w celu podejmowania bardziej świadomych decyzji.
Podczas gdy dzisiaj zajmujemy się pojęciami metodologii i analizy, takimi jak wielkość próby, surowe dane badawcze lub wielkość efektu, koncepcja gromadzenia danych demograficznych i ekonomicznych na przestrzeni dziejów miała na celu badanie zmian gospodarki, ludności i rolnictwa. Chociaż istnieją solidniejsze wersje historycznej ewolucji statystyki, podstawy statystyki można podzielić na trzy podstawowe fazy.
Pierwsza polegała na zbieraniu danych spisowych i obserwacyjnych w celu poprawy warunków sanitarnych i ekonomicznych. Druga, intensywnie wdrożona po drugiej wojnie światowej, to rejestracja danych demograficznych i ekonomicznych w rządowych bazach danych. Trzecia, sięgająca czasów współczesnych, obejmuje rewolucje we wnioskowaniu statystycznym, które przyniósł postęp technologiczny.

Dzięki dziedzinom ratującym życie takim jak biostatystyka, udoskonalenie metod analizy danych zmieniło standardy życia na całym świecie. Obecnie statystyka jest głęboko powiązana z dziedziną nauki o danych.
Modele statystyczne rozszerzyły się i obejmują modele stosowane w sztucznej inteligencji lub uczeniu maszynowym, które często pomagają wyciągać wnioski z danych nienumerycznych. Zadania takie jak przewidywanie estymatora czy automatyczna randomizacja można obecnie wykonać znacznie szybciej dzięki wynalezieniu oprogramowania statystycznego i analitycznego.
Niektóre z najpopularniejszych języków lub programów, z którymi prawdopodobnie spotkasz się w dziedzinie statystyki i nauki o danych, obejmują R, Stata, SPSS, Python, C i SQL.
Podstawy statystyki opisowej
Niezależnie od tego, czy przygotowałeś histogram do projektu naukowego, czy regularnie korzystasz z narzędzi do wizualizacji danych w pracy, skorzystałeś z dobrodziejstw jednej z najważniejszych gałęzi dyscypliny statystyki: statystyki opisowej.
Ta pierwsza, z dwóch głównych gałęzi statystyki, zajmuje się zgromadzonymi wcześniej danymi i wykorzystuje techniki statystyczne w celu zrozumienia składu zbioru danych. Jako pierwsza część każdego projektu badawczego, statystyka opisowa ujawnia istotne spostrzeżenia uwzględnione w danych jakościowych lub ilościowych.
Niezależnie od tego, czy dane mają charakter porządkowy, kategoryczny czy liczbowy, statystyki opisowe mogą należeć do dwóch kategorii: miary centralnej tendencji lub zmiennych.
Miary tendencji centralnej stosuje się, gdy ktoś chce zrozumieć, jak wygląda średnia dla jednego lub większej liczby wskaźników. Miary te obejmują takie aspekty jak średnia z próbki, mediana i dominanta. Te trzy, choć pozornie podobne, są ważne w różnych okolicznościach, w zależności od tego, czy dane zawierają dużą liczbę wartości odstających.
Nawet najbardziej doświadczeni badacze danych nie są w stanie zinterpretować niczego na temat swoich zbiorów danych przed przeprowadzeniem wstępnych opisowych analiz statystycznych.
Z kolei miary zmienności obejmują takie cechy jak odchylenie standardowe, kowariancja lub wariancje. Są one używane, gdy ktoś chciałby poznać rozkład danych wokół środka, czyli średniej. Może to być niezwykle pomocne przy zrozumieniu, jaki procent danych mieści się w określonym zakresie.
W zastosowaniu do statystyki finansowej odchylenie standardowe można również postrzegać jako zmienność określonego zbioru danych.

Statystyki opisowe służą głównie do analizy jednoczynnikowej, która polega na analizie jednej zmiennej. Chociaż pozwala to na zrozumienie składu takich czynników, jak dochód czy sprzedaż, może być również pomocne przy porównywaniu składu wielu zmiennych.
Na przykład, jeśli mały firma chce skorzystać z posiadanych danych sprzedażowych dla konkretnego wydarzenia, może skorzystać ze statystyk opisowych, aby określić odsetek klientów powyżej lub poniżej określonego wieku. Statystyki opisowe stanowią zdecydowaną większość statystyk wykorzystywanych przez osoby fizyczne, firmy i rządy.
Choć prognozowanie przyszłych wydarzeń jest niezwykle ważne, wielu osobom potrzebne są jedynie miary tendencji centralnej i zmienności, aby wydobyć istotne informacje na potrzeby podejmowania decyzji. Niektóre z najbardziej potężne miar ujętych w statystyce opisowej to:
- Współczynnik korelacji,
- Prosta wizualizacja danych,
- Rozkłady (dwumianowy, normalny, Laplace'a itp.).
Wnioskowanie statystyczne
Kolejna gałąź statystyki łączy się z prawdopodobieństwem, aby nie tylko zrozumieć, co znajduje się w danych, ale także wykorzystać te dane do przewidywania.
Ten typ analizy statystycznej, zwany wnioskowaniem statystycznym, zazwyczaj czerpie w tym celu z teorii prawdopodobieństwa i rozkładu prawdopodobieństwa, by przeprowadzić analizę wieloczynnikową lub kilku zmiennych.
Teoria statystyczna związana z tą gałęzią, znana również jako statystyka matematyczna, może również ujawnić ważne relacje informacji w danych bez stosowania rozkładów prawdopodobieństwa z modelami nieparametrycznymi.
Typy modeli stosowanych w większości wnioskowanych, statystycznych analiz danych obejmują głównie modele parametryczne, takie jak ogólne modele regresji liniowej lub testy analizy wariancji (ANOVA). Niezależnie od tego, czy jest to test parametryczny, czy nieparametryczny, matematyk lub statystyk musi spełnić dwa kryteria:
- ma zestaw zmiennych, które chce przetestować,
- a te dane spełniają określone założenia.
Pierwsze kryterium jest proste i obejmuje proces, który wszyscy rozumiemy, który polega na wybraniu jednej, lub kilku, zmiennych zależnych w celu podjęcia próby przewidzenia jednej lub większej liczby zmiennych niezależnych.
Drugie kryterium sprawia, że większość statystyków ma problemy, ponieważ większość zbiorów danych nie opiera się ściśle na większości założeń wymaganych do korzystania z niektórych modeli, takich jak dane podlegające rozkładowi normalnemu. Założenia Gaussa-Markowa dotyczące klasycznych modeli liniowych są najbardziej znane i stanowią klucz do zrozumienia wnioskowania statystycznego.
Wnioskowanie statystyczne różni się również od statystyki opisowej tym, że polega na testowaniu hipotezy zerowej w porównaniu z hipotezą alternatywną.
Korzystając z dostępnych modeli wraz z oprogramowaniem statystycznym np. R lub SPSS, będziesz w stanie wyprowadzić estymatory i przewidywania średniej wraz z ich przedziałami ufności.

Jeśli dopiero zaczynasz uczyć się statystyki, niektóre ze wspólnych modeli parametrycznych to:
- Ogólne modele liniowe,
- Modele regresji logistycznej.
Z drugiej strony trochę popularniejsze modele nieparametryczne to:
- Analiza skupień,
- Analiza czynnikowa,
- Analiza dyskryminacyjna.
Oprócz tych modeli ANOVA jest powszechnym sposobem, w jaki statystycy określają, który model może być dokładniejszy, poprzez porównanie wariancji dwóch lub więcej modeli.
Wskazówki i zasoby dotyczące statystyki
Od zrozumienia, jaką metodologię statystyczną zastosować przy kategorycznej analizie danych, po zrozumienie, jak koncepcja zmiennej losowej wpływa na metodę najmniejszych kwadratów i analizę regresji - oto kilka wskazówek i zasobów statystycznych, z których warto skorzystać, jeśli potrzebujesz pomocy w zakresie statystyki.
Nauka statystyki
Potrzebujesz pomocy w interpretacji statystycznego znaczenia zmiennej zależnej lub wiesz, jakiego testu parametrycznego użyć do analizy danych obserwacyjnych? Odwiedź Stack Exchange, forum statystyczne, gdzie znajdziesz odpowiedź na Twoje pytanie.
Jeśli jesteś zainteresowany korepetycjami ze statystyki, przejrzyj społeczność nauczycieli matematyki Superprof. Od testów chi-kwadrat po wyciąganie wniosków ze zbiorów danych – nauczyciel matematyki może poprowadzić Cię przez całą dziedzinę.
Dla mieszkańców Wrocławia warto również rozważyć korepetycje statystyka Wrocław, aby skorzystać z indywidualnego podejścia i doświadczenia nauczycieli.
Programowanie
Stackoverflow to kolejne świetne forum internetowe, które może pomóc Ci we wszystkim, co jest związane z kodowaniem, od uwzględnienia tylko niektórych wartości odstających w projekcie eksperymentalnym po przeprowadzenie analizy regresji. Pomoże Ci to rozwiązać problemy z kodowaniem.