Spis treści
Spójrzmy prawdzie w oczy, podczas gdy nauka o danych została nazwana „najseksowniejszą pracą XXI wieku”, większość ludzi wciąż drży nawet na wzmiankę o statystykach. Źródłem tego, że dyscyplina ta była tak wyobcowana w całej jej historii, można znaleźć jej bliski związek z matematyką.
Niezależnie od tego, czy uważasz, że nie możesz nauczyć się analizy statystycznej, czy po prostu chcesz dowiedzieć się więcej na ten temat, ten przewodnik pomoże ci zacząć od przedstawienia podstawowych pojęć wprowadzających.
Sercem statystyki jest pięć podstawowych pojęć statystyki, które stanowią podstawę analizy danych. Pierwszymi czterema można się zająć bez wchodzenia w szczegóły dotyczące ich równań:
- Średnia: wartość średnia, obliczona jako suma wszystkich obserwacji w stosunku do liczby obserwacji
- Mediana: punkt środkowy zestawu danych, obliczany przez uporządkowanie wszystkich obserwacji od najmniejszej do największej i przyjęcie wartości bezpośrednio w środku
- Wariancja: ogólny rozkład danych, obliczony jako średnia kwadratowych różnic średniej
- Odchylenie standardowe: także miara rozprzestrzeniania się, obliczana na podstawie pierwiastka kwadratowego wariancji

Podobnie jak świadkowie powieści kryminalnej, te cztery pojęcia zaczynają opowiadać historię określonego zestawu danych, ponieważ są to statystyki opisowe. Na przykład, jeśli rozejrzysz się po ludziach w każdej restauracji, w której się znajdujesz, zbudowanie narracji lub interpretacji na temat tłumu, w którym jesteś, może być bardzo trudne.
Powiedzmy jednak, że otrzymujesz informacje o ich wieku, miesięcznych dochodach, poziomie wykształcenia, płci i smaku muzyki. Dwie pierwsze koncepcje, średnia i mediana, są miernikami centralnej tendencji, która może powiedzieć, czy twój tłum składa się głównie z dwudziestu osób, które są na studiach lub ludzi zamożnych, starszych osób, którzy inwestują w fundusze hedgingowe.
Różnica między korzystaniem z tych pojęć zależy od rozkładu mierzonej zmiennej lub w tym przykładzie, od stopnia zmienności w tłumie. Im większe podobieństwo tłumu, tym dokładniejszy będzie sposób opowiedzenia swojej historii; im większa jest różnica między ludźmi, tym dokładniejszy będzie rysowany obraz, biorąc pod uwagę średnią.
Zarówno wariancja, jak i odchylenie standardowe są miarami zmienności i mogą powiedzieć, jak różne są poszczególne obserwacje w danych od średniej w odniesieniu do konkretnej zmiennej.
Jeśli chcesz zobaczyć, jak podobny jest tłum pod względem wieku, zacznij obliczenia od obliczenia średniego wieku i odejmując od niego wiek każdej osoby, znajdź liczbę, która pokazuje, jak daleko ludzie się dzielą od średniej. Z drugiej strony odchylenie standardowe pokazuje, jak daleko lub blisko dane są grupowane wokół średniej w oparciu o rozkład normalny.
Odchylenie standardowe jest dokładnie podobne do wariancji pod względem tego, co mówi o rozprzestrzenianiu się twoich danych - w rzeczywistości odchylenie standardowe jest obliczane na podstawie pierwiastka kwadratowego wariancji. Różnica polega na tym, że odchylenie standardowe jest miarą opisową, która jest najłatwiejsza do zgłoszenia, ponieważ jest w tych samych jednostkach co oryginalne dane, podczas gdy wariancja nie.
Możesz sprawdzić, czego się nauczyłeś na swoim kursie statystycznym, próbując rozwiązać problemy z ćwiczeniami statystycznymi online!
Co to jest prawdopodobieństwo?
Teraz, gdy opanowałeś cztery podstawowe pojęcia, nadszedł czas na omówienie piątego i najważniejszego elementu statystyki: teorii prawdopodobieństwa. Jest to zwykle miejsce, w którym ludzie biegają w kierunku wzgórz, gdy w rzeczywistości teoria prawdopodobieństwa jest używana tylko w celu zrozumienia najważniejszego wykresu, jaki kiedykolwiek zobaczysz na początku podróży statystycznej:

Ten wykres przedstawia normalny rozkład prawdopodobieństwa lub rozkład normalny, w którym dane są rozmieszczone symetrycznie wokół średniej. Innymi słowy, prawdopodobieństwo służy do zrozumienia twierdzenia o granicy centralnej lub CLT.
CLT definiuje się jako ideę, że gdy z populacji zostanie pobrana nieskończona ilość kolejnych losowych próbek, rozkład prób tych środków zbliża się do rozkładu normalnego.
Innymi słowy, niezależnie od tego, jak wygląda rozkład populacji, średnia i odchylenie standardowe staną się normalne wraz z większą liczbą narysowanych próbek, wyglądających jak na powyższym wykresie. Zrozumienie prawdopodobieństwa nie tylko daje nam język do mówienia o rozkładzie próbek, ale jest również narzędziem, które pozwala nam go obliczyć.
Jak wybrać test statystyczny
Po zapoznaniu się ze wszystkimi podstawami i zrozumieniu podstawowych pojęć statystyki, może być trudny do rozwiązania następny krok - czyli decyzja o tym, który test przeprowadzić z określonym zestawem danych. Chociaż istnieje szeroki wachlarz testów i podejść statystycznych, można je sprowadzić do czterech odrębnych kategorii testów dla:
- Test Utajonych Skojarzeń
- Test Porównawczy
- Tekst Prognozy
- Dane, które nie są zgodne z rozkładem normalnym lub nieparametrycznym
Aby zdecydować, które testy wykonać, najpierw należy rozróżnić typy danych, które są na podstawie analizowanych zmiennych. Zmienne mogą być zmiennymi skalowanymi lub kategorycznymi.
Zmienne skalowe mają charakter ilościowy i należą do dwóch kategorii;
- Ciągły: może przyjmować dowolną wartość, na przykład wysokość
- Dyskretny: są liczbami całkowitymi, takimi jak liczba dzieci
Zmienne jakościowe są jakościowe i również należą do dwóch odrębnych kategorii:
- Pomiarowa: ma oczywisty porządek, taki jak szczęście w skali od 1 do 10
- Nominalna: nie ma znaczącego porządku, podobnie jak płeć
Znajdź statystyka korepetycje na Superprof, aby szybko opanować całą terminologię statystyczną.
Kiedy stosować testy asocjacji
Tego rodzaju testy mają na celu zbadanie związku między dwiema zmiennymi. To jest najbliższe spojrzenie na związek przyczynowy między dwiema zmiennymi. Na przykład chcesz dowiedzieć się, czy istnieje związek między stanem cywilnym a poziomem wykształcenia. Wszystkie te sprawdzają siłę powiązania między dwiema zmiennymi:
Typ testu | Typ zmiennych | Przykład |
---|---|---|
Korelacja liniowa Pearsona | Dwie zmienne ciągłe | Jeśli rozmiar buta ma związek z wysokością |
Współczynnik korelacji rang Spearmana | Dwie zmienne porządkowe | Jak silny jest związek między szczęściem a statusem ekonomicznym |
Test zgodności chi-kwadrat | Dwie zmienne kategoryczne | Aby sprawdzić, czy płeć i ulubiony kolor mają jakiś związek |
Testy porównania między środkami
Testy porównawcze dotyczą patrzenia na różnice między różnymi zmiennymi przez patrzenie na różnicę między ich średnimi. Na przykład chcesz sprawdzić, czy to, gdzie idzie się do szkoły, ma wpływ na ustandaryzowane wyniki testu.
Typ testu | Typ zmiennych | Przykład |
---|---|---|
Dopasowany test statystyczny | Dwie powiązane zmienne | Różnica między wagą przed i po przyjęciu nowego suplementu |
Niezależny test statystyczny | Dwie niezależne zmienne | Różnica w wydatkach na gaz między ludźmi z Los Angeles i Nowego Jorku |
Jedno-czynnikowa analiza wariancji (ANOVA) | Jedna niezależna zmienna o różnych poziomach i jedna zmienna ciągła | Porównanie średnich wyników testów z trzech różnych poziomów edukacji |
Dwu-czynnikowa analiza wariancji (ANOVA) | Dwie lub więcej zmiennych niezależnych o różnych poziomach i jedna zmienna ciągła | Porównanie średnich wyników testu z obu trzech poziomów edukacji i dwunastu różnych znaków zodiaku |
Testy predykcyjne z wykorzystaniem regresji liniowej
Testy predykcyjne służą do ustalenia, czy zmiana jednej lub więcej zmiennych zmienia się w innej. Na przykład, biorąc pod uwagę dane dotyczące płci, diety i dochodów, możesz zbadać, czy zmiana tych wartości prowadzi do zmiany wzrostu.
Typ testu | Typ wariacji | Przykład |
---|---|---|
Prosta regresja liniowa | Jedna zmienna skali (zależna) z jedną lub dwiema zmiennymi skali (wzór wstępny) | Chcesz sprawdzić, czy i jak wiek i wzrost przewidują wagę |
Wielokrotna regresja liniowa | Jedna zmienna skali (zależna) z dwiema lub więcej zmiennymi skali (wzór wstępny) | Chcesz sprawdzić, czy i jak wiek, wzrost i dochód przewidują wagę |
Testy na dane nieparametryczne
Testy te należy wykonać, gdy dane nie spełniają założeń dla innych testów. Na przykład, gdy dane nie mają normalnego rozkładu i są mocno wypaczone.
Typ testu | Typ wariacji | Przykład |
---|---|---|
Test sumy rang Wilcoxona | Dwie niezależne zmienne | Pomiędzy dwoma różnymi lekami, z których jeden zapewnia najlepszą ulgę w dwóch losowych, odrębnych grupach populacji |
Test rangowych znaków Wilcoxona | Dwie powiązane zmienne | Pomiędzy dwoma różnymi lekami, z których jeden oferuje najlepszą ulgę dla tej samej grupy pacjentów |
Test rang Friedmana | Trzy zmienne metryczne lub porządkowe (muszą być albo metryczne, albo porządkowe) | Trzy różne oceny reklam podane przez osoby w tej samej populacji |

Jak przeprowadzać testy statystyczne
Istnieje kilka założeń dotyczących wykorzystywanych danych, które są powiązane z każdym omawianym testem statystycznym. Aby testy mogły zostać przeprowadzone, być przewidywalne i dokładne, należy przyjąć te założenia. Ponieważ założenia dla różnych typów testów mogą być różne, konieczne jest ich sprawdzenie przed rozpoczęciem prezentowania danych.
Najpopularniejsze programy wykorzystywane do analizy statystycznej to:
- Excel
- Stata
- SAS
- SPSS
- Python
- R
Jeśli przeprowadzasz testy danych parametrycznych, istnieją cztery główne założenia kontroli, że dane będą musiały przejść. Należy jednak zauważyć, że każdy test ma swój własny zestaw założeń, które należy sprawdzić wcześniej, i że ta lista jest po prostu tymi, z którymi najczęściej się spotykasz.
Założenie | Opis |
---|---|
Niezależność | Grupy tworzące próbkę są od siebie niezależne |
Normalność | Dane w zestawie są normalne, co oznacza, że następuje normalny rozkład. |
Jednorodność wariancji | Jeśli w danych jest wiele grup związanych z twoją zmienną niezależną, mają one tę samą wariancję. |
Jeśli szukasz dodatkowej pomocy dotyczących tych tematów, istnieje wiele poradników online, które możesz wykorzystać do rozwijania swoich umiejętności. Nauka poprzez strony internetowe, takie jak Superprof, lub internetowe seminaria internetowe prowadzone przez R-blogerów mogą pomóc w rozpoczęciu tej przygody! Wpisz np. „korepetycje statystyka Warszawa” w wyszukiwarkę platformy i znajdź nauczyciela dla siebie.
Platforma, która łączy prywatnych nauczycieli i uczniów