Spójrzmy prawdzie w oczy, podczas gdy nauka o danych została nazwana „najseksowniejszą pracą XXI wieku”, większość ludzi wciąż drży nawet na wzmiankę o statystykach. Źródłem tego, że dyscyplina ta była tak wyobcowana w całej jej historii, można znaleźć jej bliski związek z matematyką.

Niezależnie od tego, czy uważasz, że nie możesz nauczyć się analizy statystycznej, czy po prostu chcesz dowiedzieć się więcej na ten temat, ten przewodnik pomoże ci zacząć od przedstawienia podstawowych pojęć wprowadzających.

Sercem statystyki jest pięć podstawowych pojęć statystyki, które stanowią podstawę analizy danych. Pierwszymi czterema można się zająć bez wchodzenia w szczegóły dotyczące ich równań:

  • Średnia: wartość średnia, obliczona jako suma wszystkich obserwacji w stosunku do liczby obserwacji
  • Mediana: punkt środkowy zestawu danych, obliczany przez uporządkowanie wszystkich obserwacji od najmniejszej do największej i przyjęcie wartości bezpośrednio w środku
  • Wariancja: ogólny rozkład danych, obliczony jako średnia kwadratowych różnic średniej
  • Odchylenie standardowe: także miara rozprzestrzeniania się, obliczana na podstawie pierwiastka kwadratowego wariancji
obliczanie danych statystycznych
Obliczaj dane statystyczne z łatwością. (Źródło: Unsplash)

Podobnie jak świadkowie powieści kryminalnej, te cztery pojęcia zaczynają opowiadać historię określonego zestawu danych, ponieważ są to statystyki opisowe. Na przykład, jeśli rozejrzysz się po ludziach w każdej restauracji, w której się znajdujesz, zbudowanie narracji lub interpretacji na temat tłumu, w którym jesteś, może być bardzo trudne.

Powiedzmy jednak, że otrzymujesz informacje o ich wieku, miesięcznych dochodach, poziomie wykształcenia, płci i smaku muzyki. Dwie pierwsze koncepcje, średnia i mediana, są miernikami centralnej tendencji, która może powiedzieć, czy twój tłum składa się głównie z dwudziestu osób, które są na studiach lub ludzi zamożnych, starszych osób, którzy inwestują w fundusze hedgingowe.

Różnica między korzystaniem z tych pojęć zależy od rozkładu mierzonej zmiennej lub w tym przykładzie, od stopnia zmienności w tłumie. Im większe podobieństwo tłumu, tym dokładniejszy będzie sposób opowiedzenia swojej historii; im większa jest różnica między ludźmi, tym dokładniejszy będzie rysowany obraz, biorąc pod uwagę średnią.

Zarówno wariancja, jak i odchylenie standardowe są miarami zmienności i mogą powiedzieć, jak różne są poszczególne obserwacje w danych od średniej w odniesieniu do konkretnej zmiennej.

Jeśli chcesz zobaczyć, jak podobny jest tłum pod względem wieku, zacznij obliczenia od obliczenia średniego wieku i odejmując od niego wiek każdej osoby, znajdź liczbę, która pokazuje, jak daleko ludzie się dzielą od średniej. Z drugiej strony odchylenie standardowe pokazuje, jak daleko lub blisko dane są grupowane wokół średniej w oparciu o rozkład normalny.

Odchylenie standardowe jest dokładnie podobne do wariancji pod względem tego, co mówi o rozprzestrzenianiu się twoich danych - w rzeczywistości odchylenie standardowe jest obliczane na podstawie pierwiastka kwadratowego wariancji. Różnica polega na tym, że odchylenie standardowe jest miarą opisową, która jest najłatwiejsza do zgłoszenia, ponieważ jest w tych samych jednostkach co oryginalne dane, podczas gdy wariancja nie.

Możesz sprawdzić, czego się nauczyłeś na swoim kursie statystycznym, próbując rozwiązać problemy z ćwiczeniami statystycznymi online!

Jakie jest prawdopodobieństwo?

Teraz, gdy opanowałeś cztery podstawowe pojęcia, nadszedł czas na omówienie piątego i najważniejszego elementu statystyki: teorii prawdopodobieństwa. Jest to zwykle miejsce, w którym ludzie biegają w kierunku wzgórz, gdy w rzeczywistości teoria prawdopodobieństwa jest używana tylko w celu zrozumienia najważniejszego wykresu, jaki kiedykolwiek zobaczysz na początku podróży statystycznej:

statystyka matematyczna
Interpretacja statystyki matematycznej poprzez rozkład normalny. (Źródło: Unsplash)

Ten wykres przedstawia normalny rozkład prawdopodobieństwa lub rozkład normalny, w którym dane są rozmieszczone symetrycznie wokół średniej. Innymi słowy, prawdopodobieństwo służy do zrozumienia twierdzenia o granicy centralnej lub CLT.

CLT definiuje się jako ideę, że gdy z populacji zostanie pobrana nieskończona ilość kolejnych losowych próbek, rozkład prób tych środków zbliża się do rozkładu normalnego.

Innymi słowy, niezależnie od tego, jak wygląda rozkład populacji, średnia i odchylenie standardowe staną się normalne wraz z większą liczbą narysowanych próbek, wyglądających jak na powyższym wykresie. Zrozumienie prawdopodobieństwa nie tylko daje nam język do mówienia o rozkładzie próbek, ale jest również narzędziem, które pozwala nam go obliczyć.

Jak wybrać test statystyczny

Po zapoznaniu się ze wszystkimi podstawami i zrozumieniu podstawowych pojęć statystyki, może być trudny do rozwiązania następny krok - czyli decyzja o tym, który test przeprowadzić z określonym zestawem danych. Chociaż istnieje szeroki wachlarz testów i podejść statystycznych, można je sprowadzić do czterech odrębnych kategorii testów dla:

  • Test Utajonych Skojarzeń
  • Test Porównawczy
  • Tekst Prognozy
  • Dane, które nie są zgodne z rozkładem normalnym lub nieparametrycznym

Aby zdecydować, które testy wykonać, najpierw należy rozróżnić typy danych, które są na podstawie analizowanych zmiennych. Zmienne mogą być zmiennymi skalowanymi lub kategorycznymi.

Zmienne skalowe mają charakter ilościowy i należą do dwóch kategorii;

  • Ciągły: może przyjmować dowolną wartość, na przykład wysokość
  • Dyskretny: są liczbami całkowitymi, takimi jak liczba dzieci

Zmienne jakościowe są jakościowe i również należą do dwóch odrębnych kategorii:

  • Pomiarowa: ma oczywisty porządek, taki jak szczęście w skali od 1 do 10
  • Nominalna: nie ma znaczącego porządku, podobnie jak płeć

Kiedy stosować testy asocjacji

Tego rodzaju testy mają na celu zbadanie związku między dwiema zmiennymi. To jest najbliższe spojrzenie na związek przyczynowy między dwiema zmiennymi. Na przykład chcesz dowiedzieć się, czy istnieje związek między stanem cywilnym a poziomem wykształcenia. Wszystkie te sprawdzają siłę powiązania między dwiema zmiennymi:

Typ testuTyp zmiennychPrzykład
Korelacja liniowa PearsonaDwie zmienne ciągłeJeśli rozmiar buta ma związek z wysokością
Współczynnik korelacji rang SpearmanaDwie zmienne porządkoweJak silny jest związek między szczęściem a statusem ekonomicznym
Test zgodności chi-kwadratDwie zmienne kategoryczneAby sprawdzić, czy płeć i ulubiony kolor mają jakiś związek

Testy porównania między środkami

Testy porównawcze dotyczą patrzenia na różnice między różnymi zmiennymi przez patrzenie na różnicę między ich średnimi. Na przykład chcesz sprawdzić, czy to, gdzie idzie się do szkoły, ma wpływ na ustandaryzowane wyniki testu.

Typ testuTyp zmiennychPrzykład
Dopasowany test statystycznyDwie powiązane zmienneRóżnica między wagą przed i po przyjęciu nowego suplementu
Niezależny test statystycznyDwie niezależne zmienneRóżnica w wydatkach na gaz między ludźmi z Los Angeles i Nowego Jorku
Jedno-czynnikowa analiza wariancji (ANOVA)Jedna niezależna zmienna o różnych poziomach i jedna zmienna ciągłaPorównanie średnich wyników testów z trzech różnych poziomów edukacji
Dwu-czynnikowa analiza wariancji (ANOVA)Dwie lub więcej zmiennych niezależnych o różnych poziomach i jedna zmienna ciągłaPorównanie średnich wyników testu z obu trzech poziomów edukacji i dwunastu różnych znaków zodiaku

Testy predykcyjne z wykorzystaniem regresji liniowej

Testy predykcyjne służą do ustalenia, czy zmiana jednej lub więcej zmiennych zmienia się w innej. Na przykład, biorąc pod uwagę dane dotyczące płci, diety i dochodów, możesz zbadać, czy zmiana tych wartości prowadzi do zmiany wzrostu.

Typ testuTyp wariacjiPrzykład
Prosta regresja liniowaJedna zmienna skali (zależna) z jedną lub dwiema zmiennymi skali (wzór wstępny)Chcesz sprawdzić, czy i jak wiek i wzrost przewidują wagę
Wielokrotna regresja liniowaJedna zmienna skali (zależna) z dwiema lub więcej zmiennymi skali (wzór wstępny)Chcesz sprawdzić, czy i jak wiek, wzrost i dochód przewidują wagę

Testy na dane nieparametryczne

Testy te należy wykonać, gdy dane nie spełniają założeń dla innych testów. Na przykład, gdy dane nie mają normalnego rozkładu i są mocno wypaczone.

Typ testuTyp wariacjiPrzykład
Test sumy rang WilcoxonaDwie niezależne zmiennePomiędzy dwoma różnymi lekami, z których jeden zapewnia najlepszą ulgę w dwóch losowych, odrębnych grupach populacji
Test rangowych znaków WilcoxonaDwie powiązane zmiennePomiędzy dwoma różnymi lekami, z których jeden oferuje najlepszą ulgę dla tej samej grupy pacjentów
Test rang FriedmanaTrzy zmienne metryczne lub porządkowe (muszą być albo metryczne, albo porządkowe)Trzy różne oceny reklam podane przez osoby w tej samej populacji
Mężczyzna pracujący nad statystykami na laptopie
Poświęć się pytaniu badawczemu i projekcie eksperymentalnemu.  (Źródło: Unsplash)

Jak przeprowadzać testy statystyczne

Istnieje kilka założeń dotyczących wykorzystywanych danych, które są powiązane z każdym omawianym testem statystycznym. Aby testy mogły zostać przeprowadzone, być przewidywalne i dokładne, należy przyjąć te założenia. Ponieważ założenia dla różnych typów testów mogą być różne, konieczne jest ich sprawdzenie przed rozpoczęciem prezentowania danych.

Najpopularniejsze programy wykorzystywane do analizy statystycznej to:

  • Excel
  • Stata
  • SAS
  • SPSS
  • Python
  • R

Jeśli przeprowadzasz testy danych parametrycznych, istnieją cztery główne założenia kontroli, że dane będą musiały przejść. Należy jednak zauważyć, że każdy test ma swój własny zestaw założeń, które należy sprawdzić wcześniej, i że ta lista jest po prostu tymi, z którymi najczęściej się spotykasz.

ZałożenieOpis
NiezależnośćGrupy tworzące próbkę są od siebie niezależne
NormalnośćDane w zestawie są normalne, co oznacza, że następuje normalny rozkład.
Jednorodność wariancjiJeśli w danych jest wiele grup związanych z twoją zmienną niezależną, mają one tę samą wariancję.

Jeśli szukasz dodatkowej pomocy dotyczących tych tematów, istnieje wiele poradników online, które możesz wykorzystać do rozwijania swoich umiejętności. Nauka poprzez strony internetowe, takie jak Superprof, lub internetowe seminaria internetowe prowadzone przez R-blogerów mogą pomóc w rozpoczęciu tej przygody!

Potrzebujesz nauczyciela z przedmiotu: Analiza danych ?

Oceń czy nasz artykuł był pomocny 😊

5,00/5, 1 votes
Loading...

Aleksandra

Jestem kreatywną i ciekawą świata osobą, która lubi poznawać nowe osoby i miejsca. Interesuję się sportem, muzyką, sztuką oraz literaturą amerykańską. Na co dzień udzielam korepetycji z języka angielskiego, co również jest moim hobby. W czasie wolnym chętnie podróżuję i czytam książki.