Statystyka

Co to są statystyki?

Statystyka to gałąź matematyki stosowanej, która obejmuje zbieranie, opisywanie, analizę i wnioskowanie wniosków z danych ilościowych. Teorie matematyczne stojące za statystyką w dużej mierze opierają się na rachunku różniczkowym i całkowym, algebrze liniowej i teorii prawdopodobieństwa.

Statystycy, ludzie zajmujący się statystykami, są szczególnie zainteresowani ustaleniem, w jaki sposób wyciągnąć wiarygodne wnioski na temat dużych grup i ogólnych wydarzeń na podstawie zachowania i innych obserwowalnych cech małych próbek. Te małe próbki reprezentują część dużej grupy lub ograniczoną liczbę przypadków ogólnego zjawiska.

Zrozumienie statystyk

Statystyki są wykorzystywane w praktycznie wszystkich dyscyplinach naukowych, takich jak nauki fizyczne i społeczne, a także w biznesie, naukach humanistycznych, administracji i produkcji. Statystyka jest zasadniczo gałęzią matematyki stosowanej, która rozwinęła się od zastosowania narzędzi matematycznych, w tym rachunku różniczkowego i algebry liniowej, do teorii prawdopodobieństwa.

W praktyce statystyka to idea, dzięki której możemy dowiedzieć się o właściwościach dużych zbiorów obiektów lub zdarzeń ( populacji ) poprzez badanie cech mniejszej liczby podobnych obiektów lub zdarzeń ( próbka ). Ponieważ w wielu przypadkach zebranie wyczerpujących danych o całej populacji jest zbyt kosztowne, trudne lub całkowicie niemożliwe, statystyki zaczynają się od próby, którą można wygodnie lub tanio obserwować.

W analizie danych wykorzystywane są dwa rodzaje metod statystycznych: statystyka opisowa i statystyka wnioskowa. Statystycy mierzą i zbierają dane o osobach lub elementach próbki, a następnie analizują te dane, aby wygenerować statystyki opisowe. Mogą następnie wykorzystać te zaobserwowane cechy danych próbki, które są właściwie nazywane „statystykami”, aby wnioskować lub wykształcić domysły na temat niezmierzonych (lub niezmierzonych) cech szerszej populacji, znanych jako parametry.

Statystyki nieformalnie sięgają wieków wstecz. Wczesny zapis korespondencji między francuskimi matematykami Pierre de Fermat i Blaise Pascal w 1654 jest często cytowany jako wczesny przykład statystycznej analizy prawdopodobieństwa.

Statystyka opisowa i wnioskowa

Dwa główne obszary statystyki znane są jako statystyki opisowe, które opisują właściwości danych o próbie i populacji, oraz statystyki wnioskowania, które wykorzystują te właściwości do testowania hipotez i wyciągania wniosków. Statystyki opisowe obejmują średnią (średnią), wariancję, skośność i kurtozę. Statystyki wnioskowania obejmują analizę regresji liniowej,. analizę wariancji (ANOVA), modele logit/probit oraz testowanie hipotezy zerowej.

Opisowe statystyki

Statystyki opisowe skupiają się głównie na tendencji centralnej, zmienności i rozkładzie danych z próby. Tendencja centralna oznacza oszacowanie cech, typowego elementu próby lub populacji i obejmuje statystyki opisowe, takie jak średnia,. mediana i tryb. Zmienność odnosi się do zestawu statystyk, które pokazują, jaka jest różnica między elementami próbki lub populacji wzdłuż mierzonych cech i obejmuje takie metryki, jak rozstęp,. wariancja i odchylenie standardowe.

Rozkład odnosi się do ogólnego „kształtu” danych, który można przedstawić na wykresie, takim jak histogram lub wykres punktowy, i obejmuje właściwości, takie jak funkcja rozkładu prawdopodobieństwa, skośność i kurtoza . Statystyka opisowa może również opisywać różnice między obserwowanymi cechami elementów zbioru danych. Statystyki opisowe pomagają nam zrozumieć zbiorcze właściwości elementów próbki danych i stanowią podstawę do testowania hipotez i dokonywania predykcji za pomocą statystyki wnioskowania.

Statystyka wnioskowania

Statystyka wnioskowa to narzędzia, których statystycy używają do wyciągania wniosków na temat cech populacji na podstawie cech próby oraz do decydowania, na ile mogą być pewni wiarygodności tych wniosków. Na podstawie wielkości i rozkładu próby statystycy mogą obliczyć prawdopodobieństwo, że statystyki, które mierzą tendencję centralną, zmienność, rozkład i relacje między cechami w próbce danych, zapewniają dokładny obraz odpowiednich parametrów całej populacji, z których próbka jest pobierana.

Statystyka wnioskowa służy do tworzenia uogólnień na temat dużych grup, takich jak szacowanie średniego popytu na produkt poprzez badanie próbki nawyków zakupowych konsumentów lub próba przewidzenia przyszłych zdarzeń, takich jak przewidywanie przyszłego zwrotu papieru wartościowego lub klasy aktywów na podstawie zwraca w okresie próby.

regresji jest szeroko stosowaną techniką wnioskowania statystycznego stosowaną do określenia siły i charakteru związku (tj. korelacji ) między zmienną zależną a jedną lub większą liczbą zmiennych objaśniających (niezależnych). Dane wyjściowe modelu regresji są często analizowane pod kątem istotności statystycznej,. co odnosi się do twierdzenia , że wynik z wyników badań lub eksperymentów prawdopodobnie nie wystąpił losowo lub przypadkowo , ale prawdopodobnie można go przypisać konkretnej przyczynie wyjaśnionej przez dane. Istotność statystyczna jest ważna dla dyscyplin akademickich lub praktyków, którzy w dużym stopniu polegają na analizie danych i badaniach.

Zrozumienie danych statystycznych

Podstawą statystyk są zmienne. Zmienna to zbiór danych, który można zliczyć, oznaczający cechę lub atrybut elementu. Na przykład samochód może mieć zmienne, takie jak marka, model, rok, przebieg, kolor lub stan. Łącząc zmienne w zbiorze danych (tj. kolory wszystkich samochodów na danym parkingu), statystyki pozwalają nam lepiej zrozumieć trendy i wyniki.

Istnieją dwa główne typy zmiennych. Po pierwsze, zmienne jakościowe to specyficzne atrybuty, które często nie są liczbowe. Wiele przykładów podanych w przykładzie samochodu ma charakter jakościowy. Inne przykłady zmiennych jakościowych w statystykach to płeć, kolor oczu lub miasto urodzenia. Dane jakościowe są najczęściej używane do określenia, jaki procent wyniku występuje dla danej zmiennej jakościowej, a analiza jakościowa często nie opiera się na liczbach. Na przykład próba ustalenia, jaki procent kobiet posiada firmę, analizuje dane jakościowe.

Drugim typem zmiennej w statystyce są zmienne ilościowe. Zmienne ilościowe są badane numerycznie i mają wagę tylko wtedy, gdy dotyczą deskryptora nienumerycznego. Podobnie jak w przypadku analizy ilościowej,. informacje te są zakorzenione w liczbach. W powyższym przykładzie samochodu przejechany przebieg jest zmienną ilościową. Jednak liczba 60 000 nie ma żadnej wartości, chyba że rozumie się, że jest to całkowita liczba przejechanych mil.

Zmienne ilościowe można dalej podzielić na dwie kategorie. Po pierwsze, zmienne dyskretne mają ograniczenia statystyczne i wnioskują, że istnieją luki między potencjalnymi wartościami zmiennych dyskretnych. Liczba punktów zdobytych w meczu piłki nożnej jest zmienną dyskretną, ponieważ (1) nie może być ułamków dziesiętnych i (2) nie jest możliwe, aby drużyna zdobyła tylko 1 punkt.

Po drugie, statystyka wykorzystuje również ciągłe zmienne ilościowe. Wartości te biegną wzdłuż skali – podczas gdy wartości dyskretne mają ograniczenia, zmienne ciągłe są często mierzone w liczbach dziesiętnych. Mierząc wzrost piłkarzy, można uzyskać dowolną wartość (w ramach możliwych ograniczeń), a wysokość można zmierzyć z dokładnością do 1/16 cala, jeśli nie dalej.

Statystycy mogą zajmować różne tytuły i stanowiska w firmie. Według Glassdoor średnie całkowite wynagrodzenie dla statystyka w grudniu 2021 r. wyniosło 98 034 USD. Równie analityczna rola analityka danych przyniosła roczne wynagrodzenie w wysokości prawie 119 000 dolarów.

Statystyczne poziomy pomiaru

Po przeanalizowaniu zmiennych i wyników w ramach statystyk powstaje kilka wynikających z nich poziomów pomiaru. Statystyki mogą określać wyniki na różne sposoby:

Pomiar poziomu nominalnego. Nie ma wartości liczbowej ani ilościowej, a cechy nie są klasyfikowane. Zamiast tego pomiary poziomu nominalnego są po prostu etykietami lub kategoriami przypisanymi do innych zmiennych. Najłatwiej jest myśleć o pomiarach poziomu nominalnego jako o nieliczbowych faktach dotyczących zmiennej. Przykład: imię i nazwisko prezydenta wybranego w 2020 r. to Joseph Robinette Biden, Jr.
Porządkowy pomiar poziomu: Wyniki można uporządkować w kolejności, jednak wszystkie wartości danych mają tę samą wartość lub wagę. Chociaż liczbowe, porządkowe pomiary poziomu w statystyce nie mogą być odejmowane od siebie, ponieważ tylko pozycja punktu danych. Często włączane do statystyk nieparametrycznych,. poziomy porządkowe są często porównywane z całkowitą grupą zmiennych. Przykład: Amerykanin Fred Kerley był drugim najszybszym człowiekiem na igrzyskach olimpijskich w Tokio 2020 na podstawie czasów sprintu na 100 metrów.
Pomiar poziomu interwału: Wyniki można uporządkować w kolejności; jednak różnice między wartościami danych mogą teraz mieć znaczenie. Do porównania upływu czasu lub zmieniających się warunków w zbiorze danych często używa się dwóch różnych punktów danych. Często nie ma „punktu wyjścia” dla zakresu wartości danych, a daty kalendarzowe lub temperatury mogą nie mieć znaczącej wewnętrznej wartości zerowej. Przykład: inflacja osiągnęła 8,6% w maju 2022 r. Ostatni raz tak wysoka inflacja miała miejsce w grudniu 1981 r.
Pomiar poziomu wskaźnika: Wyniki można uporządkować w kolejności, a różnice między wartościami danych mają teraz znaczenie. Jednak istnieje teraz punkt początkowy lub „wartość zerowa”, która może być wykorzystana do dalszego zapewnienia wartości wartości statystycznej. Znaczenie ma teraz stosunek wartości danych, w tym odległość od zera. Przykład: najniższa zarejestrowana temperatura meteorologiczna wyniosła -128,6 stopnia Fahrenheita na Antarktydzie.

Techniki pobierania statystyk

Aby zebrać informacje statystyczne, często nie byłoby możliwe zebranie danych z każdego punktu danych w populacji. Zamiast tego statystyki opierają się na różnych technikach próbkowania, aby stworzyć reprezentatywny podzbiór populacji, który jest łatwiejszy do analizy. W statystykach istnieje kilka podstawowych rodzajów próbkowania.

Proste losowe pobieranie próbek wymaga, aby każdy członek populacji miał równe szanse na wybór do analizy. Cała populacja jest wykorzystywana jako podstawa do pobierania próbek, a każdy generator losowy oparty na przypadku może wybrać elementy próbki. Na przykład 100 osób ustawia się w kolejce, a 10 wybiera się losowo.
Systematyczne pobieranie próbek wymaga również losowej próbki. Jednak jego technika jest nieco zmodyfikowana, aby ułatwić prowadzenie. Generowana jest pojedyncza liczba losowa, a następnie osoby są wybierane w określonych regularnych odstępach czasu, aż do zakończenia liczebności próby. Na przykład 100 osób jest ustawionych i ponumerowanych. Do próby wybiera się siódmą osobę, a następnie każdą kolejną dziewiątą, aż do wybrania 10 pozycji próbki.
Próbkowanie warstwowe wymaga większej kontroli nad próbką. Populację podzielono na podgrupy na podstawie podobnych cech. Następnie obliczasz, ile osób z każdej podgrupy reprezentuje całą populację. Na przykład 100 osób jest pogrupowanych według płci i rasy. Następnie próbka z każdej podgrupy zostanie pobrana w proporcji reprezentatywności tej podgrupy w populacji.
Próbkowanie klastra wymaga również podgrup. Jednak każda podgrupa powinna być reprezentatywna dla populacji. Zamiast losowego wybierania osób z podgrupy, losowo wybierana jest cała podgrupa.

Nie jesteś pewien, który zawodnik Major League Baseball powinien w zeszłym roku wygrać Najbardziej Wartościowego Gracza? Statystyki, często używane do określenia wartości, są często przytaczane przy przyznawaniu nagrody dla najlepszego gracza. Statystyki mogą obejmować średnią z odbijania, liczbę trafionych home runów i skradzionych baz.

Przykłady statystyk

Statystyki są widoczne w finansach, inwestycjach, biznesie i na świecie. Wiele informacji, które widzisz, i danych, które otrzymujesz, pochodzi ze statystyk, które są wykorzystywane we wszystkich aspektach działalności biznesowej.

W inwestowaniu statystyki obejmują średni wolumen obrotu, 52-tygodniowe minimum, 52-tygodniowe maksimum, beta oraz korelację między klasami aktywów lub papierów wartościowych.
W ekonomii statystyki obejmują PKB, bezrobocie, ceny konsumenckie, inflację i inne wskaźniki wzrostu gospodarczego
W **

– W księgowości statystyki obejmują wskaźniki płynności, wypłacalności i rentowności w czasie.

W technologii informacyjnej statystyki obejmują przepustowość, możliwości sieciowe i logistykę sprzętu.
W zasobach ludzkich statystyki obejmują rotację pracowników, satysfakcję pracowników i średnie wynagrodzenie w stosunku do rynku.

##Przegląd najważniejszych wydarzeń

Do kompilacji danych statystycznych można zastosować szereg technik próbkowania, w tym proste próbkowanie losowe, systematyczne, warstwowe lub klastrowe.
Statystyki mogą być przekazywane na różnych poziomach, od nieliczbowego deskryptora (poziom nominalny) do liczbowego w odniesieniu do punktu zerowego (poziom wskaźnikowy).
Statystyki są obecne w prawie każdym dziale każdej firmy i są również integralną częścią inwestowania.
Statystyka to badanie i manipulowanie danymi, w tym sposoby gromadzenia, przeglądania, analizowania i wyciągania wniosków z danych.
Dwa główne obszary statystyki to statystyki opisowe i wnioskowania.

##FAQ

Jaka jest różnica między statystyką opisową a inferencyjną?

Statystyki opisowe służą do opisywania lub podsumowywania cech próbki lub zbioru danych, takich jak średnia zmiennej, odchylenie standardowe lub częstotliwość. Statystyka wnioskowania natomiast wykorzystuje dowolną liczbę technik do powiązania ze sobą zmiennych w zbiorze danych, na przykład przy użyciu analizy korelacji lub regresji. Można je następnie wykorzystać do oszacowania prognoz lub wnioskowania o przyczynowości.

Dlaczego ważne statystyki?

Statystyki dostarczają informacji, aby dowiedzieć się, jak wszystko działa. Statystyki służą do prowadzenia badań, oceny wyników, rozwijania krytycznego myślenia i podejmowania świadomych decyzji. Statystyka może być wykorzystana do zbadania prawie każdej dziedziny nauki, aby zbadać, dlaczego coś się dzieje, kiedy się dzieje i czy jego ponowne wystąpienie jest przewidywalne.

Kto korzysta ze statystyk?

Statystyki są szeroko stosowane w wielu aplikacjach i zawodach. Za każdym razem, gdy dane są zbierane i analizowane, tworzone są statystyki. Może to obejmować agencje rządowe, badania naukowe i analizę inwestycji.

W jaki sposób statystyki są wykorzystywane w ekonomii i finansach?

Ekonomiści zbierają i analizują wszelkiego rodzaju dane, począwszy od wydatków konsumenckich, poprzez rozpoczęcie inwestycji mieszkaniowych, inflację, a skończywszy na wzroście PKB. W finansach analitycy i inwestorzy zbierają dane o firmach, branżach, nastrojach oraz dane rynkowe dotyczące cen i wolumenu. Łącznie wykorzystanie wnioskowanych statystyk w tych dziedzinach jest znane jako ekonometria. Kilka ważnych modeli finansowych, od CAPM po nowoczesną teorię portfela (MPT) i model wyceny opcji Blacka-Scholesa,. opiera się na wnioskowaniu statystycznym.