統計学

##統計とは何ですか？

統計は、定量的データからの結論の収集、説明、分析、および推論を含む応用数学の一分野です。統計の背後にある数学的理論は、微分積分学、線形代数、および確率論に大きく依存しています。

統計を行う人々である統計家は、小さなサンプルの行動やその他の観察可能な特性から、大規模なグループや一般的なイベントについて信頼できる結論を引き出す方法を決定することに特に関心があります。これらの小さなサンプルは、大きなグループの一部または一般的な現象の限られた数のインスタンスを表しています。

##統計を理解する

統計は、物理科学や社会科学などの事実上すべての科学分野だけでなく、ビジネス、人文科学、政府、製造業でも使用されています。統計は基本的に、微積分や線形代数などの数学ツールの確率論への応用から発展した応用数学の一分野です。

少数の類似したオブジェクトまたはイベント（サンプル）の特性を調査することによって、オブジェクトまたはイベントの大きなセット（母集団）のプロパティについて学習できるアイデアです。多くの場合、母集団全体に関する包括的なデータを収集することは、コストがかかりすぎる、困難である、または完全に不可能であるため、統計は、便利または手頃な価格で観察できるサンプルから始まります。

記述統計と推論統計の2種類の統計手法が使用されます。統計家は、サンプルの個人または要素に関するデータを測定および収集し、このデータを分析して記述統計を生成します。次に、サンプルデータのこれらの観測された特性を使用して、適切に「統計」と呼ばれ、パラメーターと呼ばれる、より広い母集団の測定されていない（または測定されていない）特性について推論または知識に基づいた推測を行うことができます。

統計は非公式に何世紀もさかのぼります。 1654年のフランスの数学者ピエールドフェルマーとブレーズパスカルの間の通信の初期の記録は、統計的確率分析の初期の例としてしばしば引用されます。

##記述統計および推論統計

統計の2つの主要な領域は、サンプルデータと母集団データのプロパティを説明する記述統計と、これらのプロパティを使用して仮説をテストし、結論を導き出す推論統計として知られています。記述統計には、平均（平均）、分散、歪度、および尖度が含まれます。推測統計には、線形回帰分析、分散分析（ANOVA）、ロジット/プロビットモデル、およびヌル仮説テストが含まれます。

###記述統計

記述統計は、主に中心傾向、変動性、およびサンプルデータの分布に焦点を当てています。中心傾向とは、サンプルまたは母集団の典型的な要素である特性の推定値を意味し、平均、中央値、最頻値などの記述統計を含みます。変動性とは、測定された特性に沿ってサンプルまたは母集団の要素間にどの程度の違いがあるかを示す一連の統計を指し、範囲、分散、標準偏差などのメトリックが含まれます。

分布とは、データの全体的な「形状」を指し、ヒストグラムやドットプロットなどのグラフに表示でき、確率分布関数、歪度、尖度などのプロパティが含まれます。記述統計は、データセットの要素の観測された特性間の違いを説明することもできます。記述統計は、データサンプルの要素の集合的な特性を理解し、仮説をテストし、推測統計を使用して予測を行うための基礎を形成するのに役立ちます。

###推論統計

推論統計は、統計学者がサンプルの特性から導き出された母集団の特性に関する結論を導き出し、それらの結論の信頼性をどれだけ確実にできるかを判断するために使用するツールです。サンプルサイズと分布に基づいて、統計学者は、データサンプル内の中心傾向、変動性、分布、および特性間の関係を測定する統計が、サンプルが含まれる母集団全体の対応するパラメーターの正確な画像を提供する確率を計算できます。描かれています。

推論統計は、消費者の購買習慣のサンプルを調査することによって製品の平均需要を推定するなど、大規模なグループに関する一般化を行うため、またはに基づいて証券または資産クラスの将来の収益を予測するなど、将来のイベントを予測するために使用されます。サンプル期間で戻ります。

回帰分析は、従属変数と1つ以上の説明（独立）変数の間の関係（つまり、相関）の強度と性質を決定するために使用される統計的推論の広く使用されている手法です。回帰モデルの出力は、統計的有意性について分析されることがよくあります。これは、テストまたは実験によって生成された結果がランダムにまたは偶然に発生した可能性は低いが、によって解明された特定の原因に起因する可能性が高いという主張を指します。データ。統計的有意性を持つことは、データの分析と研究に大きく依存する学問分野または実務家にとって重要です。

##統計データを理解する

統計のルートは変数によって駆動されます。変数は、アイテムの特性または属性をマークするカウント可能なデータセットです。たとえば、車には、メーカー、モデル、年式、走行距離、色、状態などの変数を含めることができます。一連のデータ（つまり、特定の駐車場にあるすべての車の色）全体の変数を組み合わせることにより、統計によって傾向と結果をよりよく理解できます。

変数には主に2つのタイプがあります。まず、定性的変数は特定の属性であり、多くの場合、数値ではありません。車の例で示されている例の多くは定性的です。統計における質的変数の他の例は、性別、目の色、または出生地です。定性的データは、特定の定性的変数に対して結果の何パーセントが発生するかを決定するために最も頻繁に使用され、定性的分析は多くの場合、数値に依存しません。たとえば、ビジネスを所有している女性の割合を特定しようとすると、定性的データが分析されます。

統計の2番目のタイプの変数は、量的変数です。量的変数は数値的に研究され、非数値記述子についてのみ重みがあります。定量分析と同様に、この情報は数値に基づいています。上記の車の例では、走行距離は量的変数です。ただし、走行距離の合計数であることが理解されない限り、60,000という数字は価値がありません。

量的変数はさらに2つのカテゴリーに分けることができます。まず、離散変数には統計上の制限があり、潜在的な離散変数値の間にギャップがあると推測されます。フットボールの試合で得点されるポイント数は、（1）小数はあり得ず、（2）チームが1ポイントしか得点することは不可能であるため、離散変数です。

第二に、統計は連続的な量的変数も利用します。これらの値はスケールに沿って実行されます。離散値には制限がありますが、連続変数は多くの場合、小数で測定されます。サッカー選手の身長を測定する場合、（可能な範囲内で）任意の値を取得でき、それ以上ではない場合でも、身長を1/16インチまで測定できます。

統計家は、企業内でさまざまな役職や役職を歴任できます。 Glassdoorによると、2021年12月現在の統計学者の平均総報酬は98,034ドルでした。データサイエンティストの同様に分析的な役割は、ほぼ$119,000の年間報酬をもたらしました。

##測定の統計レベル

統計の一部として変数と結果を分析した後、いくつかの結果の尺度があります。統計では、次のさまざまな方法で結果を定量化できます。

**公称レベルの測定。**数値または定量値はなく、品質はランク付けされていません。代わりに、名目尺度は、他の変数に割り当てられた単なるラベルまたはカテゴリです。名目レベルの測定値は、変数に関する非数値の事実と考えるのが最も簡単です。 例：2020年に選出された大統領の名前はJoseph Robinette Biden、Jrです。
**順序尺度：**結果は順番に並べることができますが、すべてのデータ値は同じ値または重みを持ちます。数値ではありますが、データポイントの位置のみが重要であるため、統計の通常レベルの測定値を相互に差し引くことはできません。多くの場合、非パラメトリック統計に組み込まれ、通常のレベルは、変数グループ全体と比較されることがよくあります。 例：アメリカのフレッドカーリーは、100メートルの全力疾走時間に基づいて2020年東京オリンピックで2番目に速い男でした。

1。**間隔レベルの測定：**結果は順番に並べることができます。ただし、データ値の違いに意味がある場合があります。 2つの異なるデータポイントは、データセット内の時間の経過や変化する条件を比較するためによく使用されます。多くの場合、データ値の範囲の「開始点」はなく、カレンダーの日付または温度には意味のある固有のゼロ値がない場合があります。 例：インフレは2022年5月に8.6％に達しました。最後にインフレーションがこれほど高かったのは1981年12月でした。

**比率レベルの測定：**結果を順番に並べることができ、データ値の違いに意味があります。ただし、統計値にさらに値を提供するために使用できる開始点または「ゼロ値」があります。データ値間の比率には、ゼロからの距離など、意味があります。 例：記録された最低の気象温度は、南極大陸で華氏-128.6度でした。

##統計サンプリング手法

統計情報を収集するために、母集団内のすべてのデータポイントからデータを収集することはしばしば不可能です。代わりに、統計はさまざまなサンプリング手法に依存して、分析が容易な母集団の代表的なサブセットを作成します。統計では、サンプリングにはいくつかの主要なタイプがあります。

-単純ランダムサンプリングでは、母集団内のすべてのメンバーが分析のために選択される可能性が等しい必要があります。人口全体がサンプリングの基礎として使用され、偶然に基づく任意のランダムジェネレーターがサンプルアイテムを選択できます。たとえば、100人が並んでいて、10人がランダムに選ばれます。

-系統抽出では、ランダムサンプルも必要です。ただし、その手法は、実行しやすいようにわずかに変更されています。単一の乱数が生成され、サンプルサイズが完了するまで、指定された一定の間隔で個人が選択されます。たとえば、100人の個人が並んで番号が付けられています。サンプルには7番目の個人が選択され、その後、10個のサンプルアイテムが選択されるまで、後続の9番目の個人ごとに選択されます。

-層化抽出では、サンプルをより細かく制御する必要があります。人口は、同様の特性に基づいてサブグループに分けられます。次に、各サブグループの何人が人口全体を表すかを計算します。たとえば、100人の個人が性別と人種によってグループ化されています。次に、各サブグループから、そのサブグループが母集団をどの程度代表しているかの割合でサンプルを取得します。

-クラスターサンプリングでは、サブグループも必要です。ただし、各サブグループは母集団を代表する必要があります。サブグループ内の個人をランダムに選択する代わりに、サブグループ全体がランダムに選択されます。

昨年、どのメジャーリーグの野球選手が最も価値のある選手を獲得すべきかわからないですか？価値を決定するためによく使用される統計は、最高のプレーヤーの賞が授与されるときにしばしば引用されます。統計には、打率、ヒットしたホームランの数、盗まれた基地などが含まれます。

##統計の例

統計は、金融、投資、ビジネス、そして世界で顕著です。表示される情報と提供されるデータの多くは、ビジネスのあらゆる側面で使用される統計から得られます。

-投資では、統計には、平均取引量、52週間の安値、52週間の高値、ベータ、および資産クラスまたは証券間の相関が含まれます。

-経済では、統計にはGDP、失業、消費者価格、インフレ、およびその他の経済成長指標が含まれます

-マーケティングでは、統計には、コンバージョン率、クリック率、検索数、ソーシャルメディアの指標が含まれます。

-会計では、統計には、流動性、支払能力、および収益性の指標が含まれます。

-情報技術では、統計には帯域幅、ネットワーク機能、およびハードウェアロジスティクスが含まれます。

-人材の統計には、従業員の離職率、従業員の満足度、および市場に対する平均報酬が含まれます。

##ハイライト

-単純なランダム、体系的、階層化、またはクラスターサンプリングなど、さまざまなサンプリング手法を使用して統計データをコンパイルできます。

-統計は、非数値記述子（名目レベル）からゼロ点（比率レベル）を参照する数値までのさまざまなレベルで伝達できます。

-統計は、すべての企業のほぼすべての部門に存在し、投資の不可欠な部分でもあります。

-統計とは、データを収集、レビュー、分析、および結論を引き出す方法を含む、データの調査と操作です。

-統計の2つの主要な領域は、記述統計と推論統計です。

＃＃よくある質問

###記述的統計と推論的統計の違いは何ですか？

記述統計は、変数の平均、標準偏差、頻度など、サンプルまたはデータセットの特性を記述または要約するために使用されます。対照的に、推論統計では、相関分析や回帰分析などを使用して、データセット内の変数を相互に関連付けるために任意の数の手法を使用します。次に、これらを使用して、予測を推定したり、因果関係を推測したりできます。

###統計が重要なのはなぜですか？

統計は、物事がどのように機能するかを教育するための情報を提供します。統計は、調査の実施、結果の評価、批判的思考の発達、および情報に基づいた意思決定に使用されます。統計を使用して、ほとんどすべての研究分野を調査し、物事が発生する理由、発生する時期、および再発が予測可能かどうかを調査できます。

###誰が統計を使用しますか？

統計は、さまざまなアプリケーションや職業で広く使用されています。データが収集および分析されるたびに、統計が実行されます。これは、政府機関から学術研究、投資の分析にまで及ぶ可能性があります。

###統計は経済学と金融でどのように使用されていますか？

エコノミストは、個人消費から住宅の開始、インフレーション、GDPの成長に至るまで、あらゆる種類のデータを収集して調べます。金融では、アナリストと投資家は、企業、業界、感情に関するデータ、および価格と量に関する市場データを収集します。合わせて、これらのフィールドでの推論統計の使用は、経済学として知られています。 CAPMから現代ポートフォリオ理論（MPT）およびブラックショールズオプション価格モデルまでのいくつかの重要な財務モデルは、統計的推論に依存しています。