平均値、中央値、最頻値、範囲計算機
コンマで区切った数字を入力して計算してください。
平均
単語meanは英語の複数の他の単語の同音異義語であり、数学の分野でも同様に曖昧である。 文脈によって、数学でも統計でも、「平均」の意味が変わります。 データセットの最も単純な数学的定義では、平均値は算術平均値であり、数学的期待または平均値とも呼ばれます。 この形式では、平均値は離散的な数値のセットの間の中間値で、データセット内のすべての値の合計を値の合計で割った値です。 算術平均を計算する式は、母集団と標本平均の統計概念を計算する式と実質的に同じですが、使用する変数が少し異なります。
平均値は通常次のように表されます x、「x bar」と発音され、変数でさえありません x、バーマークはある種の平均値の一般的な指標である。 変数を使うのではなく、人口平均の特定の状況で x、ギリシャ記号muまたは & mu、使用済み。 同様に、あるいはもっと困惑しているのは、統計学のサンプル平均は通常大文字で表される x。 データセット10、2、38、23、38、23、21を与えると、上記の合計を適用して次のようになります。
|
= |
|
= 22.143 |
前述したように、これは平均値の最も簡単な定義の1つであり、その他の定義には加重算術平均値が含まれます。ただし、データセット内の一部の値が他の値よりも多くの値に貢献している点だけが異なります。また 幾何平均。 与えられた状況と背景を正しく理解することは、多くの場合、どのような統計関連方法を使用するかを決定するために必要なツールを人々に提供することができる。 一般的に、理想的には、平均値、中央値、最頻値、および範囲は、与えられたサンプルまたはデータセットに対して計算および分析する必要があります。これらは、与えられたデータのさまざまな側面を明らかにしているため、個別に考慮すると、データの誤報を招く可能性があります。これは以下のセクションで証明されます。
中央値
中央値の統計概念は、データサンプル、母集団または確率分布を半分に分けた値である。 中央値を探すことは、実質的にデータサンプルから残りの数字の間にある値を見つけることです。 限られた数字のリストの中央値を計算するときは、データサンプルの順序が重要であることに注意してください。 通常、これらの値は昇順に並べられますが、降順に並べると異なる結果が生じると考える本当の理由はありません。 データサンプルの値の総数が奇数の場合、中央値はすべての値リストの中央の数字です。 データサンプルに偶数の値が含まれている場合、中央値は2つの中央値の平均値です。 混乱するかもしれませんが、中央値が平均値の計算に関係することがあっても、その場合は2つの中央値しか関係しないことに注意してください。 平均値はデータサンプルのすべての値に関係します。 2つのデータサンプルまたはすべての値が同じ偶数サンプルしかない奇妙な場合、平均値と中央値は同じになります。 以前と同じデータセットが与えられた場合、中央値は次の方法で取得されます。
2,10,21,23、23、38、38
昇順にデータをリストし、奇数の値があることを確認すると、明らかに23がこの場合の中央値になります。 データセットに別の値が追加された場合:
2,10,21,23,23、38、38、1027892
偶数個の値があるので、中央値は二つの中間数の平均値になります。この例では23と23で、その平均値は23です。 この特定のデータセットでは、1、027、892という異常値(予想値の範囲をはるかに超える値)を追加してもデータセットに実際の影響はないことに注意してください。 しかし、このデータセットの平均値を計算すると、128、505.875になります。 この値は、データセット内の他の7つの値を十分に表すことができないことは明らかです。これらの値は、平均値や異常値よりもはるかに小さく、より近い値です。 これは平均値と比較して、中央値を用いて統計データを記述する主な利点である。 データを記述するときには、これらの2つの値とその他の統計値を計算する必要がありますが、1つの値しか使用できない場合、中央値を使用すると、値に大きな違いがあるときに、特定のデータセットの典型的な値をよりよく見積もることができます。
方式
統計学では、大衆数はデータセット内で最も出現回数の多い値である。 データセットはマルチモーダルである可能性があります。つまり、複数のモードがあることを意味します。 例えば:
2、10、21、23、23、38、38
23と38はそれぞれ2回出現するので、これらはすべて上記データセットのパターンである。
平均値と中央値と同様に、このパターンはランダム変数と全体的な情報を表現するために使用されます。 しかし、平均値や中央値とは異なり、このモデルは非数値に適用できる概念であり、例えば食料品店から最もよく購入されるコーンフレークのブランドである。 例えば、ブランドTostitos、Mission、XOCHiTLを比較すると、コーンフレークの販売ではXOCHiTLが主要なモデルであり、それぞれTostitos、Missionブランドのコーンフレークとの販売比率が3:2:1であれば、この比率はブランドごとに何袋の在庫があるかを判断するために使用できます。 ある期間にコーンフレークを24袋販売した場合、このモードを使用すると、店はXOCHiTLポテトチップス12袋、Tostitosポテトチップス8袋、Missionポテトチップス4袋を在庫する。 しかし、店が1種類あたり平均8袋しか販売していない場合、顧客が他のブランドではなくXOCHiTLチップだけを欲しがっていると、4袋の売上が失われる可能性があります。 この例から明らかなように、 どんなデータサンプルに対しても結論を出そうとする場合、様々な統計値を考慮することが重要である。
範囲
統計学におけるデータセットの範囲は最大値と最小値の差である。 範囲は統計と数学の分野によって異なる意味があるが、これはその最も基本的な定義であり、提供されている計算機で使用される定義でもある。 同じ例を使う:
2、10、21、23、23、38、38
38 - 2 = 36
この例の範囲は36です。 平均値と同様に、極端に悪いと極大または極小の値の顕著な影響を受けます。 前と同じ例を使用する:
2,10,21,23,23、38、38、1027892
この場合、範囲は1、027、890になり、前者の場合は36になります。 そのため、データセットを広く分析して異常値を確実に考慮することが重要である。