データ分析ブログ データ分析中央値とは?求め方と活用方法を徹底解説

中央値とは?求め方と活用方法を徹底解説

中央値とは何か、平均値との違い、正確な求め方から、ExcelやR言語を用いた計算方法、さらに中央値のメリットとデメリット、そして実際の活用事例まで、中央値に関して詳しく解説します。

目次

Topics: データ分析

中央値とは


中央値とは、数値データを大きさの順に並べたとき、その中央に位置する値のことを指します。データセットが偶数個ある場合は、中央に位置する2つの数値の平均値を中央値として扱います。中央値はデータの分布における中心傾向を示す指標の一つであり、外れ値やデータの偏りの影響を受けにくいという特徴があります。たとえば、所得のように大きな値のデータが少数含まれる場合でも、中央値はそれらの影響を受けにくいため、データセット全体の「真ん中の値」としてより代表的な値を提供します。平均値と比べると、中央値は外れ値の影響を受けにくいため、データセットの特性をより正確に把握することが可能です。

中央値と平均値との違い

中央値と平均値は、データセットを要約するために使用される指標ですが、これらは異なる特性を持っています。平均値はデータセット内の全ての数値の合計をデータの個数で割った値であり、データの全体的な傾向を示します。一方、中央値はデータセットを小さい順に並べたとき、ちょうど真ん中に位置する数値であり、極端な値の影響を受けにくいため、データの中心傾向をより正確に反映します。

特性

中央値

平均値

極端な値に対する感受性

低い

高い

データの分布の要約

中心傾向を反映

全体的な傾向を示す

使用シーン

外れ値がある場合に適している

データが正規分布している場合に適している

この違いにより、中央値と平均値はそれぞれ異なる状況での使用が推奨されます。例えば、不動産価格や収入など、外れ値が含まれやすいデータセットでは中央値がより適切な指標となります。これは、極端な値に引きづられないため、全体の傾向をより正確に把握することができるためです。逆に、データが一貫性を持ち、外れ値の影響が少ない場合は、平均値を使用することで全体の特徴を捉えることができます。

中央値の求め方

データセット内で中央の位置にくる値を中央値と呼びます。データの個数によって奇数の場合と偶数の場合で求め方が異なります。ここでは、それぞれの状況に応じた中央値の見つけ方を詳しく説明します
 

奇数のデータセットの場合

データセットの個数が奇数の場合、中央値はデータセットを小さい順に並べたとき、ちょうど真ん中に位置する値となります。そのための手順は以下の通りです:

  1. まず、全てのデータを数値の小さい順に並び替えます。
  2. 並び替えた後のデータセットの中央にくる値を見つけます。データの総数が奇数であれば、この一つの値が中央値となります。

偶数のデータセットの場合

データセットの個数が偶数の場合、中央の二つのデータの平均値を中央値とみなします。このケースでの具体的な手順は次のようになります:

  1. データを小さい順に並び替えます。
  2. 並び変えたデータセットで、中央に位置する二つの数値を見つけます。
  3. 見つけた二つの数値の平均を計算し、その結果が中央値となります。

ソフトウェアを使った中央値の求め方

データ分析では、中央値を求める際に手計算だけでなく、ソフトウェアを活用することが一般的です。特に大量のデータを扱う場合、効率的かつ正確に中央値を計算することが可能となります。ここでは、ExcelとR言語を使った中央値の求め方を紹介します。これらのソフトウェアは、データ分析を行う上で非常に重宝します。

Excelでの求め方

Excelでは、MEDIAN関数を使用して中央値を簡単に求めることができます。具体的な手順は以下の通りです。

  1. 中央値を求めたいデータをExcelのシートに入力します。
  2. 中央値を表示したいセルを選択し、「=MEDIAN(範囲)」と入力します。
  3. 「範囲」には、中央値を求めたいデータの範囲を指定します。例えば、A1:A10と入力すれば、A1セルからA10セルまでのデータの中央値が求まります。
  4. 入力後、Enterキーを押すと、指定した範囲の中央値が計算され表示されます。

ExcelのMEDIAN関数は非常にシンプルで、幅広いデータセットに対して迅速に中央値を求めることが可能です。

R言語での求め方

R言語は統計計算やデータ分析に特化したプログラミング言語で、より複雑なデータ処理が求められる場合に威力を発揮します。中央値を求める際も、R言語を用いることで柔軟性の高い分析が可能です。以下に基本的な手順を示します。

  1. R言語のコンソールまたはRスクリプトファイルに、中央値を求めたいデータのベクトルを作成します。
  2. 「median(データのベクトル)」関数を使って、データの中央値を計算します。
  3. 関数を実行すると、中央値が表示されます。

例として、「median(c(1, 3, 3, 6, 7, 8, 9))」と入力し実行すると、「6」という中央値が得られます。R言語ではデータの前処理から分析、グラフ作成まで一連の流れをシームレスに行うことができるため、中央値の計算だけでなく、より高度なデータ分析にも対応可能です。

中央値を使うメリットとデメリット

メリット

中央値は外れ値の影響を受けにくいので、データが偏っている場合や特異な値が含まれている場合でも、データセットの中心を表現するのに適しています。また、総合的な傾向を把握するのに役立つほか、データの分布が正規分布をしていない場合でも、中央値を使用することで適切な中心傾向の指標を提供できます。具体的には、所得の中央値を利用すると、平均値に比べて個々人の所得の実情をより正確に反映させることが可能です。これらの特性によって、中央値はさまざまな状況で有用な統計量として活用されています。

メリット

中央値にも欠点があります。中央値はデータ全体の構造を完全には表現できないという点にあります。例えば、分布の形状やデータの散らばり具合を把握することはできません。さらに、データセット内のすべての数値を考慮に入れずに、中央に位置する値のみを用いるため、データの詳細な情報が失われる可能性があります。これは、例えば、給与のデータを分析する際、中央値では高額給与と低額給与の情報を見落としやすくなります。そのため、全体の分布を理解するためには、平均値や分散、標準偏差など他の統計量を併用することが重要です。

中央値の活用方法

中央値は、データ分析における重要な指標の一つです。特に、外れ値の影響を受けにくいため、データの中心傾向をより正確に把握するのに役立ちます。このセクションでは、中央値を活用するいくつかの具体的な方法について紹介します。

給与データの分析

企業が従業員の給与データを分析する際、中央値は特に有用です。給与データはしばしば外れ値(例えば、非常に高い給与をもらっている役員等)を含むため、平均値だけを使用すると、実際の給与分布を正確に反映できないことがあります。中央値を使うことで、従業員の給与の中心傾向をより適切に把握できるため、給与体系の再評価や、適切な給与の調整が可能になります。

市場調査

商品やサービスの価格設定においても、中央値は重要な役割を果たします。市場に出回っている類似商品の価格を収集し、その中央値を算出することで、自社商品の価格を市場の中心価格に適切に設定することが可能です。これにより、過度に高価または廉価であることによる販売機会の損失を防ぎ、競争力のある価格設定を行うことができます。

教育分野での応用

学校や教育機関では、試験の結果や成績を分析する際に中央値を利用することが有効です。特に、クラスにおいて極端に高い成績または低い成績を持つ生徒がいる場合、平均値ではなく中央値を用いることで、クラス全体の成績の中心をより適切に把握することができます。これにより、教育プログラムの改善点を見つけやすくなり、学習指導の質の向上につながります。

不動産価格の分析

不動産市場における物件価格の分析にも中央値は役立ちます。特に、地域によっては非常に高価な物件や低価格な物件が含まれることがあるため、平均値を用いると実際の市場状況が正確に把握できない場合があります。中央値を用いることで、その地域の物件価格の中央に位置する価格を把握することが可能となり、不動産投資の判断材料として大変役立ちます。

Contributor By: 渡邉 実基

Srush株式会社のマーケティング担当者。 豊富な営業経験を経て、顧客の認知から購入に至るプロセスにおける要素分析の難しさに直面し、その解決策としてSrushとの出会いを果たす。 データ分析の力を駆使して、日本の全企業がより効果的な意思決定を行い、競争力を高めるためのパートナーでありたいと思っています。趣味はカフェ巡り

SHARE