統計学の概要
統計学の分類(統計手法による分類)
(1)記述統計学(古典統計学)
収集したデータの要約統計量(平均、分散など)を計算して分布を明らかにする事により、データの示す傾向、性質、規則性を知ること。
すなわち、データの要約を行うこと。

(2)推計統計統計学(近代統計学)
標本集団の要約値から母集団の要約値を確率的に推測し、それによって母集団の様子を記述すること。
 @検定
    母平均μが実質科学的に意味のある基準値μ0と等しいか等しくないかをYes or Noで推測する手法。

 A推定
    μが実際にどれ位の値なのかを推測する手法。


統計学で用いられる用語
母集団(ぼしゅうだん)
統計学的推定で基本として仮定する、ある要素の集合であって、これからランダムな標本を抽出して観察し、その結果から逆に母集団を推定するという形で用いる。

母数(ぼすう)
母集団の要約値を母数という。
確率論および統計学における用語で、確率分布を特徴付ける数のこと。
平均値のように分布の中心位置を表す母数を「位置母数(location parameter)」、標準偏差のように分布のバラツキぐあいを表す母数を「尺度母数(scale parameter)」という。

標本(sample)
母集団の部分集合のこと。
の母集団から部分集合を対応させる規則(可測関数)を標本抽出と呼ぶ。

標本空間
確率論においてはただの集合であり Ω と書く。
空集合でない集合ならなんでも標本空間としてよい。
確率を問題としている領域において、ランダムに起こりうる現象の原因をすべて集めてきた集合である。このため、通常は非常に巨大な集合となる。
この領域における確率論的な現象は「Ω からひとつの元 ω が選ばれるが、どの元が選ばれたのか分からない」ということがすべてのランダムさの原因になるように記述される。

事象

統計学では,現象のことを事象と呼ぶ。
標本空間の部分集合のうち特別に選ばれたものを事象と呼ぶ。

自由度(じゆうど, Degree-of-freedom)
一般に、変数のうち独立に選べるものの数、すなわち、全変数の数からそれら相互間に成り立つ関係式(束縛条件、拘束条件)の数を引いたものである。
自由度 1、1 自由度などと表現する。

分布
ある事象がさまざまに起こることを“分布する”という。
観測されたデータの羅列から,元の状態の内容を復元・整理したもの。
表や図に整理してわかりやすくする。
    表: 度数分布表
    図: ヒストグラム

絶対度数と相対度数
 絶対度数=ある現象が,観測中に何回起こったか
 相対度数=すべての起こりうる現象に対し,どの位の割合で起こるか

確率
ある現象が起こる確かさの程度を割合で表したもの
0から1までの数字で表す。

確率測度
各事象に対して 0 以上 1 以下の数を対応させる関数を確率測度といい P と書き、事象 A の起こる確率は P(A) となる。
Ω 自体は常に全事象と呼ばれる事象であり、全事象の起こる確率は 1 でなければならない。
P も勝手に決めていい関数であるが、確率測度の公理を満たすように定める必要がある。

確率空間
標本空間 Ω と事象の全体 F と確率測度 P の組を確率空間と呼ぶ。確率の問題を確率論的に定式化するということは、この確率空間を定めることである。
しかし、通常はその問題にはどのような確率変数が存在するかということを調査し、必要となる確率変数をすべて含むことができるぐらい巨大な Ω を定める。

確率変数
確率変数とは、どのような値をとるか、何らかの確率法則によって決まる変数のことをいう。
種々の値をとる確率が定まる変量を確率変数と呼ぶ。
例えばある変数Xに対して,X=xiになる(事象の)確率piが与えられているとき,そのXのことを確率変数という。
確率変数Xのとる値が離散的である場合は離散確率変数、連続的である場合は連続確率変数という。

確率分布
確率分布とは、確率変数がある値になる確率のことをいう。
確率変数の各々の値に対して、その起こりやすさを記述するもの。
その確率分布が定義されている集合全体に対する確率は1になる。


データの種類と統計手法の関係
データの種類
データの種類
統計学で取り扱うデータの内容は、大雑把にいって計量値(測ったもの)計数値(数えたもの)に大別される。

データー尺度水準
データ(変数)の尺度はふつう次のような種類(水準)に分類される。
尺度水準によって、統計に用いるべき要約統計量や統計検定法が異なる。


尺度によるデータの分類
1:計量値(measured)
    測る性質のデータのことで、単に「データ」といえば大方の場合このデータをさす。

 @計量尺度(metric scale)
    データが具体的な連続した数値で与えられ、数値と数値の間隔が等しいもの。
    数値と数値の間隔が等しいという意味は四則演算を行うことができるという意味。
      1)比例尺度…絶対0点あり
         体長や体重のデータのように、等間隔の“目盛”をもち、さらに基準としての“ゼロ点”をもつ。
         基準“ゼロ点”から計測することにより,各データ値の「比率」が意味をもつ。
         たとえば,「体長100cm」は「体長50cm」の“2倍”であるという表現には意味がある
      2)間隔尺度…絶対0点なし
            
 A順序尺度(ordinal、ranking scale)
     データに順番をつけたもの。
     順位データのように,数直線上に大小関係にしたがって並べることはできても,間隔が必ずしも等しくないもの。
     通常の四則演算が行えない。

2:計数値(enumerated)
    数える性質のデータ。

 @順序分類尺度(ordered-categorical scale)
    重症・中等症・軽症といった疾患の重症度のように、カテゴリー間に実質科学的な順序が付けられるデータ。
    このようなデータは四則演算が行えず、平均値や標準偏差を計算することができない。

 A分類尺度(または名義尺度:categorical、nominal scale)
    有・無、男・女、日・中・韓・他などのように、カテゴリー間に実質科学的な順序が付けられないデータのこと。
    分類データとも呼ばれる。
    四則演算が行えず、平均値や標準偏差を計算できない。

データ 計量値 計量尺度=等間隔 絶対0点あり…比例尺度 連続量
絶対0点なし…間隔尺度
順序尺度=不等間隔 離散量
計数値 順序分類尺度=順序あり
名義尺度=順序なし


パラメトリック検定とノンパラメトリック検定
パラメトリック検定(parametric test)
  平均値を比較する検定法

ノンパラメトリック検定non-parametric test
  データをいったん「順位」に置き換えて、平均順位(=中央値)を比較する検定法

parametric test non-parametric test
目的 平均値を比較 平均順位(=中央値)を比較
分布 正規分布 分布に依存しない
分散 等分散 等分散でなくても良い
変数 間隔尺度である連続変数
比率尺度である連続変数
離散値のある順序変数
対数
絶対0の定まらない体温、pHなど


標本の数によるデータの分類
標本の数と、データに対応があるかないかということによってデータは分類される。

1標本(one sample)
1群から得られた1種類のデータのこと。
最も基本的なデータで、計量値の場合には基準値との検定や平均値の推定などを、計数値の場合には基準出現度数との検定や出現度数の推定などを行う。
   Paired t-test:対応のあるt検定・・・・1標本t検定

2標本(two sample)
2標本以上ではデータに対応があるかないかで扱いが異なってくる。


関連性による分類
対応のあるデータ(関連2標本)
同じ被験者から同時にまたは時期を変えて2つ以上のデータが得られた場合のように、お互いに共通の基盤があるデータのこと。
   折れ線グラフが望ましい。
   Paired t-test

対応のないデータ(独立2標本)
別々の薬を投与した別々の患者群のようにお互いに共通の基盤がないデータのこと。
統計学上は共通の基盤があるデータには相関関係があり、共通の基盤がないデータには相関関係がないつまり独立であると考える。
   棒グラフが望ましい
   パラメトリック・・・・・・・・Student t-test(スチューデントのt検定=2標本t検定)
   ノンパラメトリック・・・・・Mann-Whitney's U test(マン・ホイットニ検定)
                    =Wilcoxon rank sum test(注:Wilcoxon signed rank testではない。)



データの種類と統計手法のまとめ

計量尺度 順序尺度・順序分類尺度 分類尺度
1標本 平均値の検定

1標本t検定
Wilcoxonの1標本検定 比率の検定
   二項検定
   ポアソン検定

χ2適合度検定(1×n)
2標本 関連2標本 1標本t検定


相関分析
回帰分析
Wilcoxon符号付順位和検定

Spearmanの順位相関係数
符号検定
 マクネマー(McNemar)の検定

 Cochran-Armitageの傾向検定
独立2標本 2標本t検定

F検定(等分散の検定)
Wilcoxon順位和検定

Mann-WhitneyのU検定
χ2独立性検定(2×n)
Fisher直接確率計算法による検定
Mantel-Haenszelの検定
多標本 関連多標本 二元配置分散分析

Bartlett検定
Friedmanの検定+多重比較
拡張Mantel検定
一般化拡張マンテル検定
CochranのQ検定
Mantel-Haenszelの検定
多変量解析
生命表解析
独立多標本 一元配置分散分析

Bartlett検定
クリスカル・ウォーリス(Kruskal-Wallis)のH検定
田口の累積法
χ2独立性検定(m×n)
佐藤の無相関検定


参考資料
「統計学要論」 (共立出版 1975)
「バイオサイエンスの統計学」 (南江堂 1994)
「医学・公衆衛生学のための統計学入門」 (南江堂 1988)
「図解 確率・統計の仕組みがわかる本」 (技術評論社 2008 長谷川勝也)
「Excelでここまでできる統計解析」 (日本規格協会 2007 今里健一郎 森田浩)
「エビデンス主義 統計数値から常識のウソを見抜く」 (角川SSコミュニケーションズ 2009 和田秀樹)


 「ファンタジ−米子・山陰の古代史」は、よなごキッズ.COMの姉妹サイトです
   米子(西伯耆)・山陰の古代史   







 統計学(statistics)について 米子(西伯耆)・山陰の古代史
統計とは
ある現象を調査する場合に、個々の現象を数値化し、その全体的な傾向を数量で把握すること。

統計学(statistics)とは
統計に関する研究を行う学問。
具体的には、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質規則性不規則性を見いだための方法。