データを変換する

実践的な問題

  • 定義:変換は変数の測定スケールを変更する数学的操作です。
  • 分散の安定化:例えば対数、平方根
  • 正規化:例えばポワソンデータに対する平方根、確率に対する対数。
  • 外れ値の影響を減らす:例えば逆数。
  • 測定尺度をより意味のあるものにする:例えば絶対リスク減少から治療に必要な数。
  • 関係を直線化する:例えば体重は長さの3乗に比例、骨強度は長さの2乗に比例。
  • 負の値は対数および平方根変換で問題になっています。 この問題を克服するために、対数または平方根を取る前に元の値に適切な定数を追加することができる。定数の選択については統計学者の助言を求めることが最善である。
  • 変換の累乗(1/x², 1/x, ln(x), sqr(x), x²)は、分布の右側尾部に引き込む効果が増加します。

    多くの統計手法は、特定の種類の分布、通常は正規分布に従うデータを必要とします。 すべてのオブザベーションは正規分布に従う母集団から来る必要があります。 オブザベーションのグループは、同じ分散または標準偏差を持つ母集団から来る必要があります。 分布を正規化する変換は、一般的に分散をより均一にし、その逆も同様です。

    正規分布を持つ集団がランダムにサンプルされる場合、サンプルの平均はサンプルの標準偏差と相関がありません。 これは正規化変換が分散を一様にする理由の一部を説明しています。 中心極限定理(多数のサンプルの平均は正規分布に従う)はこの状況を理解する鍵です。

    多くの生物医学的観察は異なる影響の産物であり、たとえば血管の抵抗と心臓からの出力は、血圧に最も密接に関連する影響のうちの 2 つです。 数学の用語では、これらの影響は通常、全体的な影響を与えるために掛け合わされます。したがって、全体的な影響の対数を取ると、これは個々の影響の合計になります。 中心極限定理は、このようにいくつかの影響の積の対数が正規分布に従うことを規定しています。

    もう一つの一般的なルールは、平均と分散の関係は通常単純で、分散はグループの平均、二乗平均、平均のx乗に比例するなどです。 この関係を打ち消し、平均を分散から独立させるために変換が使用されます。 最も一般的な状況は、分散が平均の2乗に比例する(つまり標準偏差が平均に比例する)ことで、ここでは対数変換が使われます(例:血清コレステロール)。 平方根変換は、分散が平均に比例する場合、例えば、ポアソン分布のデータで使用されます。 時間的、空間的にカウントされる観測値(例えば、ある都市における1年間の髄膜炎菌性髄膜炎の症例)は、しばしばポアソン分布に従います;ここでは、平均は分散に等しくなります。 血清クレアチニンのような非常に変動しやすい量では、分散はしばしば標準偏差の2乗に比例します(つまり、平均は4のべき乗);ここでは逆変換(1/X)が使われます。 そして、変換されたデータに対して一般的な統計手法を用いることができる。 しかし、そのようなテストの結果の一部だけがデータの元の測定尺度に戻すことができ、残りは変換された変数で表現されなければなりません(例えば、回帰モデルにおける予測因子としてのlog(血清トリグリセリド))。 逆変換された統計量の例は幾何平均とその信頼区間です。対数変換されたデータの平均の反比例は幾何平均で、その信頼区間は対数変換されたデータの平均の信頼区間の反比例になります

コメントを残す

メールアドレスが公開されることはありません。