投稿

5月, 2018の投稿を表示しています

無相関検定

イメージ
相関係数を先日紹介しましたが、無相関検定の事を書き忘れていました。 無相関係数の帰無仮説は「相関係数が0である」となります。 つまり、無相関検定で分かることは「相関関係があるかどうか」であって相関の強さの程度が分かるものではありません。 という事で、あまり個人的には使うことのない検定だと思います。 相関係数はt検定などと違い関係性の強さが分かる検定なので、相関関係があるかどうかよりもどの程度あるかが大切です。 無相関検定を使う時は、相関係数が小さく相関関係があると言えるかどうか微妙な時だと思います。 前置きが長くなりましたが、無相関検定の使い方は簡単です。 以下の通りです。 cor.test(変数1,変数2) 実際に使ってみると、下記図のようになります。 ここで言っている無相関検定はパーソンズの無相関検定なので、最初の行にそれが書いてあります。 最低限見るべきポイントは、 p-value:P値 cor:相関係数 今回の例では、0.01%水準で相関関係があると言えますね。 まぁ、相関係数が.998なので当然ですが。 ちなみに、RやExcelで2.2e-16はと表示された場合は、0.00000000000000022ということです。 eはエラーを意味していて、表示しきれない0が何個あるかという事を示しています。 2e5だったら、200000 2e-5だったら、0.00002を示しています。 無相関検定の厄介なところは、相関係数のように一気に算出できないことです。 1つひとつ算出しなければなりません。 しかし、for関数を使えばなんとかなりますが、それはいつか書こうと思います。

相関係数

イメージ
さて、今回は分析をやる際の基本である相関をやってみましょう。 相関は極めて簡単なので、サクッといってみましょう!! データは以前subsetの回でご紹介したデータを使ってみます。 これですね。 相関係数を出すのは、簡単です。 cor(変数1,変数2) 実際に、やってみるとこんな感じです。 相関メチャ高い!!! まぁ、擬似的に作ったデータなので当然なんですが... ちなみに、相関係数の大体の見方は下記の通りです。 .00~.20→ほとんど相関がない .20~.40→弱い相関がある .40~.70→比較的強い相関がある .70~1.0→強い相関がある 以上が基本の使い方になります。 しかし、このやり方では多数の変数の相関係数を一気に算出したい場合には手間がかかってしまします。 そんな時は、こうします。 これは、dataの3行目から8行目の変数の全ての組み合わせでの相関変数(相関行列)を出力してくれます。 これでたくさん変数があっても、一瞬で相関係数が分かりますね。 相関係数を算出するときに発生するエラーの大抵の原因は欠損値です。 欠損値があると相関係数が正常に算出されません。 そのために、欠損値の処理を置こうなオプションがcor関数にはあります。 代表的なものは、下記2点になります。 pairwise.obs・・・欠損値とペアになっているものだけを、使わない。ペアで欠損値の処理を行うので、最大限にデータを使える。 と、書きましたが自分でもうまく書けていないことがわかるので、もう少し丁寧に説明します。 相関係数のイメージは、下記図のようにx軸とy軸の値でプロットしていって計算します。欠損値があった場合pairwise.obsを使うとこのプロットの点が1つなくなる感じですね。 complete.obs・・・欠損のある行は使わない。 つまり、pairwise.obsよりもデータが大きく減ってしまうことがあります。na.omit関数に似ていますね。使い方を気をつけないと一気にデータ数が減ってしまいますね。 基本的には、pairwise.obs関数を使えば問題ないです。 使い方は以下の通りで、最後に引数として追加