Rの使い方
参考になるウェブサイト
- 統計ソフトRの使い方
- 統計科学研究所による統計分析フリーソフト@「R」
- Rのウェブテキスト by Nishiyama Takeshi (名古屋市立大学)
- http://www.otaru-uc.ac.jp/~nisiyama/Documents/rmanual.pdf
インストールから基礎的なところまでここで学べる
Rのインストール
- https://cran.ism.ac.jp/からRの最新版をダウンロードしてインストール.標準設定のままインストールしてOK!
- https://www.rstudio.com/からRstudioをダウンロード.このRstudioがなくてもRは使えますが,Rstudioがあるとより便利に使えると思います.このページではRstudioを使うことを前提で話を進めます.
データの形式,作り方,読み込み方法
データファイルの作り方
データはExcelでcsv形式にして,それを読み込む(※Rで直接excelしシートを読み込む方法もあるが,やや難あり).
- Excelで各種計測項目を列方向(横方向)に並べる.一番左列(通常はA列)にはサンプル番号などのサンプル固有の番号をつける.通し番号でも良い.
- 欠損データ部分はNAを入れておくこと(RはNAを理解する)
このとき,一番上の行には項目名を書いておく(項目名が2行以上にならないように注意!).また,サンプル番号の最初の行にも「ID」などと記入していくのを忘れないこと.
データの読み込み
- Rstudioで[file]-[import dataset]-[from CSV]を選択するとインポートパッケージをインストールしますかと聞かれる(初回時).
- データインポート用パッケージが無事にインストールされるとインポート用の画面が開かれる.
- インポート用画面においてい,インポートするFileをBrowseから読み込む.
- Data Previewに上記で読み込んだファイルの中身が見えていると思う(見えていない場合はファイルがある階層が深すぎるなどの問題がある).ImportOptionのところで最初の行が項目名であるならば[First Row as Names]にチェックを入れる.もし,csvではないファイルで,例えばタブ区切りなどの場合は[Delimiter]でTabを選ぶ(ほかにセミコロンとスペースを選択可能).
- Import Optionの[Name]部分にはファイルを入れる変数名を入力する.
- これで右下の[Import]を押せばデータがインポートされるはずだ.インポートされたか,Rstudio左下のconsole画面においてインポート時に指定した変数名を入力してみよう.無事にデータが表示されればデータ読み込み成功である.
※このとき,通常はマイドキュメントがホームとなってそこからの相対的なフォルダー位置を示すことになるが,日本語フォルダなどを介したり,ファイルが階層の深いところにある場合はエラーがでることがある.Rで利用するデータはマイドキュメント(Windowsの場合)直下の英語名のフォルダの使用を推奨する.
グラフの作成方法
ヒストグラムの作成
ヒストグラム作成で参考になるウェブサイト
- http://rplus.wb-nahce.info/rsemi_stat_basic/rhistogram.html
- http://stat.biopapyrus.net/graph/hist.html
- まずはヒストグラムを作成してみよう.ヒストグラムは読み込んだファイルのある列でつくるので,どの列のヒストグラムをつくるか指定してあげないといけない.指定は[変数名$列名]で行う.
- ヒストグラムをつくるコマンドはhistなので,コンソールにhist(変数名$列名)を入力してみよう.うまくいけばRstudio右下の画面にヒストグラムが出てくるはずだ.この時点でExcelで作るよりはるかに綺麗な図になっているはずだ.
- breaks:階級の横幅を指定するオプション.
ヒストグラムのオプション
beaks = 10とすれば10等分.
breaks = c(0,5,30,90)とすればその数値で分割されます.
breaks = "Sturges" とすればSturgesというアルゴリズムで分割されます.Sturgesがデフォルトのアルゴリズムです.ほかにScott,FD,Freedman-Diacoinsがある.詳しくは次項で述べる.
breaks = seq (0,100, 5)とすると0から100の範囲で5ずつ分けてヒストグラムを作るなんてこともできます.複数の標本群のヒストグラムを同じ横軸で比べたいときに重宝するオプションです.
ヒストグラムの階級数
ヒストグラムの階級数はどのように決定するのだ良いだろうか.なんらかの式に従っても良いし,解析者が任意に決めても良い.データをどう表現したいかしだいである.とりあえず最初はRのデフォルトでよいだろう.RでデフォルトになっているのはSturges(スタージェス)の式である.これは階級数k=1+log2Nであらわされる(Nがはサンプル数).私が昔授業で習った式はk=1+3.3logNである.
グラフの保存
- Rstudio右下画面(グラフが表示されている)において,[Export]を選択し,グラフの保存形式を選べる.このあとにIllustratorなどでグラフを整えたい場合(色つけするなど),Metafileで保存しておくと良いだろう.イラレにもっていったあとにクリッピングマスクの解除を何回かやる必要があるが,綺麗なグラフをそのままイラレで加工可能になる.Rで作成したグラフそのままで良ければ[Save as Image]で適当なファイル形式(PNGやjpeg)で保存してやれば良い.
Rで正規分布の確認
Rにはデータ群が正規分布かどうかの判定を行うための関数が最初から用意されている.