統計解析R 入門講座 vol.5 〜データを読み込もう〜

By terada, 2016年8月27日


さて前回では、統計で最も重要と言っても良いヒストグラムの描き方をご紹介しました。今回は様々な統計データをRで読み込んで簡単な解析をしてみましょう! 最近は様々なサイトで多くの統計データを公開しています。これらのデータは個人で集めることはとても大変ですので、うまく活用してRになれる練習をしてみましょう。

オープンデータの活用

オープンデータとは、多くの人が利用できるよう、二次利用が可能なルールのもとに公開されたデータのことです。近年は政府がオープンデータの活用を推進していることもあり、様々な機関が個人が収集することが難しいデータを公開しています。今回はその一例として気象庁のデータをダウンロードして、Rで読み込んでみましょう。

気象庁 過去の気象データ・ダウンロード (http://www.data.jma.go.jp/gmd/risk/obsdl/)

上記のサイトにから気象庁が収集したデータをダウンロードすることができます。手順としては①地点を選ぶ ②項目を選ぶ ③機関を選ぶ という3点を行い、画面右側にある「CSVファイルをダウンロード」というアイコンをクリックするだけです。ちなみにファイルはcsvファイルという形式でダウンロードされます。

csvファイルとは、Excelなどの表計算ソフトやデータベースソフトでよく使われる、データをカンマで区切って保存しているファイルです。このファイルはテキストエディタでも閲覧・編集できるとても便利なファイル形式です。今回はこのファイルをRで読み込んでみましょう。

csvファイルの読み込み

先ほどの気象庁のページからダウンロードしたファイルはおそらくファイル名が”data.csv”となっていると思います。このファイルを適当なフォルダに移動してRで読み込んで見ましょう。

ht = read.csv("~/data.csv", header = T)

“read.csv”という関数はcvsを読み込む関数です。”header = T”とは1行目の列名を読み込むかどうかの指定です (Tをしているすると読み込みます)。Windows PCをお使いの方は、ファイルが置いてあるフォルダの指定を書き換えて読み込んでみてください。ちなみにに”不正なマルチバイト文字があります”などのエラーが出るときはファイルの文字コードが原因である可能性が高いです。RはWindowsではShift-JIS、MacではUTF-8で読み込み可能ですので、お使いの環境に合わせて文字コードを変更してみください。

さてここで、過去約140年分の8月26日の最高気温をダウンロードして、ファイルを読み込んだ例をご紹介します。下図がデータを読み込んだ時のRの画面です。左上にはファイルのデータがリストとして表示されていることが確認できます。これは画面右上に表示されている変数名”ht”の右側にある四角いアイコンをクリックすると表示されるので試してみてください。

R01

このようにR言語ではcsvファイルを簡単に読み込むことができますので、後は今までどおりヒストグラムなどを表示することもすぐにできます。”read.csv”で読み込んだデータはデータフレームという形式で読み込まれるので、下の様に入力してヒストグラムを表示することができます。このブログで紹介したR Studioを使用している場合は”hits(ht”の後に”$”マークを表示した時点で列名のリストがポップアップするとおもます。そこでヒストグラムで表示したい列を選択することで簡単に図をプロットすることができます。

hist(ht$最高気温)

ヒストグラムも表示方法も何通りもありますので、使いやすい方法を選択してください!
さて今回はデータの読み込みについて簡単な例をご紹介しました。多くの政府機関がオープンデータを公開してますので、ぜひ積極的に活用してみてください。R言語のよい練習になるおと思います!

logo2

田園都市線三軒茶屋、セミナー・研修・講座のSoraoto。様々なセミナーやサイエンスカフェなどのイベントを開催しています。また英会話教室を始めとする、大人の学習講座もありますので、ぜひご参加ください。