R言語を使って統計を取ったりデータ分析をしたりするためのまず第一歩が、データファイルの読み込みです。ソフトウェアRStudioには読み込みボタンがついていて、ファイルの読み込みをボタンのクリックで行うこともできますが、read.csv()
というコードを使う方法も簡単です。この記事では、合わせてエクセルファイルを読む方法も説明していきます。
(このR言語シリーズでは、現在イギリス教育テクノロジー研究所の博士課程でPhD取得を目指す筆者が、統計やデータ分析で使っているR言語のメモを共有しています。Rの基礎は以下の記事にまとめてありますので、よろしければ合わせてご活用ください。)
[blogcard url = “https://yuko.tv/how-to-use-r/”]
csvファイルの読み込み方
read.csv関数でファイルの読み込み
csvファイルの読み込み方はいたってシンプルです。read.csv関数を利用すれば、簡単にファイルを読み込むことができます。
read.csv("C:/Users/ユーザー名/Desktop/ファイル名.csv")
read.csv関数の丸括弧の中に入れるファイルパスは「” “」で括るようにしてください。
ファイルパスの見つけ方
ファイルパスはファイルがある場所を示す住所のようなものです。Macでファイルのファイルパスをコピーするためには、ファインダーの「表示」メニューの中から「パスバーを表示」を選択し、ファインダーウィンドウの一番下に表示されたパスバーのファイルを右クリックして、「パスネームをコピー」を選択します。
Windowsでファイルパスをコピーするためには、ファイルエクスプローラー内に表示された該当ファイルをシフトキーを押しながら右クリックして「パスとしてコピー」を選択します。Windowsの場合、「C:/Users/ユーザー名/Desktop/ファイル名.csv」などといったファイルパスの「/」が「\」にとして表示されています。R言語で使う場合は、ファイルパスの「\」を「/」に直しておきましょう。
読み込むファイルのヘッダー
read.csv関数にはいくつかカスタマイズのオプションがあります。その一つがヘッダーに関するもの。デフォルトはFALSEになっていますが、以下のコードを使って値をTRUEに変えると読み込むファイルの列(Column)のヘッダーをファイルの最初の行の値に変えることができます。
read.csv("C:/Users/ユーザー名/Desktop/ファイル名.csv", header = TRUE)
逆にこの値をFALSEとすると、列のヘッダーは左から順にV1、V2、V3・・・となります。読み込むファイルの列に名前などがついている場合はTRUEに、ついていない場合はFALSEに設定しておきましょう。
エクセルファイルの読み込み
readxlライブラリーの読み込み
csvファイルの時とは少し異なり、R言語でエクセルファイルを読めるようにするには「readxl」ライブラリーが必要です。まずは以下のコードを使ってライブラリーを読み込みます。
library(readxl)
これを実行すると、エクセルファイルを読み込める状態になります。
read_excel関数でファイルの読み込み
ライブラリーの準備ができたところで、以下のコードを使ってエクセルファイルを読み込みます。ファイルパスの取得の仕方は上に書いた通りです。関数の後の丸括弧の中にファイルパスを書き込みます。
read_excel("C:/Users/ユーザー名/Desktop/ファイル名.xlsx")
こちらもファイルパスを「” “」で括るのを忘れないようにしてください。
列のタイプを指定する
読み込むデータの値には様々なタイプのものがあります。数値なのか、ブーリアンなのか、あるいは言葉なのか、といったことです。データファイルを読み込む際に、この種類を取り違えて読み込んでしまうと、計算ができずに困ってしまうこともあります。それを避けるために、列の種類を意図的に指定することができます。
列が3つあるデータファイルを読み込むのであれば、以下のコードのように列の種類を指定することでデータ値の取り間違えを防ぐことができます。
read_excel("C:/Users/ユーザー名/Desktop/ファイル名.xlsx", col_types = c("numeric", "logical", "text"))
列の種類にはどんなものがある?
エクセルファイルをR Studioに読み込む際に必要な列の種類と、エクセル上の列の種類の対応は以下のようになります。以下の表の一番右は、R言語でのタイプの名前になります。
読み込みの際の列の種類 | エクセル上の列の種類 | R言語でのタイプ名 |
“logical” | boolean | logical |
“numeric” | numeric | numeric |
“date” | datetime | POSIXct |
“text” | text | character |
“list” | – | list |
エクセルファイルを読み込んだ後の確認
R Studioに読み込んだエクセルのデータが、指定した通りの種類の値として読み込まれているかを確認するには、以下のコードを使うと便利です。
class(ファイル名$列の名前)
いかがでしたでしょうか?データファイルの読み込みはR言語を使ったデータ分析の最初の第一歩ですが、思い通り取り込めていないと分析過程で様々なトラブルにつながることもあるので、しっかりやっておきたいところですよね。このページでご紹介した簡単なコードでファイル読み込みがうまく行くように祈っています!