はじめに
R を利用してグラフを書く方法を学ぶために, coursera で Exploratory Data Analysis を受けた.
R を利用してグラフを書く方を学べる内容
この講座は, 探索的データ解析を学ぶ講座. 探索的データ解析とは, 未知の関係性を データの可視化 によって探る方法.
といっても, 前半は グラフの書き方を学ぶ.
3 つの代表的なライブラリが紹介される.
- Base: “artist’s palette” model
- Lattice: Entire plot specified by one function; conditioning
- ggplot2: Mixes elements of Base and Lattice
後半は, クラスタ分析を扱う. これもデータを可視化することで, データの関係性を調べる方法.
Exploratory Data Analysis:
未知の関係性を見つけることが目的.
可視化することで関係性を見つける.
- To understand data properties
- To find patterns in data
- To suggest modeling strategies
- To “debug” analyses
基本的な手法
- Five-number summary
- Histograms
- Density plot (Scatter Plot)
- Boxplots (for Numerical Data, ヒゲ)
- Barplot (for categorical Data)
感想
部内意識調査アンケート
この講座をとったのは, 職場でアンケート調査をする機会があったから. これは, 学んだ統計的手法を生かす絶好の機会だと思った.
集計したデータをまとめて可視化するスキルの取得か急務だったので, 取り組んだ. こういう, 目的があるときは知識の吸収がはかどる ( ^ω^ )
今まで, R に標準搭載されていた base package で グラフの描写を していたのだが, ggplot2 の qplot をつかうことで良さげなグラフがかける ことに喜んだ. 参考書には, 以下を利用した.
しかし, Excel に嫉妬…
R でグラフを書くには, スクリプトで設定を指定する必要があるので, 使いこなすまでに時間がかかる. なにを指定すれば, どんな図が生成され るのか, いまいちわからない. 試行錯誤しながらも, なんども試しつつ, ようやく一つのグラフをプロットできる. そんな繰り返しだ.
アンケート結果をなんとか R をつかって棒グラフで可視化してみた. しかし, すでに同僚が Excel をつかって帯グラフと折れ線グラフを ちゃちゃっと作成していた…
これには, ショックを受けた. 自分は, 結構苦労して R でグラフ をかけるようになるまでにけっこう時間がかかった. しかし, Excel つかえば, だれでも簡単に, それなりのグラフが作成できてしまうのだ.
Excel すごいと思うとともに, 嫉妬…
もしかしたら, 本格的なデータ解析をする場合以外は, R は必要ないのかも しれない.普通の一般人は, R をつかうよりも Excel を利用するほうが, 学習対効果においてよいのではないかと思う.
CLI と GUI
しかし, 自分はすでに中途半端に R を学んでしまった. こうなったら, い くところまでいこう. Excel にはもう戻れない, 戻らない!!
R と Excel の関係は, CLI と GUI の関係と同じ.
CLI は身につけるまでは苦労するが, 一旦身につければ GUi よりも高い 生産性が出せると信じている.