はじめに

今年の目標はデータサイエンスを学ぶこと.

coursera でデータサイエンスのシリーズ講座があるので, うけてみることにしました.

今回は, その中の 2 つを同時にうけた.

https://www.youtube.com/playlist>}} PLmTpraKlPXDSPbP2L8MYZoweGSzi9gNTr

coursera の データサイエンティストシリーズの紹介の講座

データサイエンテス関連の講座が去年に公開された.

去年はあまり余裕が無かったけれども, 今年はちょっと背伸びをして受けてみる.

データサイエンスの分野が細かく 9 つに分けられて講座として用意されて いる.

  • The Data Scientist’s Toolbox
  • R Programming
  • Getting and Cleaning Data
  • Exploratory Data Analysis
  • Reproducible Research
  • Statistical Inference
  • Regression Models
  • Practical Machine Learning
  • Developing Data Products

ひとつの講座が 1 ヶ月単位. このシリーズの特徴は, 毎月同じ講座が開 講されていること. 半年や一年に一回開講される他の講座に比べると, 珍しい. 検索をかけると, 一年中トップに検索結果が表示されるので, よく目につく.

毎月 1 つの講座をうけようとは思うものの, 終わるまで 9 ヶ月かかりそうな.

Data Scientist’s Toolbox

この講座は, シリーズのはじめにうける必要がある.

2 つのトピックを扱う.

  • データサイエンスの概要と, シリーズの別の講座の詳しいガイダンス.
  • データサイエンティストに必要なツールを身につける

以下のツールを利用する.

  • R
  • RStudio
  • git
  • github

しかし, すべてのツールを利用したことがあったので, なんと 2 時間で 終わってしまった! あっけない.

この講座は, データサイエンスシリーズのオリエンテーションだった.

R Programming

シリーズを通じて R を利用する用なので, まずは R 言語を学ぶ.

  • R の基本文法
  • R の基本データ構造
  • R の 関数型の性質 (apply 系)
  • デバッグ方法・プロファイリング方法
  • Random 生成によるシミュレーション

課題

課題は, csv ファイルからデータを読み出して, 編集して表示するようなもの. 統計的なはなしはほとんどでてこない. せいぜい平均程度.

言語の文法とデータの扱い型の説明に終始している.

感想

week1,2 は基本文法を次から次へと紹介されるので, 頭が追いつかない. 少し忘れた.

講座では, R の関数型の性質が強く説明されていたように感じた. apply の説明に week3 のほとんどが費やされるなど.

  • 値は代入では無くて, 束縛.
  • loop を利用するよりも, apply を利用するとプログラムが短くなる.

なんとなくだけれども R を身につけた. 文法は抑えたので, あとは R の関数の使い方を覚えていけば大抵のことはできる気がする.

R を利用すると, 大きな CSV データが簡単に処理できることに驚いた.

いままで, Excel しか知らなかった人間にとって, データをプログラムで解析する という新しい視点を手に入れた. こういう, 新しい知見を得ることも, MOOC に取り組む一つの目的だ.