01 Feb 2015, 06:58

Coursera で R 入門! Data Scientist の講座 2 つ

はじめに

今年の目標はデータサイエンスを学ぶこと.

coursera でデータサイエンスのシリーズ講座があるので, うけてみることにしました.

今回は, その中の 2 つを同時にうけた.

  <div id="outline-container-unnumbered-2" class="outline-2">
    <h2 id="unnumbered-2">
      Coursera の データサイエンティストシリーズの紹介の講座
    </h2>

    <div class="outline-text-2" id="text-unnumbered-2">
      <p>
        データサイエンテス関連の講座が去年に公開された.
      </p>

      <ul class="org-ul">
        <li>
          <a href="https://www.coursera.org/specialization/jhudatascience/1">Data Science &#8211; Specialization | Coursera</a>
        </li>
      </ul>

      <p>
        去年はあまり余裕が無かったけれども, 今年はちょっと背伸びをして受けてみる.
      </p>

      <p>
        データサイエンスの分野が細かく 9 つに分けられて講座として用意されて いる.
      </p>

      <ol class="org-ol">
        <li>
          The Data Scientist&#8217;s Toolbox
        </li>
        <li>
          R Programming
        </li>
        <li>
          Getting and Cleaning Data
        </li>
        <li>
          Exploratory Data Analysis
        </li>
        <li>
          Reproducible Research
        </li>
        <li>
          Statistical Inference
        </li>
        <li>
          Regression Models
        </li>
        <li>
          Practical Machine Learning
        </li>
        <li>
          Developing Data Products
        </li>
      </ol>

      <p>
        ひとつの講座が 1 ヶ月単位. このシリーズの特徴は, 毎月同じ講座が開 講されていること. 半年や一年に一回開講される他の講座に比べると, 珍しい. 検索をかけると, 一年中トップに検索結果が表示されるので, よく目につく.
      </p>

      <p>
        毎月 1 つの講座をうけようとは思うものの, 終わるまで 9 ヶ月かかりそうな&#x2026;
      </p>
    </div>
  </div>

  <div id="outline-container-unnumbered-3" class="outline-2">
    <h2 id="unnumbered-3">
      Data Scientist&#8217;s Toolbox
    </h2>

    <div class="outline-text-2" id="text-unnumbered-3">
      <p>
        この講座は, シリーズのはじめにうける必要がある.
      </p>

      <ul class="org-ul">
        <li>
          <p>
            <a href="https://www.coursera.org/course/datascitoolbox">The Data Scientist&#8217;s Toolbox</a>
          </p>

          <p>
            2 つのトピックを扱う.
          </p>

          <ul class="org-ul">
            <li>
              データサイエンスの概要と, シリーズの別の講座の詳しいガイダンス.
            </li>
            <li>
              データサイエンティストに必要なツールを身につける
            </li>
          </ul>

          <p>
            以下のツールを利用する.
          </p>

          <ul class="org-ul">
            <li>
              R
            </li>
            <li>
              RStudio
            </li>
            <li>
              git
            </li>
            <li>
              github
            </li>
          </ul>

          <p>
            しかし, すべてのツールを利用したことがあったので, なんと 2 時間で 終わってしまった! あっけない.
          </p>

          <p>
            この講座は, データサイエンスシリーズのオリエンテーションだった.
          </p>
        </li>
      </ul>
    </div>
  </div>

  <div id="outline-container-unnumbered-4" class="outline-2">
    <h2 id="unnumbered-4">
      R Programming
    </h2>

    <div class="outline-text-2" id="text-unnumbered-4">
      <p>
        シリーズを通じて R を利用する用なので, まずは R 言語を学ぶ.
      </p>

      <ul class="org-ul">
        <li>
          R の基本文法
        </li>
        <li>
          R の基本データ構造
        </li>
        <li>
          R の 関数型の性質 (apply 系)
        </li>
        <li>
          デバッグ方法・プロファイリング方法
        </li>
        <li>
          Random 生成によるシミュレーション
        </li>
      </ul>
    </div>

    <div id="outline-container-unnumbered-5" class="outline-3">
      <h3 id="unnumbered-5">
        課題
      </h3>

      <div class="outline-text-3" id="text-unnumbered-5">
        <p>
          課題は, csv ファイルからデータを読み出して, 編集して表示するようなもの. 統計的なはなしはほとんどでてこない. せいぜい平均程度.
        </p>

        <p>
          言語の文法とデータの扱い型の説明に終始している.
        </p>
      </div>
    </div>

    <div id="outline-container-unnumbered-6" class="outline-3">
      <h3 id="unnumbered-6">
        感想
      </h3>

      <div class="outline-text-3" id="text-unnumbered-6">
        <p>
          week1,2 は基本文法を次から次へと紹介されるので, 頭が追いつかない. 少し忘れた.
        </p>

        <p>
          講座では, R の関数型の性質が強く説明されていたように感じた. apply の説明に week3 のほとんどが費やされるなど.
        </p>

        <ul class="org-ul">
          <li>
            値は代入では無くて, 束縛.
          </li>
          <li>
            loop を利用するよりも, apply を利用するとプログラムが短くなる.
          </li>
        </ul>

        <p>
          なんとなくだけれども R を身につけた. 文法は抑えたので, あとは R の関数の使い方を覚えていけば大抵のことはできる気がする.
        </p>

        <p>
          R を利用すると, 大きな CSV データが簡単に処理できることに驚いた.
        </p>

        <p>
          いままで, Excel しか知らなかった人間にとって, <b>データをプログラムで解析する</b> という新しい視点を手に入れた. こういう, 新しい知見を得ることも, MOOC に取り組む一つの目的だ. g
        </p>
      </div>
    </div>
  </div>