23 Dec 2017, 10:12

データサイエンティスト養成講座を受けた感想(後半)

はじめに

データサイエンティスト協会が主催するデータサイエンテスィト養成講座を受けた。

前半の感想は以下です。今回は、後半の感想を書く。

各回の内容

第5回

中間発表会。銀行問題の成果発表。私の成績は、17位でした。各班の発表のあとは、先生のコメント。この銀行問題は、それほどデータ前処理をしなくても、random forestや xgboostのちからを借りると、そこそこのスコアがでてしまうとのこと。

ただし、それはコンペという特殊な世界で通用することであり、ビジネス的観点が抜けていることはよくない。業務でつかう多くのモデルは説明が求められる。

そして、後半のお題、Jリーグの観客動員数を予測せよ! が出される。

こちらは、単純にxgboostやrandom forest を 適用したたけでは、いい成果はでない。しっかり特徴量エンジニアリングをする必要がある。

第6、7回

後半は、目新しい知識の講義はなく、グループワーク中心で進む。チームでアイデアを出しながら特徴量を作成していく。

モデルの改善方法として、残差を見ながら分析する方法が紹介される。どの場合に、モデルの予測が結果を外しているかを並べて、傾向を見て、それをモデルに反映するというサイクルが紹介される。

チームでサッカーに詳しい人が一人いて、(ほかはそれほど詳しくなくて)、アイデアをもらいながら特徴量を作っていった。また、自分では、コーディング力がなくて作れない特徴量も他のメンバの手を借りて、作った。一人で考えているよりも、みんなで考えた方がよいアイデアが浮かぶ。協力が必要。

私ともう一人はpythonでデータ分析をして、他のメンバはRでデータ分析を進めた。あるメンバがRの分析力をメキメキつけて、驚いた。

という本を読んで力をつけたそうだ(これはウェブで無料公開されている)。python と Rで、どちらがよいかという議論をよく見かけるが、dplyr という強力な前処理ツールがあるので、モデルの前処理は R でやるほうがよいと感じた。前処理や視覚化は、pythonよりもRに軍配が上がる。

第8回

最終発表会。

私の成績は、なんと1位だ!

ネタバレになるので、作った特徴量は秘密だが、思いついた特徴量はすべて試した。

そして、最終秘密兵器、catboostを使った。

これは、ロシアのGoogleと言われているYandexが開発したOSS。これをつかったら、スコアがグーンと下がった。私は、データの視覚化をあまりしなかったのだけれども、同じ班のさきほどR力をグーンと伸ばした人がいろいろとデータを視覚化してくれた。

感想

データサイエンティスト養成講座にかけた勉強時間は100時間くらい。

当初の目的だったCSV形式のデータに対する解析技術がついた(Python力も)。

反省点としては、精度を求めるあまり、データの意味を考えることを怠った。データをプロットして、観察して、加工するというプロセスが踏めていなかった。なので、今後はデータを観察し表現する力、人に説明する力を身に着けたい。

これから

これからどうするかということも考えておこう。自分は他のひとと違って、業務ではデータ分析をしていない。なので、ここで学んだことを忘れないようにするためには、継続してデータ分析コンペに参加しようと思う。

DeepAnalyticsや Kaggleのコンペに参加して、腕を磨いていきたい。コンペでいい成績を取ることによって、力をつけていきたい。

今は、データサイエンスに興味があるが、転職をするかどうかは、まだもう少し見極めが必要。もう少し勉強してみて、この分野が本当に面白いと感じたら、転職を考えよう。

02 Jun 2015, 13:17

Linux のサミットに参加して思ったこと

幸か不幸か、仕事のよしみで Linux 関係の Summit に参加しました.

こういう場に参加するのははじめてで、いろいろ刺激を受けた.

忘れないうちにここに書いておく.

すべて英語

当たり前のことだけれども、OSS のサミットなので全部英語. 英語できない自分は、そこに存在するのがつらかった.

参加している多くの日本人も、当たり前のように英語で会話していることにビックリした. こんなに多くの英語が飛び交う場所にいったことがなかったので、ビックリした.

英語のプレゼンを聴いても、ほとんど聞き取って理解できないことが悔しかった. なかには、日本語できいても理解できないものもあったかもしれないが..

とにかく、とても無力感と焦りを感じたのだった.

企業としての OSS 活動

個人で参加している人はいないように見えた. プレゼンを発表するひとは、全員企業の肩書きを持っていた.

OSS というのは、個人がプライベートとして開発しているイメージばかりがあった. しかし、Linux というのは企業が開発者を出すことによって、 いいかえると、企業がビジネスとして開発を推進しているように見えた.

これは、自分の認識が狭かったところだった. OSS に企業としてかかわるというのは、 働きながら OSS にソースを提供することなんだと思った.

企業が OSS を活用して開発を推進するということは、 ただ単に、落ちている OSS を拾って開発するのではない. 拾った OSS を仕事のなかを通じて改善し、 改善をフィードバッグしていくことなのではと思った.

Open Innovation

サミットの雰囲気も、それはそれでカルチャーショック.

今まで、他の企業はライバルで他の企業に負けない製品をつくらなければ、 という意識が強かった.

しかし、サミットには、 複数の企業が一つの目標に向かって一致団結して頑張りましょう, 車社会の未来をここからオレたちが作っていくんだ!!という空気があった.

Open Innovation という言葉も、はじめて知った. 企業が競争しあうのではなく、協力しあうことで、あらたな価値を創造して いくことを意味する. そんな空気が、サミットにはあった.

14 May 2015, 12:51

近い未来のリアルな技術!自動運転技術の動画ブックマーク

本日は東京ビッグサイトにて、一年に一回のイベント、ESEC へ. 車の自動運転に関するセミナーを受講しました.

車の技術に疎い自分には、 きくことみることとても刺激的で楽しい時間を過ごせました.

車の運転技術、今や成熟の時です。*2020 年には市街で自動運転が実現する* そうです.

こういう技術は以下のように呼ばれているらしい

ここだけの話、車に乗ることが怖いペーパードライバーの自分にも、 ビュンビュン車をかっ飛ばすことができるんだという夢を抱きつつ、 今日は、自動車技術の話題や動画を収集してみました.

Google(Google Car)

Google がデモ動画を発表したことによって、 自動運転が世間からに注目されるようになりました.

TED でのプレゼン

ニューヨークでは、デモ車が街中を走っているとか.

Apple(iCar)

iPhone の次は、iCar を製造するとか.

BMW

世界初、ドリフト走行ができる自動運転.

ウェアラブルな装置とも連携するものをかんがえているよう.

トヨタ

時速 100km の自動運転に成功. 高速道路の自動運転はもう目前?!

自動運転技術が成熟する 2020 年、トヨタと Google の戦いが幕を切る.

その他

安部首相が自動運転自動車にのって日本の技術に驚いている.

つい先日、DeNA が自動車業界に決死の覚悟で飛び込み.

おわりに

自分が知らないうちに、 自動運転がここまで実現可能になっていることにまず驚いた. そして、近い将来に、世の中の車も変わっていくことにワクワクする.

きっと、未来の人は、*車を自分で運転していたなんて時代もあったんだよ* なんといって、驚く時代もくるのだろう.

車業界の競争は、とてつもなく厳しいものになりそうだ. 自分はこの波に、どういう形で巻き込まれていくのだろうか?