データサイエンス超入門を読んだ

積ん読していた本を読み終えた。
ビジネスで役立つ統計学の本当の活かし方という副題と、勝ち残るビジネスマンの必須知識という帯に惹かれたのを覚えている。

データサイエンティストの視点がわかって面白い。
統計がビジネスにどう活かされているかということが具体的に書かれているので、活かしどころの参考になった。
また、かなりのパターンが目的もなく「このデータを何かに活かせないか?」というもので困るということが書かれていた。ビッグデータから何かしらの方向性があるかを見つけてほしいという依頼があるのは確かだけれど、目的もなく闇雲に分析しようとしてもコストばかりかかって勿体無いと。データサイエンティストに分析を依頼するときにも、発注者がある程度どういうことを知りたいかを分かった上で依頼できるように、という、発注者向けの本といえる。

なんでデータ分析が今注目されているのかというと、コンピュータの性能がよくなってきて、スポット的にクラウド環境を使って安価に膨大なデータを解析を可能にする土壌ができあがってきたからだろう。昔は、大規模なデータ解析をしようと思ったらマシンを揃えるだけでもお金がかかったし、それをしてもよい結果が得られるかわかったものではなかったが、解析をする時間の間だけ借りられる。いい時代になったものだなぁと思う。まぁそんな使い方は私自身はしたことがないのだけれど…。
でもこれで一部大手企業しかできなかったことが、ほとんどの企業でも可能になったというのはたしかにすごいことだと思う。だからこそ、データサイエンス業界は大盛り上がりだろう。最近も機械学習とかすごい騒がれてますね。

この本で出てくる話題は、Amazonのレコメンドエンジンの話であったり、呟きや位置情報からPush型で通知するクーポンの話、SNSの口コミを解析する話だったり、ECサイトのリニューアル前とリニューアル後での売り上げ比較をしながらどちらが売れるデザインかを調査したりなど、かなり具体的で面白い。MeCabの話が出てきたりもした。

その上で、聞いたことはあるけれどよくわからない統計キーワードについて、統計基礎の章で教えてくれる。この章でも、この統計はこういう場合に使われていると書かれている。

  • 記述統計学
  • 推測統計学
  • 探索的データ解析
  • 機械学習
  • 一般線形モデル
  • 一般化線形モデル

在庫を切らさないために標準偏差を使ったりするところを読むと、なるほどなぁ〜と思わされた。
私はデータ分析とかやったことなかったので、ベイズ統計・マルコフ連鎖・モンテカルロ法の説明を読んでいるだけでも楽しかった。ただ、このあたりは難しくもあったので眠たくなりながら読んだ。

また、野球での統計活用の話(セイバーメトリクス)の話で出てくる、KPIを決定することの重要性も面白かった。よくKPIっていう言葉は見かけるが、毎回ググっては、「あー、はいはい」と思って、また忘れて…を繰り返していたのだが、ようやく意味をちゃんと覚えられそうだ。KPIはKey Performance Indicatorsの略。目標を達成するために最も重要な評価基準のこと。野球の話だと、試合に勝つという目標にたいして、セイバーメトリクスを使って勝率に関わる項目を洗い出して、出塁率をKPIとして定めたと書かれていた。闇雲に練習してもダメってことはないだろうけれど、効果が高いか低いかが、統計で分かってくるということだろう。

あとはIT技術でどういうものが統計で使われているかという話題。HadoopやNoSQL、R言語やApache Mahoutのことが簡単に紹介されていた。OSSの利用で安価にデータ解析ができるようになってきたということがわかるし、レコメンドエンジンにどういうものがあるかもざっくりわかってよかった。

私がデータ分析をやり始めるかどうかというのはまだわからないが、どういう視点を持っていればよいか、統計でどういうことがわかるのかというのを俯瞰的に捉えることができたのは収穫だった。特に数学にも弱いし統計にも弱い自分でもなんとなくわかることができたということは、いい本だったなぁという証拠ではなかろうか。超入門なので、これで統計ができるようになるわけではないが、統計で何がわかるのかという興味を引くには十分な内容だった。


カテゴリー | タグ   | パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です