えんじにあのじゆうちょう

勉強したことを中心にアウトプットしていきます。

【読書】スケーラブルデータサイエンス 第3章

はじめに

今回も引き続き、スケーラブルデータサイエンスです。
今日は第3章

まとめてみる

なぜ最初にダッシュボードを作るのか

モデルだけ作っても中身をしっかり説明してあげないと使われない かつ それ以上の良い知見が出てこないためであると書いてある。

本書で言えば、モデル(しきい値ベースのクロス集計表)があって、その閾値をどう定めていくか、というところをダッシュボードとして可視化させている。
これにより、モデルのパラメータをどう決めるのが良さそうかの洞察を得られるようなダッシュボードとすることができる。

データポータル

ダッシュボードを作るのもいろいろな選択肢があると思いますが、この例ではデータポータルを使い、Webベースでインタラクティブなボードを作っていく感じです。

データの置き場所は何らか必要(この本ではCloud SQL)ですが、このダッシュボードを無料で作れるのは非常に良きですね。

f:id:marufeuillex:20200907144827p:plain

共有に関してもGoogleアカウントベースや、URLで公開してしまう方法、定期的なメール送付など、Webベースとして使うぶんには十分な気もします。
ただ、Googleアカウントのない企業とかだと、担当者が閲覧するというタイミングで、その担当者にアカウントを発行しないと見れない気がするので、その点はちょっと微妙かもしれないですね。

感想

この章では主に可視化について語られていました。本の内容そのままになってしまうので書かなかったですが、ダッシュボードとEDAの違いであったり、どういったダッシュボードを作るとよいかテクニカルなところについても記載があり、非常にわかりやすかったです。

ただ、可視化の専門書ではないのでそこについて詳しくは別の書籍などで補ったほうが良さそうに思いました。
ここは自分的に課題を感じている部分でもあるため、別途掘り下げていこうと思います。