えんじにあのじゆうちょう

勉強したことを中心にアウトプットしていきます。

Deltalakeのバージョニング機能を試してみる

はじめに

機械学習をプロダクションで行う場合、基本的にはMLOpsの枠組みに乗せてモデルを継続的に学習させ精度を向上、Keepしていくということが重要になるわけですが、一方であるときに使ったパラメータやデータセットの管理は結構手間です。
パラメータで言えばMLflowのようなものに記録すればいいのですが、データはコピーで持っておこうにもストレージ容量をコピー分食ってしまったりするため、ある程度慎重に設計する必要があります。

うーむ、と思っていたところ、Deltalakeをふと思い出しまして、とりあえず試してみるか、というのが本稿のモチベーションです。まずは浅く、どんなものか触ってみたという話をします。

続きを読む

SIGNATEの【第2回_Beginner限定コンペ】健診データによる肝疾患判定をやってみた

はじめに

SIGNATEさんは去年こちらの講座でお世話になった以来放置していたので、相変わらずBeginnerだったのですが、Beginner限定コンペであるラインを超えればIntermediateに昇格ということだったのでやってみることにしました。
せっかくなのでそのログとしてこの記事を残します。

続きを読む

【読書】スケーラブルデータサイエンス 第6章

はじめに

今回も引き続き、スケーラブルデータサイエンスです。
今日は第6章。Dataprocです。ちなみに、第5章は個人的によく知っている話題が多かったので記事としては取り上げません。

続きを読む

【読書】スケーラブルデータサイエンス 第4章

はじめに

今回も引き続き、スケーラブルデータサイエンスです。
今日は第4章。Apache Beamについて中心的にさわってみました。

続きを読む

【読書】スケーラブルデータサイエンス 第2章

はじめに

スケーラブルデータサイエンスを読み始めたので、読みつつ気になったところのまとめを実施していこうと思います。
まずは第2章のクラウドへのデータの取り込みです。

続きを読む