エンジニアの @speee-nakajima です。
社内勉強会にて、Job周りに関する改善の話をさせていただきました。
トークテーマ
Jobのお話
キーワード
TreasureData 冪等性
発表スライド
補足
質疑応答の中でTreasure Dataに問い合わせた方がいて、partial delete は5-6時間程度待たないと消えないようです。
質疑応答
Elasticsearch に集約したがデータ量が多すぎやしないのか?
以前は広告データが億レベルであったが事業の要望を整理して必要なデータに絞ることで今回の変更ができた。
Resume 機能は実装したのか?
今回は単純なリトライです。
所感
恐らく一度は誰もが作ったことあるジョブですが、ちゃんと作るというのは難しいものです。
特に大きなデータを扱う場合、リトライがきちんとできること、その際冪等性が保たれていること、適切な粒度でジョブが切られていることは新規開発、機能追加、運用していくうえでも非常に重要だと思います。