先週末、オンライン開催のSRE NEXT 2022に視聴者として参加しました。
今回は、参加した動機と全体を通しての学びをまとめました。
イベント概要
- 概要:SRE Practiceに関心を持つ人のためのカンファレンス
- 日時:2022年5月14日(土)~ 2022年5月15日(日)
- 会場:オンライン(ZOOM)
- テーマ:
SRE DIVERSITY
- 公式 HP:https://sre-next.dev/2022/
参加した動機&全体を通しての学び
私はSREではなく、SREからサポートを受ける開発チームに所属するサーバサイドエンジニアです。
ここ最近、SREが請け負ってくれる仕事の線引きが曖昧に感じたので、今回はその境界線を判断できるようになるため、各セッションを視聴しました。
全体のセッションを通してみると、SREはサポートする開発チームに常駐すべきではなく、そのチームが自律的に信頼性を高める行動を取れるようになるまで一時的に支援すべき、という一つの結論を述べるプラクティスが多かったと感じます。
例えばメルカリ社は、開発チームがSREチームに依存しすぎないよう、サポート先をローテーションしているそうです。
メルカリのEmbeded SREは、Embeded先のローテーションで、不用意な依存関係を回避しているとのこと。 #srenext #srenextA https://t.co/J5n2kkSs1Y pic.twitter.com/7y9Geyd1Hv
— Hirosaji / ひろさじ (@hirosaji) 2022年5月15日
ただ、期間内に十分なサポートをすることができなかったこともあり、その際はサポート期間を延長するといった対応が必要だったとのこと。
QAセッションにて。
— Hirosaji / ひろさじ (@hirosaji) 2022年5月15日
Embededするのは半年ほど。
短期間のEmbededによるデメリットの一つとして、Embeded先の規模が大きくてonboarding不全になってしまったケースがあった(その際は、期間を延長したらしい)
また、サポート不足に関連した別の失敗例もあります。
例えば、スタディサプリの事例を紹介した @chaspy さんのセッションにて。
SREチームは信頼性を高める文化を浸透させるのが役目で、常駐すべきではない。
— Hirosaji / ひろさじ (@hirosaji) 2022年5月15日
開発チームは、SREチームのサポートに依存してはならない。
これ、開発チーム側が特に心に留めなきゃいけないことだなぁ。 #srenext #srenextB https://t.co/yaA4QLSXJu pic.twitter.com/4FCaa5IZ8O
SLI/SLOを策定したが、SLO違反の際に開発チームが適切な行動ができなかった、との失敗例をあげていました。
これは取るべき意思決定に必要な権限や予算、そして関係者の理解が足りなかったために起こってしまったと述べていました。
この対策として、 @chaspy さんは信頼性を重要な事業戦略の一つに組み込むべく組織改革をしたり、草の根活動で文化醸成をしたりしているそうです。
つまり、ここで私が得たかった結論として、
「いつまでも、あると思うな、SREサポート」(字余り)
ということをサポートを受ける側は胸に刻んでおかないといけないなぁ、と思いました。
特にSLO違反やインシデント発生時のトリアージ、エスカレーション、アサインは開発チーム内で自律的にできるようにならなければと思います。
そのための基盤づくりや指標選びの相談はSREに頼ってもいいが、それらを運用で使うのは俺たちだぞ、というマインドでSREと付き合っていくのが健全だろうと、私は結論付けました。
SRE NEXT 2022、参加してよかったです。
むしろ、私のような開発チームに身を置くエンジニアこそ参加すべきだなぁ、と今になって思います。
おまけ
現時点で、各セッションの動画は公開されていないようです。 ただ個別に共有されたスライドを、こちらの方がまとめてくれていました。
Day1のスライドまとめましたーhttps://t.co/gCNsi73pqM#srenext
— yebis0942 (@yebis0942) 2022年5月14日
もし参加できなかった、または観たいセッションを見逃したという方がいたら、こちらからスライドだけでも覗きにいくと良いと思います。