SRE Lounge #2 に登壇してきた 〜Performance Working Group って何だ?〜

SRE チーム の@katsuhisa__ です。

先日、SRE Lounge #2 に参加し、スタディストのSRE の取り組みについて発表をしてきました。

資料は以下に置いています。SRE にご興味のある方はぜひご覧ください。

発表資料

デブサミ2018 で伝えきれなかった 快適なマニュアル作成共有を支えるSite Reliability Engineering

https://speakerdeck.com/katsuhisa91/debusami2018-dechuan-ekirenakatuta-kuai-shi-namaniyuaruzuo-cheng-gong-you-wozhi-erusite-reliability-engineering

SRE Lounge とは?

SRE Lounge は、主催のユーザーベースさんのブログにある通り、SRE の取り組みを双方向に共有するクローズドな勉強会です。

SREチームを持つ企業各社によって、SREとしての取り組みも様々なのが現状です。 SREチームを構成するメンバーのエンジニアとしてのバックグラウンドも会社によって異なります。
既に各地で開催されているような一方向の講座形式の勉強会ではなく、 双方向に取り組みのシェアや課題の共有などができる、双方向のインタラクティブな場が必要と考え、今回SRE Loungeという名前で企画しました。
参加者同士でたくさん議論ができました

第二回となる今回は、弊社スタディスト以外に、下記三社が登壇しました。(発表順・敬称略)

  • Chatwork
  • クラウドワークス
  • ユーザーベース

スタディスト SRE チームの取り組み

私からは、「デブサミ2018 で伝えきれなかった 快適なマニュアル作成共有を支えるSite Reliability Engineering」と題し、スタディストのSRE の取り組みを発表しました。

先日、デブサミ2018 に登壇したのですが、登壇時間の都合で話せなかった取り組みがたくさんありました。

デブサミで登壇した時の様子

ということで、今回はデブサミで話せなかったことを中心に発表しました。

  • スタディストが開発しているマニュアル作成・共有プラットフォーム「Teachme Biz 」のプロダクトの特徴
  • スタディスト SRE チームのミッション
  • Monitoring(性能分析目的のログ解析基盤、監視設計)
  • Toil 削減
  • Infrastructure as Code
  • Performance Working Group

中でも、Performance Working Group について当日反響が大きかった(気がする)ので、本ブログで少し概要をご紹介します。

Performance Working Group とは?

Performance Working Group は、株式会社はてな さんで行われている以下のような取り組みのことです。

インフラ側と開発側がコミュニケーションする場としては、サービスごとに「Performance Working Group(PWG)」という定期的なミーティングがあります。サービスのレスポンススピードやエラー率などをグラフでチェックし、問題点があれば、インフラ側・開発側の双方から考えられる原因について共有します。例えば「このタイミングでサーバの故障があった」とか「このリリースが影響していそうだ」といった具合ですね。こういう場を設けることで、長期的に運用していくサービスの問題点を洗い出しやすくしています。

10年続くサービスを、インフラ技術で支えるhttp://hatenacorp.jp/recruit/operation_engineer

この取り組み、すごくいいと思っています。見た瞬間「うん、やろう!」と思いました。というわけで、やっています。

スタディストでのPerformance Working Group の取り組み

実際に、スタディストでどのように取り組んでいるかというと・・・

  • 当面は、性能に関する改善余地がまだまだ大きく、すでに悪いと分かっている箇所を改善するための場として運営
    (なので、はてなさんでやっている取り組みとは、現時点では主目的が異なっています。)
  • 開発部内の横断組織
    (現在は、私含め有志4人 + 技術顧問 萩原さんにアドバイザーとして場に加わっていただいています。)
  • パフォーマンスに関する学習の場としての側面も。どういう問題をどうなおせば早くなるのか?という知見の蓄積
  • アウトプットの単位を月次で区切る。そうすることで、改善結果の振り返りを行いやすく、また、社内の利害関係者への報告をしやすい
  • Performance Working Group 内でのOKR を策定し、振り返りを行いやすくした

です。

「サービスをグラフでチェックし、問題点があれば、インフラ側・開発側の双方から考えられる原因について共有する」というPerformance Working Group の場の目的設定は、はてなさんの取り組みを参考にさせていただいてはいるものの、実際のコンテンツはスタディストSRE チームのオリジナルです。本家Performance Working Group については、はてなさんの中の方々に、もっと詳しく話を聞いてみたいところです。

パソコンのお医者さんにおれはなる

まとめ

ということで、今回は、SRE Lounge の参加報告、およびスタディストで取り組んでいるPerformance Working Group についてご紹介しました。

今後、Performance Working Group に取り組みながら学んだ性能改善の知見は、本開発ブログで随時シェアしていこうと思いますので、もしよければスタディスト開発ブログのフォローをお願いします。

We are hiring!

スタディストでは、SRE チームだけでなく、いっしょにマニュアル作成・共有プラットフォーム「Teachme Biz 」をつくる開発メンバーを募集しています。ランチやお茶しながら、かるくお話をするだけでも、もちろんOKです。ご連絡お待ちしています!

https://twitter.com/katsuhisa__