SREチーム 2019年の振り返りと2020年に向けて

kenjiszk
FiNC Tech Blog
Published in
6 min readJan 15, 2020

こんにちは、FiNC TechnologiesでSREチームのマネージャーをしています@kenjiszkです。本年もよろしくお願いします。

2020年もSREメンバー4人で楽しくやっております。メンバー絶賛募集中です!

FiNC Technologiesのエンジニアマネージャーたちがブログを連投していますのでその流れに乗ってSREチームとしても2019年の振り返りと2020年に向けての抱負を語っていこうと思います。

チームメンバーが増えてきた事によって推進できたこと

まず、2019年を振り返ると強力なメンバーのジョインというイベントが4月にありました(それも、、、二人も同時にだ)。

ご存知の通り、スタートアップではエンジニアは常に足りない状況なことが多いと思いますが、特にSREエンジニアは少ない印象があります。そのため、どうしても将来に向けた取り組みを行う事よりも今起きている問題に対処しがちになります。そういった中で、メンバーが増えた事で中長期的に環境を改善できるパワーを得ることができました。

Infrastructure as a Codeの推進

一つは、Infrastructure as a Codeが推進されたことです。今更と思う方も多いと思いますが、一方でどの会社さんも一定は苦労している箇所になるかと思います。2019年はプロダクションで運用しているサービスに関してはほぼterraform化が完了しました。

Infrastructure as a Codeは手段であり、実現したいのはSREメンバーに関わらず全てのディベロッパーがインフラ構成を理解し、必要であれば修正や改善ができる世界です。2019年の終わりころには、新しいサービスの作成や既存システムの修正に関しては、ディベロッパーがPull Requestを作りSREメンバーがレビューして適用するという運用が始められるようになりました。

この辺りの詳細は後日またblogにて紹介できればと思います。

セキュリティ施策の推進

必要と思いつつもなかなか取り組めていなかったもう一つのタスクがセキュリティです。これまでも最低限の脆弱性診断は行ってきましたが以下のようなタスクも進めることができました。

  • WAF/マルウェア検知の仕組みの導入による、脅威の検知とブロック
  • 各種AWS権限の棚卸しと、IAM Roleによる管理
  • 個人AWSアカウントのActive Directory連携
  • アプリケーションAWSアカウントのIAM Roleの利用

また、2019年の後半には専任のセキュリティ担当者がジョインしてくれた事もあり、中長期でのセキュリティ施策のロードマップを作成できたことも大きな進展となりました。

課題感共有によって推進ができたこと

FiNC Technologiesはマイクロサービスなシステム構成をとっていますが、長く運用している中で様々な問題点も出ていています。そういった課題感に対して組織としてアプローチできたことも2019年の成果だと思っています。SREチームとしては全体を見通せる立場にいるのでこういった活動にも積極的に絡んでいけたのではないかと思います。

マイクロサービスの問題点に対して組織としてのアプローチ

2019年初頭には、マイクロサービスは以下のような問題を抱えていました。

  • エンジニアの人数に対してマイクロサービスが増えすぎてしまっていた
  • マイクロサービス間の共通のルールが明文化されておらず、運用のクオリティや方針にばらつきが生じていた

この状態を解決するために、各マイクロサービスに開発ラインとは別にサービスオーナーというロールをおき、サービスオーナーがどのようにマイクロサービスをよくしていくか?という議論をおこなえる場所が作られることになりました。

例えばこの取り組みの結果として、定期的にシステムのメンテナンスを行う時間を全チームで確保する取り組みが開始されたり、負債の解消に関する話し合いが建設的に行われたりするようになりました。

今では、2ヶ月周期でKPTを行うことで定期的な取り組み内容の確認と改善を回せるようになってきています。

SREチームとしての一つの達成

2019年のSREチームの一つの達成点として、大規模なプロモーションによるトラフィックを無事にさばくことができたという点が挙げられます。

7月には全国TVCMが2週間放映され、11月にはカラダWEEKという日本テレビ系と連動した企画「億WALK」が1週間行われました。

いずれの企画に関しても、これまで作られてきたスケーリングに関しての仕組みがうまく動作し、無事に大きな事故なく終えることができました。これまでマイクロサービス化や、コンテナ化、監視、オートスケーリングの導入など整備してきたものが実を結んだかなと感じました。

2020年に向けて

2019年は一定の達成を感じつつもやりきれていない部分も多く、総じて仕込みの年だったかなと思います。正直なところ、まだまだトイルが多かったり、マイクロサービスの運用の問題点も数多くあるのが現状で、改善余地は沢山あります。

インフラのコード化が進められたことによって、よりDevOpsが組織に浸透させられると思いますし、SREとしても環境保全や構築ではなく改善活動に多くの力がさけるのではないかと思っています。

セキュリティに関してもまだまだ課題は多く、セキュリティと利便性のバランスの取れた組織文化を目指しています。

マイクロサービスに関しても2019年は共通意識・共通認識は進められたもののまだまだ具体的に大きな施策にまで取り組めていないので、2020年は根本的な問題解決・具体的な施策を大きく進めていく予定です。

最後になりますが、上記のような活動を一緒に推進してくれる仲間を絶賛募集中です。

--

--

kenjiszk
FiNC Tech Blog

Site Reliability Engineering Dept. Manager in FiNC.