グーグル・クラウド・ジャパンは29日、Googleが提唱しているシステム管理とサービス運用の方法論であるSRE(Site Reliability Engineering:サイト信頼性エンジニアリング)について解説する記者説明会を開催した。
さらに、Googleの支援のもとで2021年4月からSREチームを発足させてSREを実践しているクレジットカード会社の株式会社ジェーシービーが登壇し、取り組み内容を紹介した
「信頼性の指標と目標値を定義し、測定し、定期的に調整していく」
グーグル合同会社 シニア デベロッパーリレーションズ エンジニアの山口能迪氏は、SREを「Webサイトやサービスの信頼性をどのように確保しながら運用していくかの手法」と説明。一言でいうと「本番システムを信頼性高く開発・運用するための一連のプラクティスと心構え、および職務」だとした。
意思決定にデータを使い、運用をソフトウェアエンジニアリングの問題として扱う
背景として山口氏は、ソフトウェアでコストがかかるのは、開発よりローンチして運用に入ってからだという研究を紹介した。「そのことは、運用だけに必要なコンポーネントが設計に入っていないことがある、ということからもわかる」と氏は言う。
これは、開発と運用のインセンティブが一致していないことによると山口氏。開発担当は俊敏性を求め、運用部門は安定性を求める。これは、組織のサイロ化にもつながる。
こうした開発と運用のサイロの壁を解決するものとしては、DevOpsも提唱されている。SREとDevOpsの関係について、山口氏は「DevOpsはチーム間のサイロの壁を取り除くための文化的なプラクティスであり、SREはDevOpsを実践するための具体的な方法とそのための職務を定義している」と述べた。
SREを採用した運用では、意思決定にデータを使い、運用をソフトウェアエンジニアリングの問題として扱う。これは、ソフトウェア開発のスキルを持った人が運用を自動化することでもあり、システムを事後に改修するのではなく始めから信頼性が高くなるように設計することでもある。
これをふまえ、山口氏は、SREチームの役割を「ソフトウェアを書いて、システムをスケールして、信頼性が高く効果的な形で設計する」と説明した。
続きは以下~
https://cloud.watch.impress.co.jp/docs/news/1435726.html