基礎を理解する

Tier 2 オンコールとは何か?

インシデント対応を病院のトリアージシステムのように考えてみてください:

Tier 1 はファーストレスポンダーであり、すべてのシステムのすべてのアラートに対応します。実際に何が壊れているか、どの程度深刻かを判断します。

Tier 2(SME スペシャリスト)は、問題が特定のドメインやサービスの深い知識を必要とするときに呼び出される専門家です。あなたは特定のシステムのコード、アーキテクチャ、特性を内側から知っています。

Tier 1 があなたのドメイン(認証、認可、またはパイプラインセキュリティ)で複雑なものに遭遇したとき、彼らはあなたにエスカレーションします。あなたは彼らが修正を任せるスペシャリストです。

これは私たちの組織にどのように位置づけられますか?

私たちのインシデント対応には複数のレイヤーがあり、適切な問題を適切なタイミングで適切な人が対処できるようにします:

graph TD
    A["🚨 アラート発火"] --> B["Tier 1 オンコール<br/>ファーストレスポンダー"]
    B --> C{"ドメインの<br/>専門知識が必要?"}
    C -->|No| D["✅ Tier 1 が解決"]
    D --> E["📝 文書化してクローズ"]
    C -->|Yes| F["📞 Tier 2 にエスカレーション"]
    F --> G["Tier 2 SME<br/>SSCS スペシャリスト<br/>あなた"]
    G --> H["🔍 調査 &<br/>深い知識を適用"]
    H --> I{"複雑な<br/>エスカレーション?"}
    I -->|No| J["✅ Tier 2 が解決"]
    I -->|Yes| K["📞 マネジメントに<br/>エスカレーション"]
    J --> L["📝 文書化してクローズ"]
    K --> L

    style A fill:#ff6b6b
    style B fill:#4ecdc4
    style G fill:#ffe66d
    style D fill:#95e1d3
    style J fill:#95e1d3
    style E fill:#c7f0d8
    style L fill:#c7f0d8
    style K fill:#f38181

Tier 2 オンコールは実際に何を伴いますか?

オンコール中、あなたはシフト中(タイムゾーンに合わせた8時間ブロック)に連絡可能でいること、重大な問題でページを受けたときに15分以内に応答すること、ドメイン(認証、認可、またはパイプラインセキュリティ)の問題を調査・解決すること、インシデント中の進捗と次のステップを伝えること、他の人が学べるよう何が起きたかを文書化すること、シフト終了時に次のオンコールエンジニアに引き継ぐことが求められます。

すべてを知ることや、すべての問題を即座に修正することは期待されていません。対応可能で、関与し、問題が発生したときに深く掘り下げる意欲を持つことが期待されています。認証のエンジニアがすべてのパイプラインセキュリティの問題を完全にデバッグ・調査できないことは十分ありえます。それは完全に許容されます。ベストを尽くし、そのチームの Slack に連絡するかセカンダリレイヤーにエスカレーションして、そのチームのメンバーを見つけてもらいます。

なぜ Tier 2 オンコールがあるのか?

このプログラムは、ドメイン固有のセキュリティ問題に対応できる専門家を配備することでプラットフォームを安定させるために存在します。また、すべての問題でみんながページを受けないよう負荷をバランスさせ、本番の問題の所有権と経験を与えることでエンジニアを育成し、何が壊れてどう修正するかを文書化することで組織の知識を構築するためのものでもあります。

誰が関与していますか?

Tier 2 オンコールプログラムには、認証、認可、パイプラインセキュリティをカバーする Tier 2 エンジニアとしてのあなたとチームメイト、スケジュールとエスカレーションパスを管理するローテーションリーダー、あなたにページするファーストレスポンダーとしての Tier 1 オンコール、複雑なインシデント中に調整する IMOC、サポートを提供しエスカレーションを処理するマネジメントが関与しています。

関連ページ