C07 モデル動作、出力制御、安全保証 (Model Behavior, Output Control & Safety Assurance)
管理目標
このコントロールカテゴリは、モデル出力が技術的に制約、検証、監視され、安全でない、不正な、またはリスクの高いレスポンスがユーザーやダウンストリームのシステムに到達できないようにします。
C7.1 出力形式の強制 (Output Format Enforcement)
モデルがインジェクションを防ぐのに役立つ方法でデータを出力するようにします。
7.1.1
検証: アプリケーションはすべてのモデル出力を厳密なスキーマ (JSON スキーマなど) に対して検証し、一致しない出力を拒否している。
1
D/V
7.1.2
検証: システムは、バッファをオーバーフローしたり、意図しないコマンドを実行する前に、生成を厳密に遮断するための「停止シーケンス」またはトークン制限を使用している。
1
D/V
7.1.3
検証: モデル出力を処理するコンポーネントはそれを信頼できない入力として扱っている (パラメータ化クエリや安全なデシリアライザを使用するなど)。
2
D/V
7.1.4
検証: システムは、出力が不正なフォーマットのために拒否された場合、特定のエラータイプをログ記録している。
3
V
C7.2 ハルシネーションの検出と緩和 (Hallucination Detection & Mitigation)
モデルが不確実である場合や噓をついている場合を検出し、その情報がユーザーに届かないようにします。
7.2.1
検証: システムは生成された回答に対して数値の信頼スコア (たとえば、対数確率を使用する) を計算している。
1
D/V
7.2.2
検証: アプリケーションは、信頼スコアが定義された閾値を下回ると、自動的に回答をブロックするか、フォールバックメッセージに切り替えている。
1
D/V
7.2.3
検証: ハルシネーションイベント (低い信頼性のレスポンス) は分析のために入力/出力メタデータとともにログ記録されている。
2
D/V
C7.3 出力の安全性とプライバシーフィルタリング (Output Safety & Privacy Filtering)
不適切なコンテンツがユーザーに表示される前に検出して除去する技術的コントロールです。
7.3.1
検証: 自動分類器はすべてのレスポンスをスキャンし、ヘイト、ハラスメント、性的暴力のカテゴリに一致するコンテンツをブロックしている。
1
D/V
7.3.2
検証: システムはすべての回答を PII (クレジットカードや電子メールなど) についてスキャンし、表示前に自動的に訂正している。
1
D/V
7.3.3
検証: システム内で「機密」とラベル付けされたデータはブロックまたは訂正している。
2
D
7.3.4
検証: システムは、モデルが高リスクコンテンツを生成する場合、人間による承認手順または再認証を必要としている。
3
D/V
7.3.5
検証: 安全フィルタはユーザーの役割や場所に基づいて異なる設定を可能としている (たとえば、未成年者向けの厳格なフィルタ)。
3
D/V
C7.4 出力と動作の制限 (Output & Action Limiting)
モデルが過剰な実行、速過ぎる実行、アクセスすべきではないものへアクセスすることを防ぎます。
7.4.1
検証: システムは、コストの急上昇やサービス拒否を防ぐために、ユーザーあたりのリクエストとトークンに厳しい制限を課している。
1
D
7.4.2
検証: モデルは、明示的なユーザー確認なしに、影響の大きいアクション (ファイルの書き込み、電子メールの送信、コードの実行など) を実行できないようにしている。
1
D/V
7.4.3
検証: エージェントフレームワークは、再起呼び出しの最大深度、委譲制限、許可される外部ツールのリストを明示的に構成および適用している。
2
D
C7.5 説明可能性と透明性 (Explainability & Transparency)
ユーザーが決定の理由を理解していることを確認します。
7.5.1
検証: UI は重要な決定についてユーザーに信頼スコアまたは「推論の要約」を表示している。
2
D/V
7.5.2
検証: ユーザーに提供される説明はシステムプロンプトやバックエンドデータを削除するようにサニタイズされている。
2
D/V
7.5.3
検証: モデルの決定の技術的証跡 (アテンションマップや対数確率など) がログ記録されている。
3
D
C7.6 監視統合 (Monitoring Integration)
アプリケーションはセキュリティチームが監視すべき適切な信号を送信することを確認します。
7.6.1
検証: システムは安全違反に関するリアルタイムの指標をログ記録している (例、「ハルシネーションが検出されました」、「PII がブロックされました」)。
1
D
7.6.2
検証: システムは、安全違反率が特定の時間枠内で定義された閾値を超えた場合、アラートをトリガーしている。
1
V
7.6.3
検証: ログは、特定のモデルバージョンや、不正使用の可能性を調査するために必要なその他の詳細を含んでいる。
2
V
7.7 生成メディアの安全対策 (Generative Media Safeguards)
違法または偽造メディアの作成を防ぎます。
7.7.1
検証: システムは、確認済みの同意なしに実在の人物を描写するメディア (画像/音声) を生成することを拒否している。
1
D/V
7.7.2
検証: 入力フィルタは、モデルが処理する前に、露骨なコンテンツやディープフェイクコンテンツを要求するプロンプトをブロックしている。
2
D/V
7.7.3
検証: システムは、生成されたコンテンツを公開する前に、著作権侵害に関してチェックしている。
2
V
7.7.4
検証: 生成されたすべてのメディアは、AI によって生成されたことを証明する、不可視の透かしまたは暗号署名を含んでいる。
3
D/V
7.7.5
検証: フィルタをバイパスする試みは検出され、セキュリティイベントとしてログ記録されている。
3
V
参考情報
Last updated