C07 モデル動作、出力制御、安全保証 (Model Behavior, Output Control & Safety Assurance)

管理目標

モデル出力は 構造化されており、信頼性があり、安全であり、説明可能であり、本番環境で継続的に監視されている 必要があります。そうすることで、ハルシネーション、プライバシー漏洩、有害コンテンツ、暴走行為を軽減し、ユーザーの信頼と規制遵守を向上します。

C7.1 出力形式の強制 (Output Format Enforcement)

厳格なスキーマ、制約のあるデコード、ダウンストリームバリデーションは、不正なコンテンツや悪意のあるコンテンツが拡散する前にそれらを阻止します。

説明

レベル

ロール

7.1.1

検証: レスポンススキーマ (JSON スキーマなど) はシステムプロンプトで提供されており、すべての出力は自動的に検証されている。適合しない出力は修復または拒否をトリガーしている。

D/V

7.1.2

検証: 制約付きデコーディング (ストップトークン、正規表現、最大トークン) は、オーバーフローやプロンプトインジェクションサイドチャネルを防ぐために、有効にされている。

D/V

7.1.3

検証: ダウンストリームコンポーネントは信頼できないものとして扱い、スキーマまたはインジェクションセーフなデシリアライザに対して検証している。

D/V

7.1.4

検証: 不適切な出力イベントはログ記録され、レート制限され、監視対象として提示されている。

C7.2 ハルシネーションの検出と緩和 (Hallucination Detection & Mitigation)

不確実性の推定とフォールバック戦略は捏造された回答を抑制します。

説明

レベル

ロール

7.2.1

検証: トークンレベルの対数確率、アンサンブル自己一貫性、ファインチューンされたハルシネーション検出器は各回答の信頼スコアを割り当てている。

D/V

7.2.2

検証: 設定可能な信頼度閾値を下回るレスポンスはフォールバックワークフロー (検索拡張生成、二次モデル、人間によるレビューなど) をトリガーしている。

D/V

7.2.3

検証: ハルシネーションインシデントは根本原因メタデータでタグ付けされており、ポストモーテムとファインチューニングパイプラインに供給されている。

D/V

7.2.4

検証: 閾値と検出器は、主要なモデルや知識ベースの更新後に、再調整されている。

D/V

7.2.5

検証: ダッシュボードの視覚化はハルシネーション率を追跡している。

C7.3 出力の安全性とプライバシーフィルタリング (Output Safety & Privacy Filtering)

ポリシーフィルタとレッドチームカバレッジはユーザーと機密データを保護します。

説明

レベル

ロール

7.3.1

検証: 生成前および生成後の分類子は、ポリシーに準拠して、ヘイト、ハラスメント、自傷行為、過激主義、性的に露骨なコンテンツをブロックしている。

D/V

7.3.2

検証: PII/PCI 検出と自動修正はすべてのレスポンスに対して実行している。違反はプライバシーインシデントを提起している。

D/V

7.3.3

検証: 機密タグ (営業秘密など) は、テキスト、画像、コードの漏洩を防ぐために、さまざまな様式に伝播している。

7.3.4

検証: フィルタのバイパス試行や高リスク分類は二次承認またはユーザー再認証を必要としている。

D/V

7.3.5

検証: フィルタリング閾値は規制管理区域とユーザーの年齢/ロールのコンテキストを反映している。

D/V

C7.4 出力と動作の制限 (Output & Action Limiting)

レート制限と承認ゲートは乱用や過剰な自律性を防止します。

説明

レベル

ロール

7.4.1

検証: ユーザーごとおよび API キーごとのクォータは、リクエスト、トークン、コストを制限しており、429 エラーでは指数バックオフを適用している。

7.4.2

検証: 特権アクション (ファイル書き込み、コード実行、ネットワーク呼び出し) はポリシーベースの承認またはヒューマンインザループを必要としている。

D/V

7.4.3

検証: クロスモーダル一貫性チェックは、同じリクエストに対して生成される画像、コード、テキストが悪意のあるコンテンツを密かに持ち込むために使用できないようにしている。

D/V

7.4.4

検証: エージェント委譲の深さ、再帰制限、許可されるツールのリストは明示的に構成されている。

7.4.5

検証: 制限違反は SIEM 取り込みのために構造化されたセキュリティイベントを発している。

C7.5 出力の説明可能性 (Output Explainability)

透明性シグナルはユーザーの信頼と内部デバッグを向上します。

説明

レベル

ロール

7.5.1

検証: ユーザー向けの信頼スコアまたは簡単な理由の概要は、リスク評価が適切と判断された場合、公開されている。

D/V

7.5.2

検証: 生成される説明は機密性の高いシステムプロンプトや独自データを公開することを避けている。

D/V

7.5.3

検証: システムはトークンレベルのログ確率またはアテンションマップをキャプチャしており、認可された検査のためにそれらを保存している。

7.5.4

検証: 説明可能性アーティファクトは監査可能性のためにモデルリリースとともにバージョン管理されている。

C7.6 監視統合 (Monitoring Integration)

リアルタイム可観測性は開発と本番の間でのループを閉じます。

説明

レベル

ロール

7.6.1

検証: メトリクス (スキーマ違反、ハルシネーション率、有害性、PII 漏洩、レイテンシ、コスト) は中央監視プラットフォームに配信している。

7.6.2

検証: アラート閾値は各安全性メトリックに対して定義されており、オンコールエスカレーションパスを備えている。

7.6.3

検証: ダッシュボードは出力の異常をモデル/バージョン、機能フラグ、アップストリームデータ変更と相関している。

7.6.4

検証: 監視データは、文書化された MLOps ワークフロー内での再トレーニング、ファインチューニング、ルールの更新にフィードバックしている。

D/V

7.6.5

検証: 監視パイプラインはペネトレーションテストされており、機密ログの漏洩を避けるためにアクセス制御されている。

7.7 生成メディアの安全対策 (Generative Media Safeguards)

ポリシー制約、出力バリデーション、トレーサビリティを適用することで、AI システムが、非合法、有害、不正なメディアコンテンツを生成しないことを確保します。

説明

レベル

ロール

7.7.1

検証: システムプロンプトとユーザー命令は、非合法、有害、不合意のディープフェイクメディア (画像、動画、音声など) の生成を明示的に禁止している。

D/V

7.7.2

検証: プロンプトは、なりすまし、性的に露骨なディープフェイク、合意なしで実在の人物を描写するメディアを生成しようとする試みに対して、フィルタされている。

D/V

7.7.3

検証: システムは、著作権で保護されたメディアの不正な複製を防ぐために、知覚ハッシュ、透かし検出、フィンガープリントを使用している。

7.7.4

検証: 生成されるすべてのデータは、ダウンストリームのトレーサビリティのために、暗号署名、透かし入れ、または改竄防止の来歴メタデータを埋め込まれている。

D/V

7.7.5

検証: バイパスの試み (プロンプト難読化、スラング、敵対的フレーズなど) は検出され、ログ記録され、レート制限されている。繰り返しての不正使用は監視システムに提示されている。

参考情報

PreviousC06 モデル、フレームワーク、データのサプライチェーンセキュリティ (Supply Chain Security for Models, Frameworks & Data)NextC08 メモリ、エンベディング、ベクトルデータベースセキュリティ (Memory, Embeddings & Vector Database Security)

Last updated 2 months ago

Good evening