C01 トレーニングデータ完全性とトレーサビリティ (Training Data Integrity & Traceability)

管理目標

トレーニングデータは、オリジンのトレーサビリティ、完全性、品質を保持する方法で入手、取り扱い、維持しなければなりません。主要なセキュリティ上の懸念は、データが改竄、汚染、破損されていないことを確保することです。セキュリティに関連するバイアス (例: 攻撃者がコントロールをバイパスできる、不正検出トレーニングデータの偏りなど) は、侵害されたデータや検証されていないデータの結果として起こり得る事象として扱われ、独立したコントロールカテゴリとしては扱われません。

スコープに関する注記 — バイアス。 AISVS はバイアスがセキュリティリスク (不正検出のバイパス、認証ヒューリスティック、自動的な信頼判断など) をもたらす場合にのみ対処します。より広範な公平性ガバナンス要件はスコープ外です。一般的な公平性と倫理のガイダンスについては ISO/IEC 42001 や NIST AI RMF を参照してください。


C1.1 トレーニングデータのオリジンとトレーサビリティ (Training Data Origin & Traceability)

すべてのデータセットの検証可能なインベントリを維持し、信頼できるソースのみを受け入れ、監査可能なようにすべての変更をログ記録します。

#
説明
レベル
ロール

1.1.1

検証: すべてのトレーニングデータソースの最新インベントリ (出所、責任者、ライセンス、収集方法、使用目的の制約、処理履歴) を維持している。

1

D/V

1.1.2

検証: トレーニングデータプロセスは不要な機能、属性、フィールド (未使用のメタデータ、機密性の高い PII、漏洩したテストデータなど) を除外している。

1

D/V

1.1.3

検証: すべてのデータセットの変更はログ記録される承認ワークフローの対象としている。

1

D/V

1.1.4

検証: データセットやサブセットは可能な場合にはウォーターマークやフィンガープリントされている。

3

D/V


C1.2 トレーニングデータのセキュリティと完全性 (Training Data Security & Integrity)

トレーニングデータへのアクセスを制限し、保存時と転送時にそれを暗号化し、その完全性を検証して、改竄、窃取、データポイズニングを防止します。

#
説明
レベル
ロール

1.2.1

検証: アクセス制御はトレーニングデータのストレージとパイプラインを保護している。

1

D/V

1.2.2

検証: トレーニングデータへのすべてのアクセスは、ユーザー、時間、アクションなど、ログ記録されている。

1

D/V

1.2.3

検証: トレーニングデータセットは転送時と保存時に、現在推奨されている暗号アルゴリズムと鍵管理手法を使用して暗号化されている。

2

D/V

1.2.4

検証: 暗号化ハッシュまたはデジタル署名を使用して、トレーニングデータの保存時および転送時のデータ完全性を確保している。

2

D/V

1.2.5

検証: 自動化された完全性監視を適用して、トレーニングデータの不正な変更や破損から保護している。

2

D/V

1.2.6

検証: 古くなったトレーニングデータは安全に消去または匿名化されている。

1

D/V

1.2.7

検証: すべてのトレーニングデータセットのバージョンは、ロールバックとフォレンジック解析をサポートするために、一意に識別され、不変に保存され、監査可能である。

3

D/V


C1.3 データラベリングとアノテーションのセキュリティ (Data Labeling and Annotation Security)

ラベリングとアノテーションのプロセスがアクセス制御され、監査可能であり、機密情報を保護していることを確保します。

#
説明
レベル
ロール

1.3.1

検証: ラベリングインタフェースとプラットフォームはアクセス制御を実施し、すべてのラベリングアクティビティの監査ログを維持している。また、アノテーターのアイデンティティメタデータはデータセットとともにエクスポートおよび保持されるため、すべてのアノテーションまたはプリファレンスペアは、ラベリングプラットフォーム内だけでなく、トレーニングパイプライン全体を通して特定の検証済みの人間のアノテーターに帰属できる。

1

D/V

1.3.2

検証: 暗号化ハッシュまたはデジタル署名はラベリングアーティファクト、アノテーションデータ、ファインチューニングフィードバックレコード (RLHF プリファレンスペアを含む) に適用され、完全性と真正性を確保している。

2

D/V

1.3.3

検証: ラベリング監査ログは改竄防止を備えており、ラベリングプラットフォームは不正な変更から保護している。

2

D/V

1.3.4

検証: ラベル内の機密情報は、保存時および転送時に適切な粒度を使用して訂正、匿名化、または暗号化されている。

2

D/V


C1.4 トレーニングデータの品質とセキュリティ保証 (Training Data Quality and Security Assurance)

自動バリデーション、手動スポットチェック、ログ記録された修復を組み合わせて、データセットの信頼性を保証します。

#
説明
レベル
ロール

1.4.1

検証: 自動テストは、すべての取り込みや重要なデータ変換で、フォーマットエラーやヌルを捕捉している。

1

D

1.4.2

検証: トレーニングとファインチューニングのパイプラインは、潜在的なデータポイズニングやトレーニングデータ内の意図しない破損を識別するために、データ完全性バリデーションとポイズニング検出技法 (統計解析、外れ値検出、エンベディング解析など) を実装している。

2

D/V

1.4.3

検証: (モデルや弱いスーパービジョンなどを介して) 自動的に生成されたラベルは、誤解を招くラベルや信頼性の低いラベルを検出するために、信頼性閾値と一貫性チェックの対象としている。

2

D/V

1.4.4

検証: リスク評価に基づいて、関連するモデルに対して、敵対的トレーニング、摂動入力によるデータ拡張、堅牢な最適化技法など、適切な防御策が実装および調整されている。

3

D/V

1.4.5

検証: 自動テストは、すべての取り込みや重要なデータ変換で、ラベルスキューを捕捉している。

2

D

1.4.6

検証: セキュリティ関連の判断 (不正使用の検出、不正スコアリング、自動的な信頼性判断など) に使用されるモデルは、攻撃者がコントロールを回避するために悪用する可能性のある体系的なバイアスパターン (例: 信頼できる言語スタイルや人口統計パターンを模倣して検出をバイパスするなど) について評価されている。

2

D/V


C1.5 データリネージとトレーサビリティ (Data Lineage and Traceability)

監査可能性とインシデント対応のために、ソースからモデル入力までの各データセットの完全な経路を追跡します。

#
説明
レベル
ロール

1.5.1

検証: すべての変換、拡張、マージを含む各データセットとそのコンポーネントのリネージは記録され、再構築できる。

1

D/V

1.5.2

検証: リネージレコードは不変であり、安全に保存され、監査のためにアクセス可能である。

2

D/V

1.5.3

検証: リネージ追跡は、拡張、合成、またはプライバシー保護技法を介して生成された合成データをカバーし、すべての合成データは明確にラベル付けされ、パイプライン全体を通して実際のデータと区別可能である。

2

D/V


参考情報

Last updated