V2. モデルのライフサイクル (Model Lifecycle)

管理目標

LLM を搭載したシステム内で使用されるモデルの機械学習 (Machine Learning, ML) が、データセットのキュレーション、モデルのトレーニング、バリデーションによるさまざまなセキュリティ脅威を考慮していることを確保します。

#
要件
L1
L2
L3

2.1

機械学習モデルのライフサイクルが既存のセキュアソフトウェア開発ライフサイクル (Secure Software Development Lifecycle, SSDLC) に統合されるように確保します。定義されたプロセスが存在し、ML モデルのライフサイクルの各ステージにおいて利用できる必要があります。

2.2

新しく作成される ML モデルの要件とユースケースを定義するユーザーストーリーを文書化します。

2.3

モデルのトレーニングリソースとデータセットが信頼できるソースから取得され、正確性を検証しているか、悪意のあるデータがないことを確保します。

2.4

モデルのトレーニングリソースとデータセットが取得後に不正な変更から適切に保護されていることを確保します。

2.5

トレーニングリソースとデータセットのソースが文書化されていることを確保します。

2.6

内部脅威によるデータポイズニングのリスクを軽減するために、オリジナルのトレーニングリソースに対するデータクリーニングやその他の変更が追跡され、監査可能であることを確保します。

2.7

潜在的なライセンスや著作権侵害の問題を回避するために、モデルのトレーニングリソースとデータセットの知的財産権をチェックしていることを確保します。このプロセスが文書化され、監査可能であることを確保します。

2.8

モデルのトレーニングリソースが機密データ (個人情報、社内データなど) について監査され、モデルのレスポンスにおける機密データの露出を軽減するために、トレーニング前にクリーニングされていることを確保します。

2.9

基本モデルや事前トレーニング済みモデルの安全な取得と保管を確保します。

2.10

可能であれば、PyTorch の Pickle 形式などの安全でないシリアライゼーションを使用する形式よりも SafeTensors などの安全なモデル形式を選択します。

2.11

モデルのパフォーマンス低下につながる可能性のある無関係なデータポイントを制限するために、基本モデルをファインチューニングされることを確保します。

2.12

モデルのトレーニングデータを取扱いおよび処理する際のコンプライアンスを確保するための規制上の義務を確認します。

2.13

ML 部品表 (Bill-of-Materials, BOM) がモデルごとに作成されることを確保します。

2.14

モデル窃取が懸念される場合やモデルの出力を識別可能にする必要がある場合は、モデルレスポンスの電子透かし技法を検討します。

2.15

バイアスを検出し、公平性を確保するためのツールが ML モデルのライフサイクルに統合されていることを確保します。

2.16

インジェクション攻撃、脱獄の試み、その他の悪用などの LLM の脆弱性を検出するセキュリティツールが ML モデルのライフサイクルに統合されていることを確保します。

2.17

モデルがデプロイメントを完了する前に、徹底的なリスク評価を実施して、潜在的なセキュリティリスク、倫理リスク、運用リスクを把握します。この評価はモデルのデプロイメントに関する意思決定のプロセスの指針となります。

2.18

使用されなくなったモデルを廃止するための明確な計画があることを確保します。これは、不正アクセスや悪用を防ぐために、データ、モデルパラメータ、モデルに関連する機密情報を安全に消去することを含みます。

Last updated