ML08:2023 モデル歪曲 (Model Skewing)

説明

モデル歪曲攻撃は攻撃者が訓練データの分布を操作してモデルを望ましくない動作をさせることで発生します。

防止方法

堅牢なアクセス制御を実装する: 認可された担当者のみが MLOps システムとそのフィードバックループにアクセスできるようにし、すべてのアクティビティがログ記録され監査されるようにします。

フィードバックデータの真正性を検証する: デジタル署名やチェックサムなどの技法を使用して、システムが受け取ったフィードバックデータが本物であることを検証し、期待される形式と一致しないデータはすべて拒否します。

データのバリデーションとクリーニングの技法を使用する: フィードバックデータを使用して訓練データを更新する前にクリーニングと検証を行い、不正確なデータや悪意のあるデータが使用されるリスクを最小限に抑えます。

異常検知を実装する: 統計的手法や機械学習ベースの手法などの技法を使用して、攻撃を示唆するようなフィードバックデータの異常を検知して警告します。

モデルの性能を定期的に監視する: モデルの性能を継続的に監視し、その予測と実際の結果を比較して、偏りや歪みを検知します。

モデルを継続的に訓練する: 更新および検証された訓練データを使用してモデルを定期的に再訓練し、最新の情報や傾向が引き続き反映されるようにします。

リスク要因

脅威エージェント/攻撃手法
セキュリティ上の弱点
影響

悪用難易度: 5 (容易) ML アプリケーション依存: 4 攻撃者は機械学習プロジェクトとその脆弱性を明確に理解しています。 ML オペレーション依存: 3 訓練データの操作には機械学習プロセスの知識が必要です。

検出難易度: 2 (困難) モデル歪曲はテストフェーズで気づくことが容易ではないかもしれません。

技術的影響: 5 (困難) 訓練データの操作は技術的に複雑な作業です。

脅威アクター: 悪意のあるアクターもしくはモデルの結果を操作することに既得権を持つ第三者。

モデルが訓練データの基本的な分布を正確に反映できない。 これはデータの偏り、データの不正確なサンプリング、攻撃者によるデータや訓練プロセスの操作などの要因によって発生する可能性があります。

モデルの出力に基づいて誤った決定がなされる可能性がある重大なリスク。 医療診断や刑事裁判などの重要な用途にモデル使用されている場合、経済的損失、風評被害、さらには個人への危害につながる可能性があります。

本チャートは 下記のシナリオ に基づくサンプルに過ぎないことに注意することが重要です。 実際のリスク評価は各機械学習システムの具体的な状況によって異なります。

攻撃シナリオの例

シナリオ #1: モデル歪曲による経済的利益

ある金融機関は機械学習モデルを使用してローン申請者の信用度を予測しており、モデルの予測はローン承認プロセスに統合されています。 攻撃者はローンが承認される可能性を高めたいと考え、MLOps システムのフィードバックループを操作します。 攻撃者はリスクの高い申請者が過去にローンを承認されたことを示す偽のフィードバックデータをシステムに提供し、このフィードバックを使用してモデルの訓練データを更新します。 その結果、モデルの予測は低リスクの申請者であると歪められ、攻撃者はローンを承認される可能性が大幅に高まります。

この種の攻撃はモデルの正確性と公平性を損ない、意図しない結果を招き、金融機関やその顧客に損害を与える可能性があります。

参考資料

Last updated