ML08:2023 モデル歪曲 (Model Skewing)
説明
モデル歪曲攻撃は攻撃者が訓練データの分布を操作してモデルを望ましくない動作をさせることで発生します。
防止方法
堅牢なアクセス制御を実装する: 認可された担当者のみが MLOps システムとそのフィードバックループにアクセスできるようにし、すべてのアクティビティがログ記録され監査されるようにします。
フィードバックデータの真正性を検証する: デジタル署名やチェックサムなどの技法を使用して、システムが受け取ったフィードバックデータが本物であることを検証し、期待される形式と一致しないデータはすべて拒否します。
データのバリデーションとクリーニングの技法を使用する: フィードバックデータを使用して訓練データを更新する前にクリーニングと検証を行い、不正確なデータや悪意のあるデータが使用されるリスクを最小限に抑えます。
異常検知を実装する: 統計的手法や機械学習ベースの手法などの技法を使用して、攻撃を示唆するようなフィードバックデータの異常を検知して警告します。
モデルの性能を定期的に監視する: モデルの性能を継続的に監視し、その予測と実際の結果を比較して、偏りや歪みを検知します。
モデルを継続的に訓練する: 更新および検証された訓練データを使用してモデルを定期的に再訓練し、最新の情報や傾向が引き続き反映されるようにします。
リスク要因
本チャートは 下記のシナリオ に基づくサンプルに過ぎないことに注意することが重要です。 実際のリスク評価は各機械学習システムの具体的な状況によって異なります。
攻撃シナリオの例
シナリオ #1: モデル歪曲による経済的利益
ある金融機関は機械学習モデルを使用してローン申請者の信用度を予測しており、モデルの予測はローン承認プロセスに統合されています。 攻撃者はローンが承認される可能性を高めたいと考え、MLOps システムのフィードバックループを操作します。 攻撃者はリスクの高い申請者が過去にローンを承認されたことを示す偽のフィードバックデータをシステムに提供し、このフィードバックを使用してモデルの訓練データを更新します。 その結果、モデルの予測は低リスクの申請者であると歪められ、攻撃者はローンを承認される可能性が大幅に高まります。
この種の攻撃はモデルの正確性と公平性を損ない、意図しない結果を招き、金融機関やその顧客に損害を与える可能性があります。
参考資料
Last updated