ML07:2023 転移学習攻撃 (Transfer Learning Attack)
説明
転移学習攻撃は攻撃者があるタスクでモデルを訓練した後、別のタスクでモデルを微調節して望ましくない動作をさせることで発生します。
防止方法
訓練データセットを定期的に監視して更新する: 訓練データを定期的に監視して更新することで、攻撃者のモデルからターゲットのモデルへの悪意のある知識の転送を防止できます。
安全で信頼できる訓練データセットを使用する: 安全で信頼できる訓練データセットを使用することで、攻撃者のモデルからターゲットのモデルへの悪意のある知識の転送を防止できます。
モデルの分離を実装する: モデルの分離を実装することで、あるモデルから別のモデルへの悪意のある知識の転送を防止できます。 たとえば、訓練環境とデプロイメント環境を分離することで、攻撃者が訓練環境からデプロイメント環境に知識を転送することを防止できます。
差分プライバシーを使用する: 差分プライバシーを使用することで、訓練データセット内の個々のレコードのプライバシーを保護し、攻撃者のモデルからターゲットのモデルへの悪意のある知識の転送を防止できます。
定期的にセキュリティ監査を実施する: 定期的にセキュリティ監査を行い、システム内の脆弱性を特定して対処することで、転移学習攻撃を特定して防止できます。
リスク要因
本チャートは 下記のシナリオ に基づくサンプルに過ぎないことに注意することが重要です。 実際のリスク評価は各機械学習システムの具体的な状況によって異なります。
攻撃シナリオの例
シナリオ #1: 悪意のあるデータセットで機械学習モデルを訓練する
攻撃者は操作された顔画像を含む悪意のあるデータセットで機械学習モデルを訓練します。 攻撃者はセキュリティ企業が人物検証に使用する顔認識システムを標的にしようと考えています。
攻撃者はモデルの知識を標的の顔認識システムに転送します。 標的のシステムは攻撃者が操作したモデルを使用して人物検証を開始します。
その結果、顔認識システムは不正確な予測を行うようになり、攻撃者はセキュリティをバイパスして機密情報にアクセスできるようになります。 たとえば、攻撃者は操作した自分自身の画像を使用して、システムは攻撃者を正当なユーザーとして識別するかもしれません。
参考資料
Last updated