📗
owasp-top-10-for-large-language-model-applications
  • OWASP Top 10 for Large Language Model Applications ja
  • OWASP Top 10 大規模言語モデルアプリケーション 日本語版
    • OWASP Top 10 大規模言語モデルアプリケーション
    • リーダー
  • OWASP Top 10 大規模言語モデルアプリケーション 2.0 (2025) 日本語版
    • LLM01:2025 プロンプトインジェクション (Prompt Injection)
    • LLM02:2025 機密情報の開示 (Sensitive Information Disclosure)
    • LLM03:2025 サプライチェーン (Supply Chain)
    • LLM04:2025 データおよびモデルポイズニング (Data and Model Poisoning)
    • LLM05:2025 不適切な出力処理 (Improper Output Handling)
    • LLM06:2025 過剰なエージェンシー (Excessive Agency)
    • LLM07:2025 システムプロンプトの漏洩 (System Prompt Leakage)
    • LLM08:2025 ベクトルとエンベディングの脆弱性 (Vector and Embedding Weaknesses)
    • LLM09:2025 誤情報 (Misinformation)
    • LLM10:2025 無制限の消費 (Unbounded Consumption)
  • OWASP Top 10 大規模言語モデルアプリケーション 1.1 日本語版
    • LLM01: プロンプトインジェクション (Prompt Injection)
    • LLM02: 安全でない出力処理 (Insecure Output Handling)
    • LLM03: 訓練データポイズニング (Training Data Poisoning)
    • LLM04: モデルサービス拒否 (Model Denial of Service)
    • LLM05: サプライチェーン脆弱性 (Supply Chain Vulnerabilities)
    • LLM06: 機密情報の開示 (Sensitive Information Disclosure)
    • LLM07: 安全でないプラグイン設計 (Insecure Plugin Design)
    • LLM08: 過剰なエージェンシー (Excessive Agency)
    • LLM09: 過度の依存 (Overreliance)
    • LLM10: モデル窃取 (Model Theft)
Powered by GitBook
On this page
  • 説明
  • 脆弱性の一般的な例
  • 予防および緩和戦略
  • 攻撃シナリオの例
  • シナリオ #1
  • シナリオ #2
  • シナリオ # 3
  • シナリオ #4
  • シナリオ #5
  • 参考情報リンク
  • 関連するフレームワークと分類
  1. OWASP Top 10 大規模言語モデルアプリケーション 2.0 (2025) 日本語版

LLM04:2025 データおよびモデルポイズニング (Data and Model Poisoning)

PreviousLLM03:2025 サプライチェーン (Supply Chain)NextLLM05:2025 不適切な出力処理 (Improper Output Handling)

Last updated 4 months ago

説明

データポイズニングは、事前トレーニング、ファインチューニング、埋め込みデータが操作されて、脆弱性、バックドア、バイアスを持ち込まれたときに発生します。この操作は、モデルのセキュリティ、パフォーマンス、倫理的行動を損ない、有害な出力や能力の低下につながる可能性があります。一般的なリスクには、モデルのパフォーマンス低下、偏ったコンテンツや有害なコンテンツ、ダウンストリームシステムの悪用などがあります。

データポイズニングは、事前トレーニング (一般的なデータからの学習)、ファインチューニング (特定のタスクへのモデルの適応)、エンベディング (テキストから数値ベクトルへの変換)、転移学習 (事前学習済みモデルを新しいタスクで再利用) など、LLM ライフサイクルの様々な段階をターゲットにできます。これらの段階を理解することは、脆弱性がどこから発生するかを特定するのに役立ちます。トレーニングデータの改竄はモデルの正確な予測を行う能力に影響を影響を及ぼすため、データポイズニングは完全性攻撃とみなされます。検証されていないコンテンツや悪意のあるコンテンツが含まれている可能性のある外部データソースでは、リスクが特に高くなります。

さらに、共有リポジトリやオープンソースプラットフォームを通じて配布されるモデルは、データポイズニング以外のリスクを伴う可能性があります。たとえば、悪意のあるピクリングなどの技法で埋め込まれたマルウェアは、モデルがロードされるときに有害なコードを実行する可能性があります。また、ポイズニングはバックドアの実装を許す可能性があることも考慮してください。そのようなバックドアは、特定のトリガーが変更するまで、モデルの動作をそのままにしておくかもしれません。これはそのような変更をテストしたり検出することが難しくなり、事実上、モデルがスリーパーエージェントになる機会を生み出すかもしれません。

脆弱性の一般的な例

  1. 悪意のある行為者はトレーニング時に有害なデータを導入し、偏った出力をもたらします。"Split-View Data Poisoning" や "Frontrunning Poisoning" などの技法はモデルトレーニングダイナミクスを悪用してこれを実現します。 (参照リンク: ) (参照リンク: )

  2. 攻撃者は有害なコンテンツをトレーニングプロセスに直接注入し、モデルの出力品質を損なう可能性があります。

  3. ユーザーはインタラクション時に機密情報やプロプライエタリ情報を無意識のうちに注入し、その後の出力で開示される可能性があります。

  4. 検証されていないトレーニングデータは、偏った出力や誤った出力のリスクを高めます。

  5. リソースアクセス制限がないと、安全でないデータの取り込みを許可し、偏った出力となる可能性があります。

予防および緩和戦略

  1. OWASP CycloneDX や ML-BOM などのツールを使用してデータの起源と変化を追跡し、 などのツールを活用してサードパーティソフトウェアの動的解析を実行します。すべてのモデル開発段階においてデータの正当性を検証します。

  2. データベンダーを厳密に審査し、信頼できるソースに対してモデル出力を検証して、ポイズニングの兆候を検出します。

  3. 厳密なサンドボックスを実装して、検証されていないデータソースへのモデルの開示を制限します。異常検出技法を使用して、敵対的なデータを除外します。

  4. ファインチューニング用の特定のデータセット使用して、さまざまなユースケースに合わせてモデルを調整します。これは定義された目標に基づいてより正確な出力を生成するのに役立ちます。

  5. 十分なインフラストラクチャコントロールを確保し、モデルが意図しないデータソースにアクセスすることを防ぎます。

  6. データバージョンコントロール (DVC) を使用して、データセットの変更を追跡し、操作を検出します。バージョン管理はモデルの完全性を維持するために極めて重要です。

  7. ユーザーが提供した情報をベクトルデータベースに保存し、モデル全体を再トレーニングせずに調整できるようにします。

  8. レッドチームキャンペーンや、連合学習などの敵対的技法を使用してモデルの堅牢性をテストし、データ摂動の影響を最小限に抑えます。

  9. トレーニングの損失を監視し、モデルの動作を分析して、ポイズニングの兆候を探します。閾値を使用して異常な出力を検出します。

  10. 推論時に、検索拡張生成 (Retrieval-Augmented Generation, RAG) とグラウンディング技法を統合して、幻覚のリスクを軽減します。

攻撃シナリオの例

シナリオ #1

攻撃者は、トレーニングデータを操作したり、プロンプトインジェクション技法を使用して、モデルの出力に偏りを与え、誤った情報を拡散します。

シナリオ #2

適切なフィルタリングが行われていない有害なデータは、有害な出力や偏った出力につながり、危険な情報を伝播する可能性があります。

シナリオ # 3

悪意のある行為者や競合他社がトレーニング用に偽造されたドキュメントを作成し、その結果としてこれらの不正確さを反映したモデル出力が生まれます。

シナリオ #4

不適切なフィルタリングは、攻撃者がプロンプトインジェクションを介して誤解を招くデータを挿入し、侵害された出力につながる可能性があります。

シナリオ #5

攻撃者がポイズニング技法を使用して、モデルにバックドアトリガーを挿入します。これは、認証のバイパス、データの流出、隠しコマンドの実行を許してしまう可能性があります。

参考情報リンク

関連するフレームワークと分類

インフラストラクチャデプロイメント、適用される環境制御、その他のベストプラクティスに関する包括的な情報、シナリオ戦略については、このセクションを参照してください。

: CSO Online

: MITRE ATLAS

: Mithril Security

: Arxiv White Paper 2305.00944

: Stanford MLSys Seminars YouTube Video

OffSecML

JFrog

: Towards Data Science

TrailofBits

Anthropic (arXiv)

Cobalt

MITRE ATLAS

: Strategies for ensuring AI integrity. NIST

OWASP Machine Learning Security Top Ten

Split-View Data Poisoning
Frontrunning Poisoning
Dyana
How data poisoning attacks corrupt machine learning models
MITRE ATLAS (framework) Tay Poisoning
PoisonGPT: How we hid a lobotomized LLM on Hugging Face to spread fake news
Poisoning Language Models During Instruction
Poisoning Web-Scale Training Datasets - Nicholas Carlini | Stanford MLSys #75
ML Model Repositories: The Next Big Supply Chain Attack Target
Data Scientists Targeted by Malicious Hugging Face ML Models with Silent Backdoor
Backdoor Attacks on Language Models
Never a dill moment: Exploiting machine learning pickle files
arXiv:2401.05566 Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
Backdoor Attacks on AI Models
AML.T0018 | Backdoor ML Model
NIST AI Risk Management Framework
ML07:2023 Transfer Learning Attack