敵対的学習

敵対的学習 (adversarial learning)†

スパムメールの検出や，アクセスログを利用したネットワークからの侵入検出に機械学習技術が利用されている．すると，送信や侵入を企てる敵対者 (adversary) は，意図的に入力パターンを変更して，検出を回避しようとする．こうした，敵対的な環境下での利用を想定した機械学習の研究は敵対的学習 (adversarial learning) や 敵対的環境下での機械学習 (machine learning in adversarial environments) と呼ばれる．

敵対者の攻撃を検出する識別器の頑健性の評価や強化する，敵対者側の立場から識別器を回避する，そして防御側と識別器の間のゲーム理論の立場からの均衡の考察などの研究がある．

ここでは，攻撃側の攻撃可能性についての文献1の研究を紹介する．

スパムフィルタなどの分類器があり，敵対者は，このフィルタを突破できるようなメールを送りつけたいという状況を想定する．

設定：スパムフィルタは二値分類器で，スパムを正クラスとする．敵対者は，任意の特徴量を持つ事例をメール送ることで，分類器にクエリを発することができ，リンクのクリック状況などからフィルタを通過したかどうかを知ることができる．さらに，正と負のそれぞれのクラスに識別される事例を一つずつ知っているとする．

単にスパムフィルタを通過するだけなら普通のメールを送ればよい．しかし，それでは敵対者にとって意味がない．敵対者にとっての事例の価値を示すのが，敵対コスト関数 (adversarial cost function)．ここでは，敵対者にとって理想的な事例 \(\mathbf{x}^a\)（当然，フィルタでは正クラスになる）と，対象の事例の間の絶対距離である線形敵対コスト関数を想定．

負例として分類される事例で，このコストが最小の事例を最小敵対コスト事例 (instances of minimal adversarial cost; IMAC) という．その \(k\) 近似，すなわち，最小コストのたかだかk倍のコストの負事例を \(k\)-IMAC という．敵対的分類器リバースエンジニアリング (adversarial classifier reverse engineering; ACRE) \(k\)-学習可能とは，たかだか多項式個のクエリで \(k\)-IMAC を発見可能なこと．

文献1では，フィルタが線形分類器の場合に，特徴量が実数と二値のそれぞれの場合について\(k\)-ACRE学習可能なアルゴリズムを示している．