Bias on the Web†
@article{macm:18:01,
Author = {R. Baeza-Yates},
Journal = {Communications of the {ACM}},
Number = {6},
Pages = {54-61},
Title = {Bias on the Web},
Volume = {61},
Year = {2018}}
キーワード†
Web, 偏り, バイアス
Webの情報に生じる各種のバイアスについてのまとめ.最初の図1と最後表はバイアス(偏り)のすばらしい要約.偏りを除こうとする試み自体も偏り.
- 偏りの解消には,偏りを自覚することが必要.
- 偏りは古来からあったが,Web時代には,その影響の拡散は速くなった.
- アルゴリズムの適用範囲の拡大や,SNSなどの生活への影響力の増加 → 偏りの影響も増大
偏りの計測†
- 統計バイアス:推定や標本化過程の不正確さによる,組織的な偏差
- 文化バイアス:共有された個人の信念の偏り
- 認知バイアス:個人の行動や方針の決定に影響
活動バイアス または 少数の知恵 (Wisdom of Few)†
- 活動バイアス:人々がどのようにWebを使うかと,Webを使わない人々によるもの
- 2011年,Twitter,50%の利用者は,0.05%の人をフォロー
- ソーシャルメディアで半分以上のコンテンツを作る活動的なWeb利用者の割合
- 仮説:投稿せずに見るだけの大多数の利用者が大多数 → 確認された
- Facebook, 4万利用者,2009年,7%の利用者が50%のコンテンツを生産
- 2011年,1200万 Twitter利用者ではたった2%
- 英語のWikipediaはたったの0.04%,たった2000人のみ
- 2013年のAmazonレビューは4%
- 2015/10〜2016年,Amazonの対偽レビューキャンペーン → 1000人が該当
- helpfulマークが付いたものは2.5%に減る.
- 利用者のhelpfulと文章の質は正相関.
- Zipf's least-effort principle
- 図2:UKのリンク数とWebページ数
- Zipf則の傾きは,リンク数が少ないときにはそれほど負ではないが,多くなると急になる → shame effect
- 労力を減らしたいと思う人が多いことも,積極的に活動したい人が多いことも,同時にWeb上の活動
- Herbert Simon "A wealth of information creates a poverty of attention."
- digital dessert:誰も見ないWebページ:大きさはWebの 1〜31% と思われる
- フォローワーなし利用者のツイート=1.1%
- Wikipedia 2014年5月に編集された 31% のページは,6月に一度も閲覧されない
- 活動バイアスによって,キャッシュが有効に働くので,トラフィックの増加が抑えられている
データバイアス†
- (1) 個人属性の偏り:高学歴,高収入得,技術的
- Webサイトの50%以上は英語だが,英語が母語の人口は5%,話者は13% → 地理的な偏りが予測される
- 図3:スペインのWebサイトからのリンク先,ある国へのリンク数とその国の輸出量の相関は0.8と非常に高い
- (2) 複数バイアスの相互作用
- 図4:Wikipediaの伝記のうち女性の割合が少ない
- 女性の割合が少ないのは歴史的な性差別による影響
- Wikipediaの女性編集者は12%より少なく,女性を取り上げない
- ソーシャルメディアのデータは,一様ランダムにサンプルされたものではない → 全体への結果として外挿してはいけない
- たとえデータにバイアスがないとしても,公平な予測についての人間のコンセンサスはない → アルゴリズムに反映できない
- he-she と surgeon-nurse 間に関連性がある語の埋め込み
- 70%の有力ジャーナリストは男性なので,ニュースから学習するとそれを反映してしまう
- 性別に対しては,バイアスを除去した空間を作る方法が提案されている
- 多くのニュースは首都など地理的に偏りがあり,それを修正したニュースの生成も行われている
- タグ推薦で推薦されたタグを選ぶ方が便利で,新しいタグを入力しなくなり,結果としてデータに偏りが生じて,よいタグを推薦できなくなっていく.
- あるサイトで推薦システムが選ぶアイテムによっって,利用者が探索するアイテムの範囲が決まってしまう.
利用者間対話の変更†
- presentation bias:利用者に提示するかどうかの選択
- 過去に利用実績のない新規アイテムは推薦されない
- バンディットを使った解消法もあるが,探索はコストや損失としてみなされる
- position bias:ランキングで上位に表示されるかどうか
- Web検索の評価にあたっては表示順位の影響を排除する試みが行われている
- 利用者対話で生じるバイアス
- スクロールしないと見えないWebページは一種のpresentationバイアスがある
- 画像の近辺のコンテンツは非常にクリックされやすくなる.
- 図5:Webページ閲覧の注視点密度.positionバイアスより,画像方が強力.右カラムの広告もやや視線を集めている.
- 社会的偏り:他の人からどのようにコンテンツが届くかが判断に影響
- 本当は低スコアを付けるつもりでも,既に多くの人が高スコアを付けていると高めのスコアを付けてしまう → social conformity / the herding effect
- 利用するデバイスの影響
- マウスでクリックするだけの人と,視線に合わせて動かす人がいる
- スクロールバーに気づかない人,じっくり読む人,流し読みする人
- 利用者自身の選択による偏り → 自身の確信と同じものを選ぶ
- これらの偏りが繋がるため,問題はさらに複雑に
- 図6:ある偏りが,他の偏りに与える影響
- マウスでスクロールする人は,マウスの動かし方がクリックする対象の選択に影響
- 利用者体験の分析には,対話による偏りの影響は大きい
- 多くのWebシステムは暗黙フィードバックを最大化するように設計されている
- この最適化に機械学習を用いているので,自身や他の関連サイトの偏りを強化してしまい,結果として準最適な結果にしかならない
- 広告を多数出すか,利用者体験を重視するか,異なる最適化目標が対立することもある.
偏りの悪循環†
- 偏りのあるコンテンツは,他のコンテンツの生成の偏りを助長する
- このコンテンツ生成過程は,作者だけでなく,レビュー,コメント,他のソーシャルネットポストに影響
- こうしたメッセージのドリフトは,検索で選択するコンテンツやランキングの方法でも生じる
- 2008年,チリ,35%のコンテンツはコピー
- 意味的コピー (semantic dupulication) は広く拡散し,誤解を招く
- この過程は,2次偏りの悪循環を誘因する
- 上位にランクされるページは,ますますクリックされやすくなり,上位にランクされやすい
- コンテンツの複製のため,悪いページと良いページを区別しにくくなる
- Webスパマーは,良いページであるふりのために,良いコンテンツをコピーする
- 全ての偏りを排除できなければ,検索エンジンは自身の性能を低下させてしまう.
- 個人化による2次偏り
- 個人化でWebのコンテンツは影響されないが,利用者に提示される内容は変わる
- 今まで見ていたコンテンツに合わせるので,利用者自身の選択バイアスが強化される
- → 本当に欲しいかもしれない,新世界のコンテンツに触れることができなくなる.
- 対策:協調フィルタリング,コンテキスト依存化,多様性・新規性・セレンティ日ティの強化
- これらの対策は必要になる個人情報も減るので,プライバシの観点からも望ましい.
まとめ†
- 全ての個人の偏りと関連があるため,Webでの偏りはここで述べたよりずっと複雑
- 逆に,Webだけでなく,モバイルやIoTでも生じる問題
- 最後の表
- 偏りの型は大きく三つのクラスタに:アルゴリズムによる,両者による(データ,2次),利用者による(活動,利用者対話,自己選択)
- 1行目の?マークは,利用者ではなく作成者の認知・文化的偏りが反映されているであろうことを示す
- 2017年,ACMが提示した,透明性と説明責任のための七つの性質
- awareness(認知)/ access & redress(参照と修正)/ accountability(説明責任)/ explanation(説明)/ data provenance(データの来歴)/ auditability(監査可能)/ validation & testing(検証と試験)
- IEEE:2017年に標準化を開始
- 2018年2月,CSでのethicsに関する国際会議が少なくとも二つ
- 著者らのプロジェクト fairness measures http://fairness-measures.org
- 偏りをなくそうとする試み自体,文化的・認知的偏りがある (As any attempt to be unbiased might already be biased through our own cultural and cognitive biases)
- 偏りに気づくことが最初の段階,気づいていなければ対処はできない.
- もし気づきがなければ,偏った認識に基づいた将来になり,多様性・新規性・セレンティビティではそうした世界からは脱出できなくなるだろう.