Paper/bias-on-the-web
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* Bias on the Web [#o50056a1]
@article{macm:18:01,
Author = {R. Baeza-Yates},
Journal = {Communications of the {ACM}},
Number = {6},
Pages = {54-61},
Title = {Bias on the Web},
Volume = {61},
Year = {2018}}
* キーワード [#afe4dff4]
Web, 偏り, バイアス
* メモ [#m065d297]
Webの情報に生じる各種のバイアスについてのまとめ.最初の図...
----
- 偏りの解消には,偏りを自覚することが必要.
- 偏りは古来からあったが,Web時代には,その影響の拡散は速...
- アルゴリズムの適用範囲の拡大や,SNSなどの生活への影響力...
* 偏りの計測 [#l0cd1375]
- 統計バイアス:推定や標本化過程の不正確さによる,組織的...
- 文化バイアス:共有された個人の信念の偏り
- 認知バイアス:個人の行動や方針の決定に影響
- 図1:Webの成長と利用に,偏りが与える影響
* 活動バイアス または 少数の知恵 (Wisdom of Few) [#iacc5f...
- 活動バイアス:人々がどのようにWebを使うかと,Webを使わ...
- 2011年,Twitter,50%の利用者は,0.05%の人をフォロー
- ソーシャルメディアで半分以上のコンテンツを作る活動的なW...
- 仮説:投稿せずに見るだけの大多数の利用者が大多数 → 確認...
-- Facebook, 4万利用者,2009年,7%の利用者が50%のコンテン...
-- 2011年,1200万 Twitter利用者ではたった2%
-- 英語のWikipediaはたったの0.04%,たった2000人のみ
- 2013年のAmazonレビューは4%
- 2015/10〜2016年,Amazonの対偽レビューキャンペーン → 100...
- helpfulマークが付いたものは2.5%に減る.
- 利用者のhelpfulと文章の質は正相関.
- Zipf's least-effort principle
- 図2:UKのリンク数とWebページ数
- Zipf則の傾きは,リンク数が少ないときにはそれほど負では...
-- 労力を減らしたいと思う人が多いことも,積極的に活動した...
- Herbert Simon "A wealth of information creates a povert...
- digital dessert:誰も見ないWebページ:大きさはWebの 1〜...
-- フォローワーなし利用者のツイート=1.1%
-- Wikipedia 2014年5月に編集された 31% のページは,6月に...
- 活動バイアスによって,キャッシュが有効に働くので,トラ...
* データバイアス [#hf99ac4f]
- (1) 個人属性の偏り:高学歴,高収入得,技術的
-- Webサイトの50%以上は英語だが,英語が母語の人口は5%,話...
-- 図3:スペインのWebサイトからのリンク先,ある国へのリン...
- (2) 複数バイアスの相互作用
- 図4:Wikipediaの伝記のうち女性の割合が少ない
-- 女性の割合が少ないのは歴史的な性差別による影響
-- Wikipediaの女性編集者は12%より少なく,女性を取り上げない
- (3) スパムデータ
-- 2003年で,20%のWebページはコピー
- ソーシャルメディアのデータは,一様ランダムにサンプルさ...
* アルゴリズムバイアスと公平性 [#x2962a18]
- たとえデータにバイアスがないとしても,公平な予測につい...
- he-she と surgeon-nurse 間に関連性がある語の埋め込み
-- 70%の有力ジャーナリストは男性なので,ニュースから学習...
-- 性別に対しては,バイアスを除去した空間を作る方法が提案...
- 多くのニュースは首都など地理的に偏りがあり,それを修正...
-- タグ推薦で推薦されたタグを選ぶ方が便利で,新しいタグを...
- あるサイトで推薦システムが選ぶアイテムによっって,利用...
* 利用者間対話の変更 [#y995931a]
- presentation bias:利用者に提示するかどうかの選択
-- 過去に利用実績のない新規アイテムは推薦されない
-- バンディットを使った解消法もあるが,探索はコストや損失...
- position bias:ランキングで上位に表示されるかどうか
-- Web検索の評価にあたっては表示順位の影響を排除する試み...
- 利用者対話で生じるバイアス
-- スクロールしないと見えないWebページは一種のpresentatio...
-- 画像の近辺のコンテンツは非常にクリックされやすくなる.
--- 図5:Webページ閲覧の注視点密度.positionバイアスより...
- 社会的偏り:他の人からどのようにコンテンツが届くかが判...
-- 本当は低スコアを付けるつもりでも,既に多くの人が高スコ...
- 利用するデバイスの影響
-- マウスでクリックするだけの人と,視線に合わせて動かす人...
-- スクロールバーに気づかない人,じっくり読む人,流し読み...
- 利用者自身の選択による偏り → 自身の確信と同じものを選ぶ
- これらの偏りが繋がるため,問題はさらに複雑に
-- 図6:ある偏りが,他の偏りに与える影響
-- マウスでスクロールする人は,マウスの動かし方がクリック...
- 利用者体験の分析には,対話による偏りの影響は大きい
-- 多くのWebシステムは暗黙フィードバックを最大化するよう...
-- この最適化に機械学習を用いているので,自身や他の関連サ...
-- 広告を多数出すか,利用者体験を重視するか,異なる最適化...
* 偏りの悪循環 [#w6811f0f]
- 偏りのあるコンテンツは,他のコンテンツの生成の偏りを助...
- このコンテンツ生成過程は,作者だけでなく,レビュー,コ...
-- こうしたメッセージのドリフトは,検索で選択するコンテン...
-- 2008年,チリ,35%のコンテンツはコピー
-- 意味的コピー (semantic dupulication) は広く拡散し,誤...
- この過程は,2次偏りの悪循環を誘因する
-- 上位にランクされるページは,ますますクリックされやすく...
-- コンテンツの複製のため,悪いページと良いページを区別し...
-- Webスパマーは,良いページであるふりのために,良いコン...
- 全ての偏りを排除できなければ,検索エンジンは自身の性能...
- 個人化による2次偏り
-- 個人化でWebのコンテンツは影響されないが,利用者に提示...
-- 今まで見ていたコンテンツに合わせるので,利用者自身の選...
-- → 本当に欲しいかもしれない,新世界のコンテンツに触れる...
- 対策:協調フィルタリング,コンテキスト依存化,多様性・...
-- これらの対策は必要になる個人情報も減るので,プライバシ...
* まとめ [#u938c9f1]
- 全ての個人の偏りと関連があるため,Webでの偏りはここで述...
- 逆に,Webだけでなく,モバイルやIoTでも生じる問題
- 最後の表
-- 偏りの型は大きく三つのクラスタに:アルゴリズムによる,...
-- 1行目の?マークは,利用者ではなく作成者の認知・文化的...
- 2017年,ACMが提示した,透明性と説明責任のための七つの性質
-- awareness(認知)/ access & redress(参照と修正)/ acc...
- IEEE:2017年に標準化を開始
- 2018年2月,CSでのethicsに関する国際会議が少なくとも二つ
- 著者らのプロジェクト fairness measures http://fairness-...
- 偏りをなくそうとする試み自体,文化的・認知的偏りがある ...
- 偏りに気づくことが最初の段階,気づいていなければ対処は...
- もし気づきがなければ,偏った認識に基づいた将来になり,...
終了行:
* Bias on the Web [#o50056a1]
@article{macm:18:01,
Author = {R. Baeza-Yates},
Journal = {Communications of the {ACM}},
Number = {6},
Pages = {54-61},
Title = {Bias on the Web},
Volume = {61},
Year = {2018}}
* キーワード [#afe4dff4]
Web, 偏り, バイアス
* メモ [#m065d297]
Webの情報に生じる各種のバイアスについてのまとめ.最初の図...
----
- 偏りの解消には,偏りを自覚することが必要.
- 偏りは古来からあったが,Web時代には,その影響の拡散は速...
- アルゴリズムの適用範囲の拡大や,SNSなどの生活への影響力...
* 偏りの計測 [#l0cd1375]
- 統計バイアス:推定や標本化過程の不正確さによる,組織的...
- 文化バイアス:共有された個人の信念の偏り
- 認知バイアス:個人の行動や方針の決定に影響
- 図1:Webの成長と利用に,偏りが与える影響
* 活動バイアス または 少数の知恵 (Wisdom of Few) [#iacc5f...
- 活動バイアス:人々がどのようにWebを使うかと,Webを使わ...
- 2011年,Twitter,50%の利用者は,0.05%の人をフォロー
- ソーシャルメディアで半分以上のコンテンツを作る活動的なW...
- 仮説:投稿せずに見るだけの大多数の利用者が大多数 → 確認...
-- Facebook, 4万利用者,2009年,7%の利用者が50%のコンテン...
-- 2011年,1200万 Twitter利用者ではたった2%
-- 英語のWikipediaはたったの0.04%,たった2000人のみ
- 2013年のAmazonレビューは4%
- 2015/10〜2016年,Amazonの対偽レビューキャンペーン → 100...
- helpfulマークが付いたものは2.5%に減る.
- 利用者のhelpfulと文章の質は正相関.
- Zipf's least-effort principle
- 図2:UKのリンク数とWebページ数
- Zipf則の傾きは,リンク数が少ないときにはそれほど負では...
-- 労力を減らしたいと思う人が多いことも,積極的に活動した...
- Herbert Simon "A wealth of information creates a povert...
- digital dessert:誰も見ないWebページ:大きさはWebの 1〜...
-- フォローワーなし利用者のツイート=1.1%
-- Wikipedia 2014年5月に編集された 31% のページは,6月に...
- 活動バイアスによって,キャッシュが有効に働くので,トラ...
* データバイアス [#hf99ac4f]
- (1) 個人属性の偏り:高学歴,高収入得,技術的
-- Webサイトの50%以上は英語だが,英語が母語の人口は5%,話...
-- 図3:スペインのWebサイトからのリンク先,ある国へのリン...
- (2) 複数バイアスの相互作用
- 図4:Wikipediaの伝記のうち女性の割合が少ない
-- 女性の割合が少ないのは歴史的な性差別による影響
-- Wikipediaの女性編集者は12%より少なく,女性を取り上げない
- (3) スパムデータ
-- 2003年で,20%のWebページはコピー
- ソーシャルメディアのデータは,一様ランダムにサンプルさ...
* アルゴリズムバイアスと公平性 [#x2962a18]
- たとえデータにバイアスがないとしても,公平な予測につい...
- he-she と surgeon-nurse 間に関連性がある語の埋め込み
-- 70%の有力ジャーナリストは男性なので,ニュースから学習...
-- 性別に対しては,バイアスを除去した空間を作る方法が提案...
- 多くのニュースは首都など地理的に偏りがあり,それを修正...
-- タグ推薦で推薦されたタグを選ぶ方が便利で,新しいタグを...
- あるサイトで推薦システムが選ぶアイテムによっって,利用...
* 利用者間対話の変更 [#y995931a]
- presentation bias:利用者に提示するかどうかの選択
-- 過去に利用実績のない新規アイテムは推薦されない
-- バンディットを使った解消法もあるが,探索はコストや損失...
- position bias:ランキングで上位に表示されるかどうか
-- Web検索の評価にあたっては表示順位の影響を排除する試み...
- 利用者対話で生じるバイアス
-- スクロールしないと見えないWebページは一種のpresentatio...
-- 画像の近辺のコンテンツは非常にクリックされやすくなる.
--- 図5:Webページ閲覧の注視点密度.positionバイアスより...
- 社会的偏り:他の人からどのようにコンテンツが届くかが判...
-- 本当は低スコアを付けるつもりでも,既に多くの人が高スコ...
- 利用するデバイスの影響
-- マウスでクリックするだけの人と,視線に合わせて動かす人...
-- スクロールバーに気づかない人,じっくり読む人,流し読み...
- 利用者自身の選択による偏り → 自身の確信と同じものを選ぶ
- これらの偏りが繋がるため,問題はさらに複雑に
-- 図6:ある偏りが,他の偏りに与える影響
-- マウスでスクロールする人は,マウスの動かし方がクリック...
- 利用者体験の分析には,対話による偏りの影響は大きい
-- 多くのWebシステムは暗黙フィードバックを最大化するよう...
-- この最適化に機械学習を用いているので,自身や他の関連サ...
-- 広告を多数出すか,利用者体験を重視するか,異なる最適化...
* 偏りの悪循環 [#w6811f0f]
- 偏りのあるコンテンツは,他のコンテンツの生成の偏りを助...
- このコンテンツ生成過程は,作者だけでなく,レビュー,コ...
-- こうしたメッセージのドリフトは,検索で選択するコンテン...
-- 2008年,チリ,35%のコンテンツはコピー
-- 意味的コピー (semantic dupulication) は広く拡散し,誤...
- この過程は,2次偏りの悪循環を誘因する
-- 上位にランクされるページは,ますますクリックされやすく...
-- コンテンツの複製のため,悪いページと良いページを区別し...
-- Webスパマーは,良いページであるふりのために,良いコン...
- 全ての偏りを排除できなければ,検索エンジンは自身の性能...
- 個人化による2次偏り
-- 個人化でWebのコンテンツは影響されないが,利用者に提示...
-- 今まで見ていたコンテンツに合わせるので,利用者自身の選...
-- → 本当に欲しいかもしれない,新世界のコンテンツに触れる...
- 対策:協調フィルタリング,コンテキスト依存化,多様性・...
-- これらの対策は必要になる個人情報も減るので,プライバシ...
* まとめ [#u938c9f1]
- 全ての個人の偏りと関連があるため,Webでの偏りはここで述...
- 逆に,Webだけでなく,モバイルやIoTでも生じる問題
- 最後の表
-- 偏りの型は大きく三つのクラスタに:アルゴリズムによる,...
-- 1行目の?マークは,利用者ではなく作成者の認知・文化的...
- 2017年,ACMが提示した,透明性と説明責任のための七つの性質
-- awareness(認知)/ access & redress(参照と修正)/ acc...
- IEEE:2017年に標準化を開始
- 2018年2月,CSでのethicsに関する国際会議が少なくとも二つ
- 著者らのプロジェクト fairness measures http://fairness-...
- 偏りをなくそうとする試み自体,文化的・認知的偏りがある ...
- 偏りに気づくことが最初の段階,気づいていなければ対処は...
- もし気づきがなければ,偏った認識に基づいた将来になり,...
ページ名: