第18回 情報論的学習理論と機械学習研究会†
このページはしましまが 第18回電子情報通信学会 情報論的学習理論と機械学習研究会 に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください.
9月 1日(月)†
○増井秀之・都築遼馬・宮 希望・松嶋敏泰(早大)
- AdaBoost で弱学習器を加えてその重みを指数損失を最小化するのではなく,現状の重みを急激には変化させないようなパラメータを導入
- 決定株を弱学習器にすると,適切な変数がモデルにとりこまれやすくなる
競合学習を用いた非負値行列因子分解†
○内山俊郎(北海道情報大)
- NMFの初期値を,ハードな球面クラスタリングの解で初期化することで,ランダムな初期値よりよい解を得る
2階層加重方程式の多段構成による多クラス識別†
○尺長 健・福田剛士・中岸久佳(岡山大)
- 固有空間でのマッチに基づく顔画像の個人識別問題
- 全員をまとめて識別する代わりに,全体を部分集合に一度分けてその部分集合を識別してから,そのあとで個人の識別に入る
[招待講演]ゲノミックセレクションで植物育種を加速する 〜 遺伝的能力を予測するためのモデリング手法 〜†
○岩田洋佳(東大)
- 2050年に90億人の食料をまかなうには?
- 穀物の生産効率を上げる → 高速DNAシーケンサによる遺伝子分析の活用
- ゲノミックセレクション:従来は観察してよいものを選ぶ → 年に1回しか選抜できない → DNA のマーカーに基づいて収量を予測する予測モデルを使って選抜
- 観察によらず,持っているゲノムで選抜をすると,実際の生育環境と違ってもよい → 人工的に効率化した生育環境で,年に何度も選別できる
- 砂漠などの不良環境でゲノムの影響モデルを作れば,あとはどこで実験しても改良ができる
- メキシコのLos Mochisの例:土壌は豊かだが,塩害が出ている → エタノール生産に使うソルガムの改良(塩害などのストレスに強い,高い糖度)
- 予測モデルの作り方
- 多検体について,長さ,重さ,糖度などの要素を測り,これらの検体の決まったゲノムを読む
- あとは形質とゲノムの関係を線形回帰する.高次元になるので正則化項などを導入.
- 予測はあまりよくない:予測値と観測値の相関は低い ← 環境の影響が大きい
回帰における問題点
- 目的変数の期待値周りの予測が良いが,いいところ・悪いところ両端は悪い → でも良い形質などの分布の端の方が重要
- 値そのものではなく,良さの順位を予測するランキング学習(RankingSVM / McRank)を使う
- ゲノムが小さいものは回帰がよいものもあったが,一般にはランキング学習がよかった
- 回帰でもランダムフォレストは良かった
米粒の形
- 地域ごとに米粒の形には,地域ごとに大きな差 → 遺伝子から形状を予測する
- 楕円フーリエ記述子で形状を記述 → 記述子の係数を予測するモデル
- 遺伝子の入力を特徴空間と,フーリエ記述子との共分散構造をモデル化(PLS)→ 基本的には当たるモデルが作れた
同じ作物でも,違う環境で作ると違う結果が得られる
- 環境などの影響を表す作物モデルと,遺伝子モデルの混合を考える
- 作物モデル:栄養・日長・温度に対する影響のモデル.それぞれに対する遺伝子からの依存性をモデル化
有望な掛け合わせの選択
- モデルに基づく次世代のシミュレーション
- なしの幸水:早生の品種.一般に早生のものは実が小さいが,幸水は比較的実が大きい
- 早生で大きな実を付ける次世代を,早生で小さいものと,遅くて大きいもので,幸水や豊水などの現状の品種より,よい次世代を作るものを見つける
計測はスケールしない
- UAV(ドローン)からの撮影画像で形質を予測する
- 2視点あるので3Dモデルが作れる
[招待講演]情報科学による農業のイノベーション†
○平藤雅之(農研機構)
- 十勝の日高:100haの畑を夫婦二人で運営すると1億ぐらいに
- 品種は重要
- ゆめちから:超強力の小麦.日本の中力粉とまぜると,欧州系の強力粉と同様のパンが作れる
- アマホマレ(テンサイ大根):
- ドイツの種苗会社:X線撮影で種を選別 → プライミング(薬品や微生物などで種苗を整える)
- 超小型シーケンサ nanoporetech.com :シリコン上に明けた穴を通過する電流で塩基を識別
- 形質 + ICT → Phenomics
農業機械のM2M
- 日本の農業機械は小さく・安くだったので,大きく・高くの海外のものから10〜20年の遅れ → ただし北海道は除く
- 可変施肥システム
- 小型用の農業機械の国際標準をISOにした
- 農業機械通信制御のインターフェース
UAV(ドローン)による近接リモートセンシング
生産履歴
- 肥料をいつやったとかの履歴
- クラウド化しようとした → 個人情報の問題で挫折 → ローカルデータの統合
- 100ha規模:40TB/年(ドローン画像25TB)→ クラウドを借りると高い
- ラズベリーパイでのクラスタ:Mahout でニューラルネットのBPをやってみている
環境-植物系の網羅的測定
- 環境を最適化して植物の生育を促進
- 植物個体の生長計測装置:いろいろな環境を作り,生長過程を見る
- 同じ環境でも生育には大きな差があった → ニューロで予測できた
- 群落にするとどうなるか?
- 同様の実験環境を作った
- 植物は,夜の間に動いて日光を得るための場所取りをしている → 植物動態
- 動きと成長速度には線形の関係
- 環境と他の植物との関係などを考慮したモデル → 遺伝アルゴリズムで最適化
- センサーネットで環境情報を得る → 目的に合わせてセンサーをいろいろ作り直す必要
- なかなか行けない場所には事前に設計できない → 現地で部品を組み立てる
- センサーネットを作る環境の整備が必要 → Fablab:工作をできる店舗
- センサーネットのオープン化:Open-FS (field server)
- Arduino を使うキット,Twitter にデータが流れてくる
- 土壌水分センサの電極は缶詰のカンでキャパシタンスを
- 最上部と最下部での光量の差を太陽電池で測って植物の生育状況を測る
- 水位の測定:安価な超音波ソナー → 異常値は出るのだが,異常値処理をすると使えた
- 気楽に引っこ抜いたり,挿したりできる
3Dプリンタ
- 屋内での顕微カメラはできる
- 3Dプリンタで,顕微カメラをスマホに付けるアタプタ
- MEMSセンサ:分光データがとれるようになった
太陽電池
- センサーの補助電池の過充電の問題
- 収量が2割までなら,畑の上に置いても補助金が出る → 畑で赤字を出しても,太陽電池の収益を上げるモデルがでてきている
- 暗いところの電源を明るいところで補うことができるか?
自己想起ニューラルネットを用いた画像色解析による果実の自動判別†
○岡田彩加・大山 航・若林哲史・木村文隆(三重大)
- 梅の実の良否の識別 → 形状が様々なので,虫食いなどの有無の識別が難しい
- 明らかな不良の一次選別と全品検査による二次選別 → 一次選別を対象:良を不良と判定しないようにする
- La*b* 色空間中で,autoencoder を使って良品の構成する曲面を当てはめて,はずれ値を不良と識別
○金城篤史・伊藤雅紀・松尾行雄(東北学院大)・今泉智人・赤松友成(水産総研センター)
- 魚探の反応から魚種を識別する.深度と時刻の空間に,エコーの反応の大きさのデータ.
- 音波を広帯域にして,個々の魚の情報が得られるようになった
- target strength (TS) スペクトルを特徴量として採用:魚の浮き袋の形状の影響を見ることができる
- 4種の魚種をSVMで識別(魚種を調べるために,一匹ずつ釣っている)
誤り訂正符号を用いた特徴抽出量の次元圧縮法†
○松本 渉・山崎貴司・吉村玄太(三菱電機)
- 画像の一致を見るために,特徴量を次元削減して一致を見る
- 圧縮のための変換行列を疎行列を使う(LDPC符号のアイデア)
公正配慮型分類器の公正性に関する分析†
○神嶌敏弘・赤穂昭太郎・麻生英樹(産総研)・佐久間 淳(筑波大)
質問
共分散中立性リスクにおける中立経験リスク最小化†
○福地一斗・佐久間 淳(筑波大)
- 中立性を損なうリスクを表す項を導入したモデル
- 分類の関数 f とセンシティブな視点の関数 g の中立性をこれらの共分散で測る f も g もバイナリなので,分類の差がリスクだが,差の上界である最大値で置き換える緩和を導入 → 凸問題にできる
9月 2日(火)†
[招待講演] ダイナミクスサーフェスモデリングと応用†
タン トニー(京大)
- D3ビデオ:視点自由なビデオ.16台のカメラで撮った画像から,3Dの立体を再構成する
- フレーム間で,トポロジー(立体の繋がり)に一貫性を持たせる
- 各フレームのトポロジーの記述(Reebグラフ):複数の解像度 → フレームを個別に処理すると小さな出っ張りに対して枝が出たりとかのノイズ
- フレーム間でグラフを対応付ける:粗い解像度から細かいところへ合わせる,
- 類似したフレームをクラスタリングでまとめる:同じ姿勢が出る → 短時間で変化できる姿勢のモデルを作る
- 3Dビデオエンコード
- 3D表面モデルに画像を貼り付ける
- 3Dのモデルを時間的に整合のとれるように変形させる
- 表面のパッチを作って,貼り付ける画像を見つける(?),パッチごとに柔らかさなども予測(?)
[招待講演] クラウドソーシングとビッグデータ解析†
鹿島 久嗣(京大)
クラウドソーシング
- データ分析の労働集約性
- データの収集や洗浄と,結果の解釈などを含めると人間のやることは多い
- 実際の世界からデータに取り込めなかった情報は扱えない
- reCAPTCHA:読みにくい画像を,人間に文字を読ませて認証に使う.二つの画像のうち一つは,実際に認証,もう一つはコンピュータも正解を知らなくて,人間に読ませてデータを収集している
- クラウドソーシング:大量の人間にタスクを依頼
- 間接的:依頼したいタスクを別の形式に変換.認証などタスクを強制するものと,ゲーム化するなどで自発的にやってもらう
- 直接的:依頼したタスクをそのまま頼む.ボランティアとクラウドソーシング市場
- クラウドソーシング市場:Amazon Mechanical Turk など
- マイクロタスク(数分でできる.画像のラベル付けなど)マクロ(レビュー,Webサイトの機能チェック),単純なタスク(ロゴ作成),複雑なタスク(システム構築)
- マイクロタスク:1枚のレシートを読み取って数値を入力して6セント
- 計算機科学での利用:NLPや画像処理でのアノテーション,画像DBなどで,画像の同一性判定などのクエリ応答
クラウドソーシングを使った解析
- データ分析中で人間の作業をクラウドソーシングで処理
- 人間関数:入力に対してワーカーが計算結果を返すAPI(ラベル付けなどの依頼ができる)
- 解析のモデリング:コンペ形式のもので,上位のものが報酬を得られる.
- ワーカーごとの品質のばらつき(タスク処理能力の差,適当にやる不誠実な人)
- フィルタリング:フィルタリング(指標を使う),資格テスト,既知のタスクを混ぜておいて正解した人だけを採用
- 冗長化:同じタスクを複数の人に依頼する → 多いと品質は上がるが,コストも上がるので,よいトレードオフを達成したい
- 多数派に入る割合の多い人の信頼度を上げて重み付けすることで,単純な多数決よりよい結果を得たい
- Dawid&Skene:真の答えを潜在変数として,ワーカーそれぞれが正解する確率を,各ワーカーの実際の回答から予測する.EMアルゴリズムで予測できる.
クラウドソーシングを使ったモデリング
- モデリングをコンペ形式で行う:コンペ自体は KDD Cup などがあった
- コンペプラットフォーム:Kaggle, Crowd Solving, OPT DataScienceLab
- データ公開,予測の提出,結果のランク付け
- 実際にコンペをやってみた:Wikipedia にあるべき記事リンクを予測
- 最初に自分でやってみたモデルは,4日で抜かれて,優勝モデルは20%以上の向上があ
った
- 出てきたモデルのスタッキングをやると,さらに精度を向上できた
- ビッグデータ大学:教育用途のプラットフォーム,講義・演習をやるような問題を扱う
- セキュリティ・プライバシ:データをパブリックには出せない → データの一部を置換・抑制して出さざるおえない
- 画像のラベル付けで,分割して一部を表示することで,
- 人間に任せるのは人工知能研究の敗北? → 新しい知能の研究である
混合メンバシップ・ブロックモデルのテンソルスペクトル分解を用いた推定法の改良†
○貝ヶ石 亘(東大)・鹿島久嗣(京大)
- グラフクラスタリングの混合メンバシップ・ブロックモデル:ノードは複数のクラスタに所属,ノード間にエッジが存在する確率は,両端のノードのクラスタ所属と接続確率行列で決まる
- 最尤推定では大域最適解が得られない → テンソルスペクトル:最適解が求まる.提示の経験モーメントとの誤差を最小化
- Anandkumar 従来法はパラメータの範囲などに制限があったがそれをはずす
オラクル分布を用いたサンプリング学習アルゴリズム†
○園田 翔・村田 昇(早大)
- ニューラルネットは非凸最適化で初期化依存
- オラクル分布:中間層のパラメータの確率分布 → 目標とする関数はオラクル分布上での期待値で得られる
- オラクル分布を構成して,そこからサンプリングして学習すると,有利な解に収束する
連続データに対するユニバーサルなベイズ測度の収束率について†
○綾野孝則・鈴木 譲(阪大)
- ユニバーサルなベイズ速度:符号系列の生じる確率.パラメータの事前分布を考え,そのJeffreys分布での系列の生起確率 P^n の期待値である Q^n として離散の場合は構成できる.
- 連続なときは,区間をいろいろに分割したときの期待値として構成(Ryabkoの方法)と単に等間隔で分けるヒストグラム法 → この収束の限界を計算し,数値計算で比較した