しましま/IBIS2019 の変更点 - 機械学習の「朱鷺の杜Wiki」

追加された行はこの色です。
削除された行はこの色です。
しましま/IBIS2019 へ行く。
#freeze
#author("2019-11-22T09:39:27+00:00","default:ibisforest","ibisforest")
* 第22回 情報論的学習理論ワークショップ (IBIS 2019) [#rb6e659f]

COLOR(#00AA00){このページはしましまが [[IBIS2019>IBIS#IBIS2019]] に参加してとったメモです．私の主観や勘違いが含まれていたり，私が全く分かってなかったりしていますので，その点を注意してご覧ください．誤りがあれば，指摘してください．}

#contents

* 11月20日（水）：ワークショップ1日目 [#s0d3c2ef]

* 企画セッション1： 機械学習と離散数学 [#ua3a02c2]

** グラフ文法を用いたグラフ生成 [#u072c2b5]
梶野洸（IBM）

- 利用例：生成可能なグラフの集合を記述したい．ハード制約なら→形式言語，ソフト制約→NNなど
- 形式言語
-- 言語的観点：アルファベット集合 Σ* で記述可能な記号列の集合の部分集合
-- 生成的観点：文法により生成可能な記号列の集合
- グラフ文法：形式言語で記号列がグラフにあたる生成規則
- 文脈自由文法 (context-free grammar)
-- 非終端記号 V，終端記号 Σ，生成規則 R，開始記号 S∈V
-- S から生成規則のいずれかを適用して置き換えてゆき，全てが終端記号に置き換わったら終わり
- 超グラフ：辺が超辺になっている，超辺は二つに限らず任意の個数の頂点を連結
- HRG (hyperedge replacement grammar)
-- 超グラフ版の文脈自由文法，記号が超辺に該当する
- HRGの推論
-- 超グラフの集合 → HRG，出来たHRGは元のグラフ集合より大きな集合をカバー
-- 入力超グラフを，一定の条件を満たす超グラフの部分グラフを葉ノードにする貴表現に変換
--- 木の中で同じ中間ノードに繋がっている枝をくっつけてゆくと，元の超グラフになる
--- 木の枝を足すような生成規則を考えてゆくと生成文法にできる
-- 木分解を全て計算 → 生成規則を抽出 → まとめるとHRGになる
- 分子グラフ生成へのHRGの適用 → molecular hypergraph grammar
-- 単純に適用すると，分子の結合数を超えてしまったりする
-- 分子の結合数の制限をHRGに組み込む → 分子＝超辺，結合＝ノード
--- ノードの度数を2に制限，長辺は分子の価数と同じ連結数に制限
-- HRGの推論アルゴリズムをこれらの制限を満たすようにする拡張
--- ある種の冗長性を禁止した木分解を導入することで実現
- MHGを使ったVAE：MHGで記述した分子 → VAEで数値ベクトルに
- https://github.com/ibm-research-tokyo/graph_grammar

** 回帰による再帰型ニューラルネットワークからの重み付きオートマトンの抽出 [#n30b2d79]
関山太朗（NII）

- スライド https://bit.ly/37epjGm
- RNNの問題点：解釈可能性が低い，入力を変えたときの挙動が予測できない，学習・推論コストが高い
-- 有限オートマトン (FA)：これらの問題点を回避しつつ，系列を記述できる
- RNNをFAで置き換える研究が進展している
-- 既存研究：入出力が二値，決定的FA
- 連続値入出力で，重み付きFAを獲得する → RNN と学習のFAが等価かというクエリが必要になるアルゴリズムが提案されている
-- このクエリを実現する手法の開発が寄与
- RNN：有限長の記号列を入れると，最終状態で実数値を返すものを対象
-- 初期状態 α，状態遷移関数 g，（最終）出力関数 β
- 重み付き有限オートマトン (WFA)
-- 各状態で，初期重みから最終重みになる
-- 状態遷移も重みに比例して遷移
-- 初期ベクトル α，最終ベクトル β，遷移関数 g（状態×状態の行列で表現）
- L*(m,e)アルゴリズム：ブラックボックス B からWFAを抽出するアルゴリズム
-- メンバーシップクエリ：入力文字列に対するBの出力
-- 等価性クエリ：BとWFAの等価性，等しくないときには反例
- RNNでのこれらのクエリの実現
-- メンバーシップクエリはRNNの推論するだけ
-- 等価性クエリの近似アルゴリズムを開発した
- RNNとWFAの等価性クエリ
-- 反例を探して，十分な時間を探してみつからなかったら等価とみなす
-- 短い文字列から順に1文字ずつ足して文字列を長くしてゆく→入力文字列
--- この入力文字列が反例になるかどうかを検査する
-- 効率化のための仮説：RNNとWFAの最終関数は同じで，最終状態もだいたい同じになる
--- RNN最終状態からWFA最終状態への写像を近似的に計算（回帰で計算）→ 近似と実際の差が大きいと反例になるのではないかというヒューリスティック
--- 反例でなかったら近似関数を更新
-- 十分に探索したことの判定
--- すでに調べた文字列と十分に近い文字列が反例でないことが分かっていれば，文字列の拡張を停止する

** 隣接代数と双対平坦構造を用いた学習 [#uf3d78bb]
杉山麿人（NII）

- スライド https://mahito.nii.ac.jp

- 行列のバランス化（matrix balancing）
-- 行列の両側に対角行列をかけて，どの行・列の和も1になるようにする
--- 対角行列以外の正方では可能
-- Sinkhorn-Knoppアルゴリズム：行と列を交互に総和を1にになるようにする
--- エントロピー正則化付きの最適輸送などに利用されている
- η：行列中で，自身の下方・右方にある要素の和
-- バランス化されていれば η_11 は行数と等しくなる
- θ：エントロピーのような量(?)
- ηとθは，情報幾何の座標系と対応している
- 行列のセルに半順序関係を導入，下隣や右隣のセルは次に小さい
-- 何かしら半順序集合があればいろいろ使える
- 隣接代数 (incidence algebla)
-- 半順序上の関数上で定義，乗算が畳み込みになる
-- デルタ関数＝単位元，ゼータ関数，メビウス関数
-- メビウス反転公式：逆関数のようなもの
-- inclusion-exclusion原理：集合の結び・交わりを定義するとき，どの部分集合を含めるかどうかの判断がちょうどメビウス関数で表される
- 半順序集合上の確率分布を考える
-- θは情報量っぽいもの，ηは確率そのもの，積分・微分の関係になっていて
-- θは自然パラメータ，ηは指数パラメータに対応
-- 対数線形モデルが表せる
- mixed座標系：θ（真の分布から出てくる）で表した多様体とη（データから出てくる）で表した多様体は唯一の点で交わる
- 隠れ変数をどうやってモデルに入れるか
-- 半順序構造の外側に隠れ状態を入れると，EMのようなことをしないで済む
− ホモロジー，位相とも関係しちえる

* 招待講演1：Data-Efficient Reinforcement Learning of Mechanical Control Systems [#r896ddec]
Marc Deisenroth (Imperial College London)

- https://github.com/ICL-SML/pilco-matlab

- 自律ロボット：少数データからの強化学習を実現してゆく必要
-- モデルベースＲＬ：データ効率的
-- モデル予測的RL：オンラインプランニングの導入で，さらなる効率化
-- メタ学習：あたらしい状況を作りだして対応
- 強化学習：長期コストを最小にする方策を獲得
-- モデルベースRL
-- PILCOフレームワーク：状態遷移確率推定，長期予測の計算，方策の更新，制御の実行
-- 状態確率モデルの推定：予測の不確実性が必要なのでGPを使う
-- 長期予測の計算：全ての状態についての積分が必要で大変 → ＧＰモーメントマッチング
- モデル予測的RL
-- 安全な探索：実世界での故障・死亡しない探索 → 安全性制約
--- 制御パラメータを直接推定
--- 短期の予測をして，そうなるように制御するパラメータを解く(?)
--- 不確実性を伝播させることで，安全性制約を満たせるように
- メタ学習：既知のタスクを新規タスクに一般化
-- 共通の大域パラメータとタスク依存パラメータに分ける
-- タスク依存パラメータは潜在変数で，学習済みモデルを切り替えて使う → 見たことのない状況にうまく対応できた

- Key references
-- Marc P. Deisenroth, Dieter Fox, Carl E. Rasmussen, Gaussian Processes for Data-Efficient Learning in Robotics and Control, IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 37, pp. 408–423, 2015
-- Steindór Sæmundsson, Katja Hofmann, Marc P. Deisenroth, Meta Reinforcement Learning with Latent Variable Gaussian Processes, Proceedings of the International the Conference on Uncertainty in Artificial Intelligence, 2018

* Stacked Capsule Auto-encoders [#hc95c86b]
Geoffrey Hinton

- CNNは同じプール内の変化に対して不変 → 最終結果が不変になってしまう
-- 視点を変えたときに等価なものを同様に扱うようにしなければならない
- CNNは物体を認識せず，部分的な記述子を獲得する → 敵対的事例ができてしまう
- 科学はcoincidence 一致性によっている（方程式の両辺など）
-- 現状のNNは一致性を検出できない．
- CNNの問題：coordinate frame → 座標系の向きとかそういうもの(?)
-- Irvin Rock：向きによってアフリカとオーストラリアに見える図形
-- 向きによって全く違ってみえる立体は存在
- 人間の心理内では，部品を認識し，その関係を認識している → 新たなものを見るときに有用
-- このグラフ構造を見いだせるようになる必要
- stacked capsule autoencoder
-- 教師なしの枠組みで，全体から部分への認識，識別的なモデルではない
-- カプセル：対象とか部品
-- カプセルに対応するネットがあり，その有無を位置・スケール不変で検出する（transformerを使う）
-- カプセルの混合モデルとして全体の生成モデルが記述されている
-- transformerの類似ベクトルを検索する機能はcoincidenceに対応している
- カプセルの混合率に基づいてMNISTの数字を記述すると，同じ文字はきれいに同じクラスタに分かれる

* 11月21日（木）：ワークショップ2日目 [#l8f443dd]

* 企画セッション２：データ駆動科学と機械学習 [#bdb9a946]

** サンプリングによるデータ駆動科学 [#h2c3f5fa]
福島孝治（東大）

- データ科学とデータ駆動科学
-- 第3の方法：実験・理論に加えてシミュレーション → 第4の方法：データ科学
-- データ科学による仮説生成を，理論，実験，シミュレーションで検証
- 自然科学データ：観測（大規模化，高次元化）シミューレション
-- 超伝導：構造から理由はおいておいて，機械学習で超伝導の温度を推定
- ベイズ統計的アプローチ
-- 尤度には，物理の知見に基づいていろいろ制約を入れてきた → こうしたものを入れるべきか？
- データから逆問題を解く事例
-- 操作トンネル顕微鏡，画像から原子の位置推定 → 原子位置から次の仮説を
-- scanning tunneling spectroscopy
-- Hamiltonian reconstruction
- ノイズ付き線形方程式：y ＝ A x + ε
-- データがパラメータより少ないので不定問題
-- ベイズ的に推定するにはサンプリングが必要に
--- 課題：線形→非線形，単峰→多峰への対応，規格化定数が計算可能，並列計算対応
--- population annealing：粒子フィルタの定常分布版
--- サンプリングをやりすぎると過学習 → エビデンスを使ったモデル選択
- 原子の層を作った物質：第一原理家計算で結晶時期異方性の推定
-- 各層のパラメータの相関 → 6層のうち第2層と3層の相関は大きい方がよいといった知識が欲しい

** データ駆動科学の立場からみた物質科学と情報科学の接点 [#d9de6865]
安藤康伸（産総研）

- 情報科学 × 物質科学
-- 多くの分子の中から反応しているものを目で探していた → 効率的な手法の必要性
-- 変化の原因を調べる組織的な手法が必要
- Materials Genome Initiative (2011)：物質を作るだけでなく，インフラ構築や次世代研究者の育成も掲げられている
- 情報的視点からの物質科学
-- スモールデータ：100あれば非常に多い，高精度
-- 汎用的な物質表現・処理方法がない
- 胚スループット計測データ解析：単一シートに複数の素性を連続的に散布 → 物質空間を一気に観測できる，それでも1000データぐらい
- 準粒子干渉測定のダウンサンプリング
- 触媒の設計：計測データを計算データであてはめ

- 第一原理計算
-- 原子・分子シミュレーション：安定構造の探索，分子振動の様子
- NNの利用：表面化学反応のシミュレーション → 1995,2004には報告がある
-- 課題：特徴量をどう作るか，分子の数の変更などが難しい
- Behler-Parrineloの方法：汎用的な手法の開発
-- 原子配置をそのまま入れても並進不変性を考えていない symmetry function ベクトル
-- 各原子にサブネットをつけて，さらに原子の番号置換に不変な構造の導入
- 機械学習ポテンシャル作成の構成技術：不変性を考えた構造の記述，予測モデルの構築を考える
- アモルファス：第一原理計算しか信頼できない
-- 今までの機械学習は結晶が対象で，不規則性に対応できない → どうにかした
- アモルファス構造を作る温度管理 → シミュレーションでは計算量が多すぎたが機械学習でどうにかなるように
- 実験の人への貢献
-- スペクトルのピークの位置が多すぎて分からない → 混合ガウスであてはめできることが分かっている → EMであてはめた（教科書的な技術でも有用）

** 集団運動におけるデータ駆動科学 [#wfef30c3]
藤井慶輔（名大）

- スライド https://bit.ly/2OsiKaK

- 集団中の個人の行動データを集積 → 集団運動
-- 大陸の移動 ⇔ 分子の移動：いろいろなスケールである
-- 要素間の相互作用が不規則
- 課題1 動的システムとしての理解：系の遷移関数 f が分かっていても解けるとは限らない，f が未知（人間や生物の集団行動）
- 課題2 マルチスケール：部品 ＜ 個人 ＜ 部分グループ ＜ グループ と各階層で相互作用がある
- モデル駆動（方程式に基づく，原理の理解） ⇔ データ駆動（方程式なし，複雑でも大丈夫）
- 経験・理論基づく ⇔ 学習に基づく
- 経験+データ駆動：特徴工学 + 分類・回帰 → 小規模データに適用化+解釈性はよいが複雑さに対応できない
-- チームワーク評価，子供の集団評価
- 経験+モデル駆動：マルチエージェントモデル，解釈性は良いが，複雑になると実際と乖離
- 経験+モデル・データ駆動：スポーツデータ解析などの結果がある
- 学習+データ駆動：データから特徴抽出（教師なし学習，あてはめ）
-- クラスタリング（DTW, 1DCNN, LDA）分類（潜在因子モデル）
- 学習+データ駆動：パラメータの学習
-- 科学的に有用なモデル：現象を予測，現象の説明，新しい理論への出発点 [深層学習と認知科学 Cichy&Kaiser 2019]
-- クープマン作用素のスペクトル解析を利用 → DMDモデルを使った集団行動モデル
-- RNN系の非線形モデルによる軌道予測モデル

* 招待講演２：空間視聴触覚技術の社会実装 [#z07bdcea]
落合陽一（筑波大）

- 記事化禁止なので非公開

* 11月22日（金）：ワークショップ3日目 [#ccd034a1]

* 企画セッション ３： 深層学習の理論 [#x90f7fef]

** 深層学習の汎化誤差のための近似性能と複雑性解析 [#bd22b6a5]
今泉允聡（統計数理研究所 / 理化学研究所 / JST）

- スライド http://ibisml.org/ibis2019/files/2019/11/slide_imaizumi.pdf

- 汎化誤差：近似誤差（DNNの表現力），複雑性誤差（DNN集合の大きさ，汎化誤差と経験誤差の差），最適化誤差（学習がうまくいった）

- 近似誤差：モデルが表現できるデータの構造
-- 普遍近似定理：3層以上なら，十分な数のパラメータがあれば，連続関数を任意の制度で近似できる
-- 深層に限った話しではない
- パラメタ数に対して指数的に近似誤差は減少速度が速くなる
-- 微分可能な活性化関数の方が近似レートはよい → 多項式関数と比べて理論的な差はない
--- 滑らかな場合はテイラー近似になるが，そうでない場合はΔ関数の組合せのようになるので
-- 目的関数が滑らかではなく，急速に変化するような状況では，DNNが有利になる
--- 局所的に滑らかさを変化させることができるところで有利
-- 特徴量抽出器：フーリエ変換など既存の変換はだいたい近似できる
--- γ回とβ回微分可能な関数の合成で目的関数が表されるときには，γとβのいずれかのみに依存した近似レートになる
--- 特徴量抽出が1段目のγ回微分可能な関数にあたる
-- 以上の理論でも〜10層までは正当化できるが，100層などの意義は分からない

- 複雑性誤差：汎化誤差と訓練誤差の差
-- 汎化誤差では可能な全てのデータの平均を考える必要
-- 一般的な理論に基づくと 重み数と総数の対数に大して大きくなる → DNNでは悪くなるはず
-- 仮説：データ依存のモデル部分集合が存在，可能なデータの部分集合からそれぞれ到達するモデルはごく一部に限られている（モデル集合の全部は使われていない）
-- ノルムに基づく議論：各層ごとのパラメータのノルムが限定されていればパラメータが多くても汎化誤差は小さいまま
--- ノルムはいったい何なのか？NNに限らない議論
-- 学習アルゴリズムの影響：アルゴリズムによって探索される範囲がステップ幅などで限定されている → 早期停止や低次元集合上の探索で誤差は減る
--- どれだけ学習を早期に停止してもいいという訳ではない

** 学習アルゴリズムの大域収束性と帰納的バイアス [#x41079d1]
二反田篤史（東京大学 / 理化学研究所 / JST）

- スライド http://ibisml.org/ibis2019/files/2019/11/slide_nitanda.pdf

- 非凸最適化 → 局所解がいろいろある → しかし，DNNでは大域最適な解に近づきやすい（謎）
- 最適化法に依存しないLandscape解析：肯定的と否定的な結論がでている，データとパラメータ数の関係で変わる
- DNNは違う学習法で同等の経験誤差を達成しても汎化誤差は違っている
-- 学習法によって選択されるモデルが変わる，暗黙的な正則化になっている
- 回帰問題での議論：勾配法の大域収束性はいくつかの条件下で証明されている．3層
-- パラメータ数がデータが大きければニューラルタンジェントカーネルのregimeで収束
- 勾配法は勾配ノルムの分だけ1回の反復で目的関数は減る → 勾配ノルムが0にならなければ良い
-- 目的関数の勾配に依存して決まるニューラルタンジェントカーネル (NTK) → このカーネルをグラム行列として勾配ノルムの大きさが決まる
- NTK regime：NTKは正定値，初期点でカーネルが決まる
-- カーネル法の特徴空間中での更新則に類似するようになる
- 同じ3層NNでも設定要因によっては，NTK regime，mean field regime，Wasserstein勾配流になったりする

- 分類問題，ロジスティック損失で，識別誤差の収束の議論
- 分類でのNTKは，ラベルの符号できまる象限内での正性のみがいえればよい → 回帰より条件が緩い

- その他の仕事
-- RKHSでのSGD：識別面に近い部分に事例がなければ収束が早い
-- mean field regimeやactive regimeなどがある

** 群対称性を用いた深層学習 [#bcac4604]
三内顕義（理化学研究所 / 慶應大学 ）

- スライド http://ibisml.org/ibis2019/files/2019/11/slide_sannai.pdf

- タスクを数学的に見て，具体的には対称性の有無に応じてモデルを選択する
- 同変性：仲間はずれ発見タスク，物の並びを変えるとその並びに応じて解も変わる
- データを入力する順番は無関係な不変性
- 群：かけ算に対して，結合則，単位元と逆元が存在，
- 対称群：順列とか
- 不変な関数＝置換に対して結果が買わない／同変な関数＝変換の前後で対応関係がつく
- 置換同変なNN：同じ層のノードの置換に対して同変になる → 同変な層のコピーで構成されるNNは総数によらず2パラメータで表せる
- Kolmogorov-Arnoldの表現定理：0/1からの実数への連続関数が置換不変になる条件
-- 同変ネットにこの定理を適用して不変ネットを構成できる

* 企画セッション４： 機械学習工学 [#pc924cd7]

- 機械学習工学 ＝ 機械学習のためのソフトウェア工学
-- 土木工学によって橋が安全・効率的に作れるようになった → 機械学習にも同様のものが必要
-- 設計開発手法，信頼性担保，検証，責任所在，知財，運用・保守

** 機械学習に対するソフトウェア工学の技術動向 [#u6fd4565]
石川 冬樹（国立情報学研究所） @fyufyu

- ソフトウェア科学会内での機械学習工学研究会，QA4AIコンソーシアム
- 要求工学：システムの要求定義，合意，記述して，その妥当性確認
-- 仕様書は場合分けだった → 機械学習では場合分けが不明瞭
-- 不変条件，事前の約束はできない＝精度95%とかを事前には約束できない
--- Proof-of-Concept：お試し，これだけで終わることが多い
-- 技術的負債，現状のソフトは7〜8のコストは保守費，機械学習の保守費は分からない
-- 不確かさ：想定を尽くしきれない
- テスト技術の例
-- テスト不可能：正解の作成コスト，正解自体を決められない，利用者満足など正解自体が未知
--- テストに失敗してもすぐに誤りとはいえない．誤りがあっても，正解率の水準は満たされる場合もある
-- 従来のテスト：単体テストやカバレッジでは対応できない
- メタモルフィック・テスティング
-- 入力にある特定の変換をしたとき出力がどう代わるかを検証：sin(x) = sin(π - x) などを検証
- サーチベースド・テスティング：望ましいテストの評価指標最大化するテストスイートを，最適化手法で探索する
-- 画像にノイズを入れて分類結果が変わったら再調査するなど
-- システムレベルの要求に基づくテスト：不確実な予測結果

** 機械学習と知財・契約 [#r3da748e]
柿沼 太一（STORIA法律事務所）

- データの収集（個人情報・著作権法）開発（検収をどうする，権利関係，知財権の範囲を知っておく）展開（予定外の成果物ができることがある）
- データの収集：データの入手方法や種類で制度が違う
-- データの種類（個人情報，著作物，肖像権，事実を示すデータ，センサーデータ）
-- データの取得（自身で正性，利用契約外で第3者から，契約して第3者から，ネットから）
--- これらの組合せで，法律や契約の規制
- 個人情報と著作権にはよく注意
-- 医療データ：個人情報，個人情報の第3者提供
-- 店頭カメラで撮影した顔画像 → 個人情報
-- ネットでクロールした著作物を解析する場合には著作物だけど使える（著作権法 30条の4，営利で使えるのは日本だけ）
- 通常のシステム開発と，学習済みモデルの違い
-- 機械学習では，納めるモデルの他に見，発明やノウハウも出てくる
-- 契約外で出来た物は，発注・開発の両者が権利を主張 → 派生物の知財権の対象になるかどうかを知っておき，さらに法律上はデフォルトでどちらに権利があるかを知っておく
- 対象の範囲：生データ（特許 ×，著作権 △，不正競争 ○）学習データ（×参画○）プログラム（アルゴリズム○コード○○）学習済みモデル（アルゴリズム○コード○○）学習済みパラメータ（××○）ノウハウ（○発明の場合×○）
-- 「学習済みモデル」はよく揉めるので，すりあわせをちゃんとしておくこと
-- これらは法律によるデフォルトで開発者に，契約で変更可能
- 成果物をどう使うか詰めてから契約の詳細に入ること
-- ユーザ：データを供出 ⇔ ベンダ：ノウハウを供出 → 権利でもめる → 権利帰属ではなく利用条件を調整する．所有権は明らかにしない
-- 権利帰属と利用条件それぞれを明確に
- 契約分類：領域ごとに分割，全部共有（どう使えるかを曖昧にすると揉める，第3者ライセンスなど），ユーザ以外は全部ベンダが展開，利用者買い切り

** 継続的改善をし続けるための機械学習基盤の課題 [#a59055c4]
有賀 康顕（ Arm Treasure Data ）

- スライド http://bit.ly/mlssys-ibis2019

- [Sculley, 2015] 機械学習システム全体での，機械学習時代のコードの割合は小さい
- 機械学習のプロジェクト：課題 → サーベイ → 機械学習利用の可否 → 設計 → データ計画 → データ収集・前処理 → アルゴリズム選定 → 学習 → デバッグ
- 機械学習システムは確率的に挙動が決定する
-- コードではなくデータで挙動が変わる，何かを変えると全体が変わる
-- 学習とデプロイ環境が違ったり概念ドリフトで，挙動が全く変わる
- DevOps：開発と運用で → infrastructure as code で一致させる
- ML Ops：機械学習はブラックボックスのままで，運用までもってゆく
- うまくいっているかどうかの監査技術がある
- ML開発でのマニフェスト：reproducible（実行環境によらず動作）accountable（トレース可能，作製の経緯がたどれる）collaborative（属人的にしない），continuous（人手の介在なし）
- MLシステムの課題
- data/model management：1万個とかモデルがあると実験ノートでは管理できない
-- Uberのデータブックなどのツール，データバージョンコントロール
- experiment tracking
-- モデル選定の条件，ツール：kubeflow piplines ML flow tracking, polyaxon, comet.ml
- reproducible experiment
-- ハード，ソフト，乱数，データが変わると実行環境
-- dockerなどのコンテナ，polynote（jupyter notebook で実行環境依存を排除）
- pipeline management
-- 出荷の手順，ツール：kubeflow, Argo, ArgoCD
- ML frameworks abstraction 
- model serving deployment
-- コードにちょと書き足すと，予測モデルが自動でデプロイされたりする
-- Apple の Overton，ドメインエンジニアが調整できる
-- data validation: デプロイ環境が想定通りのものか検証する，ちゃんと特徴がそろっているかとか，値域が大ジョブ
- explaining model/data
-- 性能指標の向上の原因をさぐる，納得できそうな手がかりが欲しい
- model serving / deployment
-- 一部のリリースをやりやすく，ABテストの実行環境
- monitoring / observability
-- 機械学習の性能指標とビジネス指標とを追いかけてくる
-- 人間の介在でシステムへのフィードバックが遅れることへの対処（ユーザのバン判断など）

* 招待講演３： 日本におけるデータサイエンスの現状と今後 [#lcb2a0c7]
竹村彰通（滋賀大）

- データサイエンスの3要素：情報学 + 数学・統計学 + 領域知識・価値創造 [Drew Conway Data Consulting]
-- 日本には統計の学部・学科がなかった，アメリカの統計学の学位取得者数は急速に伸びている（修士 4000，学士 3000，博士 600）→ 日本と二桁ぐらいの差
-- 中国の leapfrogging 技術段階を超えた進展
- データサイエンティストの必要性：2016年ぐらいから政府文書で日本の出遅れが指摘 → 10年前に言われるべきだった
- AI戦略2019：50万人/年にリテラシ教育
- データサイエンス：ビッグデータを対象して，そこから知見を引き出し，価値を創造するための新たな科学
-- 5G＝通信が100倍高速に・2025年頃に普及，LPWA (Low Power Wide Area)＝省電力で遠くまで少データを送信
-- GPS：衛星 みちびき＝10cmぐらいの精度
- ビッグデータ：21世紀の石油 [The Economist]
-- 人々の動き，IoT → 分析技術が必要に，日本は海外にデータも分析も持って行かれている
-- IoT：出荷後のデータをメーカが取得できる．
- 滋賀大学
-- 日本最初のデータサイエンス教育拠点＠彦根，学部 100人，教員 34人
-- カリキュラム：統計系が多い，情報，演習，社会調査
-- 共同研究：車載機器から運転の安全性予測 → テレマティクス保険
-- 企業へのレクチャー

- ビッグデータとデータサイエンスの諸側面
- データからの価値創造の流れ
-- 課題駆動型アプローチとデータ駆動型アプローチ → 前者が基本，後者も有用になりつつ，課題駆動はPPDACサイクルを意識
-- 課題駆動型：課題 → データ収集 → モデルの決定・計算 → 結果の解釈・意志決定 → 価値
--- PPDAC：Problem → Plan → Data Analysis → Conclusion
-- データ駆動型：可視化・記述統計 → 仮説生成 → 検証データを収集
-- 成功の条件：整理されたデータがあり必要に応じて取得できる，課題が明確，担当の能力・適切な手法を提案できる
- 相関と因果
-- メーカーからの相談：だんだん因果の要素が増えて困難に 異常検知→故障予測→制御による改善
-- 『Prediction Machines』経済学者，予測だけでも役立つよ，ビジネスモデルを経済学的にとらえる
-- 『The Book of Why』Peral & Mackenzie，因果が大事
- 統計不正：取りにくいデータと取りやすいデータがある → 調査環境はますます悪化
- 公平性：ジェイスコア 性別で差がついた
- Martin Ford『Architechts of Intelligence』SingularityがくるかとかをHintonさんとかに聞いている本