Loading [MathJax]/extensions/TeX/boldsymbol.js
しましま/DMSM003
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* 第3回 人工知能学会 データマイニングと統計数理研究会(SIG...
このページはしましまが人工知能学会 [[第3回データマイニン...
* ファジィクラスタリングの展開 [#n657cb58]
○佐藤美佳 (筑波大)
※ 難しかったので,だいぶ不正確っぽいメモ
** クラスター分析:類似性に基づいて,内在する構造を見つけ...
- ものを分類する→人間のもつ原始的能力,最も古い科学的探求
- Sokal&Sneath Principles of Numerical Taxonomy (1963) ら...
** ファジィクラスタリング [#b7077970]
全データは必ずクラスタに所属するという条件の下では,複数...
→そういった対象はクラスタAとBにそれぞれ1/2ずつ所属すると...
** ファジィクラスタ [#vf64f170]
- ファジィ部分集合をもって定義されるクラスタ.
- 具体的にはメンバーシップ関数によって記述される
- ハードでは所属度 μA(x)∈{0,1} だが,ファジィでは μA(x)∈[...
** ファジィクラスタリング [#a7d87469]
- Dunn (1973) 級内偏差平方和にファジィ分割の考えを導入
- Bezdek (1981) ファジィ c-means
*** 最近の展開 [#q6ef63e3]
- ファジィクラスタリングの利点を活かしたデータ解析手法
- 区間データに対するファジィ主成分分析
- ファジィクラスタ負荷量モデル
** 加法的クラスタリングモデル [#z0d853c3]
sij=Σk^K wk uik ujk + εij
-s: 類似度
-w: クラスタの重み
-u: クラスタの帰属度
-ε: エラー
** 一般化ファジィクラスタリングモデル [#i7142b5c]
少数のクラスタで類似性の構造説明 (類似性の構造をより柔軟...
aggregation関数
ρ(uik,ujl):i と j が共にクラスタkとlについて共通の性質...
- aggregation演算子 Φを導入:一次斉正次性(positively homo...
- ファジィ分割構造を全体としてもつようにする
sij=Φ(ρij)+εij
ρij=( ρ(ui1,uj1)...ρ(ui1,ujK)...ρ(uiK,ujK) )
- ρ=uik ujl なら加法的クラスタモデルとなる
- モデルを満たすクラスタはどうやって求める ???
** 類似度 sij が非対称の場合 [#xff8bcf6]
- ρの設計を変える
- 類似度の非対称性をもが類似しているものをまとめる
*** 問題点 [#gc0ff52c]
- 解全体 U は回転できると,不定になるが,その可能性はごく...
** 区間データ [#cc5db4a3]
- データが区間の形で表される場合 ξia=[_x_ia, ~x_ia]
- 区間に均一分布をかけて処理する → 中心を見ているのと変わ...
- さらにPCAする:射影する前のグループ構造を保持しつつ射影...
** ファジィクラスタ負荷量モデル [#o62252a5]
- ファジィの解の柔軟すぎて解釈が難しい
- 回帰モデルを使って,
uik=Σz^p x_ia z_ak + ε
として帰属度をモデル化して,負荷量 z_ak を求める.
- 重み付最小二乗で計算できる.
* Random Subspaceを利用したロジスティック回帰モデルの構築...
○北原洋一,折原良平 (東芝)
- ランダムサブスペースをアンサンブル学習手法として使う.
- 属性をランダムに選択して作ったモデルを結合する.
- 弱学習器はロジスティック回帰
- 結合はロジットの単純平均や,重み付にする場合もある.
- ロジスティック回帰モデルの係数が簡単には得られなくなっ...
→予測精度は低下することがある
- 提案手法は,単一のロジスティック回帰よりは良いが,Boost...
* 感染症の流行現況把握・流行予測のアルゴリズムの検討 −地...
○長谷川伸作 (北海道立衛生研), 井上 仁 (鳥取大), 陶山昭彦 ...
感染症の発症についての保健所からの報告のデータ:
目で見て検証し,周期性などはおおまかに把握できる→もっと統...
- パワースペクトルやコレログラムを用いた解析のケーススタ...
15:30-17:30 【多変量解析,可視化】
* Local Fisher Discriminant Analysis for Dimensionality R...
○杉山 将 (東工大)
- (ICML2006での発表)線形の教師あり次元圧縮
- クラス内多峰性がある場合:クラス内で密な部分が複数個存在
- Fisher判別分析をpairwiseに書くと,同じクラスを近くに,...
- 多峰性だとFDAは,離れた同じクラスのデータを近くに埋め込...
- 局所性保存射影(LPP):下の空間で近くにあるものは近くに埋...
- LPP+FDA:同じクラスの近くの標本は近く,違うクラスなら遠...
→局所フィッシャー判別分析 (LFDA):pairwise表現のFDAに局所...
- FDAは(クラス数-1)個の次元しかとりだせないが,任意の個数...
- 関連研究:Hastie&Tibshrani(PAMI 1996)のLDIとの違い:多...
- MDA:Hastie&Tibshrani,NCA:Goldberger,Roweis,Hingon,Sala...
- 局所性を決めるノルムの選択が提案手法の課題
* 不均一関数データに対する主成分分析と手書き文字データへ...
○茅野光範, 堂園剛司, 小西貞則 (九大)
- 不均一関数データ:関数の値が,観測点数や観測区間がバラ...
- 関数主成分分析:関数の集まりが与えられたとき,これらにP...
- 不均一関数データに関数主成分分析を縮小ランクモデルで解...
* R,GAM,そして生存時間解析 [#fa17fcd9]
○辻谷将明 (大阪電通大)
- GAM:一般化加算モデルに平滑化スプライン項を加えて解析
* テュートリアル教育(情報科学演習)における学習行動の類似...
○安田 晃, 平野章二, 阿部秀尚, 中國秀章, 花田英輔, 津本周...
- 演習中の学生の行動の時系列上での変化を定量的に評価する...
- データは各演習後に提出する評価シートから得る
- 各演習の順位相関を使って学生の行動が変化する時期を見つ...
- Russel and Rao係数で類似度を測る.最終週のガンバリをみ...
- MDSで可視化
* 事例に論理構造に基づく関係的知識発見 [#t3d70c87]
○元山純一, 中野智文, 犬塚信博 (名工大)
- ILPで,意味があり,頻出のパターンを,関係データから列挙...
- 「意味がある」:1引数の事実を表す述語(一つ以上必要)が最...
- 各事例(具体的な関係を展開した木)が,節で表された性質を...
- 同値なパターンや部分構造の組み合わせなどを考慮する工夫
* 分散共起尺度の提案 [#x99ad451]
○中野智文, 犬塚信博, 小山由紀江, 石川有香 (名工大)
- コーパス中の単語の共起関係の尺度を,分散計算機環境で計...
- 各計算機でレンマ化(stemming)する前の共起関係を見つけ,...
* データマイニング手法に基づくインシデントレポートデータ...
○阿部秀尚, 津本周作, 中國秀章, 平野章二, 花田英輔 (島根大)
- 専門家がデータ集合を作るのは大変なので,各アルゴリズム...
- 有効な学習ができるようになるために,データ全体を使った...
- 有効性を実験的に検証
10:45-12:15 【系列・グラフマイニング】
* 情報量と頻度に基づく知的系列データマイニング手法 [#m1a9...
○大塚尚貴, 岩沼宏治, 鍋島英知 (山梨大)
- 長い系列 S から,系列と無矛盾なシンボル系列パターンで頻...
- kごとのスライディングウィンドウに切って,PrefixSpan を...
- 頻度ではなく,情報量利得を使う抽出基準.
- 深さ優先探索をするが,探索の枝狩りをする基準の提案.
* 頻出系列パターンマイニング手法を用いたWeb利用パターン発...
○早川潤一, 中野智文, 犬塚信博 (名工大)
- ログレコードグラフ(ログのアクセス順を考慮したグラフ),U...
* 情報利得値の上界を枝刈り基準とした特徴的部分グラフの探...
○原 昌弘, 高林健登, 大原剛三, 元田 浩, 鷲尾 隆 (阪大)
- 頻出する部分グラフを見つける Cl-GBI法の改良
- 見つけた部分グラフは,それを特徴として,クラス分類に利...
- この目的で,頻出するものの中でも,クラスとの相互情報量...
- この相互情報量についてbranch-and-boundを実行するための...
* データマイニング手法 -評価法からの俯瞰- [#d9505a0a]
○鈴木英之進 (九大)
** データマイニングのプロセスモデル [#deea3b3c]
- 選択,前処理,変換,抽出,評価のプロセスを反復的に実行
- パターンの抽出と評価を中心に
** 視点 [#t83a1424]
*** データマイニング手法の評価法 [#u5a42078]
- 母体分野:機械学習,統計,DB
- パターン表現:異常値,構造ルール,分類ルール
- データ:サイズ,属性の粒度,例の粒度
- 評価による違い:専門家,複数・単数
*** 母体分野からみたデータマイニング [#lf8a32b4]
- 機械学習:人間の推論を実現.自動評価好き.
- 統計学:統データの解析手法
- データベース:データ処理.記憶媒体の処理特性を考慮
** 研究分野の違いによる評価の違い [#a02e2b73]
*** DB系の研究の視点から [#w02a4418]
ICDM2001のJim Grayの招待講演
- データベースの研究者
-- 知識の発見,興味深さ,意味には興味なし
-- データの保存や検索などの処理には,興味があり,効率的な...
- 相関ルール発見:
- ポイント:データがメモリに配置できないことを考慮し,''...
-- 評価は,データや実行環境の制約を変えて,効率の評価~
→ ルールの良さは評価しない
- 批判
-- 多数のルールが出てきて役立たない→あとは,DBにクエリを...
-- 支持度や確信度では不足?
-- アルゴリズムとデータ構造が素朴?→基本的な枠組みの提案
*** 機械学習系の研究の視点から [#j770c3f7]
ルール意味とかを無視できない
- ITRULE: 表形式データから if-then ルールを J値と呼ぶ基準...
- ポイント:圧縮情報量(評価値J)とbranch-and-boundによる探索
-- ''意味を定量化しようとする試み''
- 評価は,理論的価値と実用的価値の両面がある
*** 離散的アプローチと統計的アプローチ [#gc59d0a6]
遺伝子からのモチーフ発見
- 拡張可能モチーフというパターンを定義し,その性質の定理...
- 統計では,頑健性とかに関心はあるが,データ構造に関心は...
- 統計系の研究:''pLSA''
- d:文書,z:潜在クラス,w:単語:p(d),P(z|d),P(w|z) のグラ...
-- 評価:データを使った経験的評価
-- 批判:正解率などは過剰に厳しい場合もある?直観的でない...
** パターン表現の粒度例 [#i252020a]
*** DBOutlier [#q3a7c0f0]
- 表形式データから,半径 D 内には(1-p)個の事例しか存在し...
-- セルを作って離散的に事前に数えあげておくことで,分枝限...
-- 評価:例外にされた事例は定性的にも評価されている.(機...
-- ROCなどの指標を使った評価はしていないので定量的評価と...
*** 構造ルール発見の研究例:例外ルールの同時発見 [#md3cb0...
- Y → X,と Y→X∧Z から例外パターンルールを作る
-- とても小数の例を説明するルール
-- 評価:単一の軸ではなく,複数の視点からの評価.妥当,有...
** データの難易度 [#z859910b]
- サイズ:例数,属性数,記憶媒体
- 属性の粒度:目的に応じて調整済み・まだ
- 例の粒度:知識にしやすい高次なものか,低次の観測量
** 専門家評価の注意点 [#dea4fa80]
- 単複:専門家で意見が違うことはよくあるので,影響は大きい
- 最高・平均:どちらを目指すかは,かなり差がでる
- 性格:楽観的・慎重
- 実証可能性:結果の良さが分からない (例:創薬などは検証...
- 本物か?:計算機でシュミレートした評価者
** 結論 [#y8bf8b0d]
- 評価法の違いはよく検定すべき
- 本当にやったことをタイトルに書こう「Beware of the hype ...
- 将来:より多くの種類の評価が要求されるようになる
** Q&A: 知識とは [#f4e77d41]
- メタな議論は生産的ではない
- 再利用可能性があるというあたりで手をうつ
* データ解析履歴に基づくマイニングアルゴリズム選択支援 [#...
○陸 洪涛, 大原剛三, 鷲尾 隆 (阪大)
- データマイニングプロセスで使用するアルゴリズムの選択の...
- 過去の解析した経験のデータベースから,使用するアルゴリ...
- 解析したデータの特徴と,アルゴリズムのパラメータ設定と...
- データの特徴間の類似度を定義.事例ベース推論の枠組みを...
*観点を考慮した知識整理のための地図型アニメーションインタ...
○田中大智, 砂山 渡 (広島市立大)
- あるテーマの単語集合の関係を可視化する.また,それらに...
- 単語間の関係の強さを定義し,バネモデルで配置
- Newton 2004 の方法でクラスタを求め,それらを島としてメ...
- 局所的な関係を「道路」,大局的な関係を「線路と橋」によ...
- 観点を使うと,観点に関する単語だけについて地図が生成さ...
* 幾何学的制約に基づいた高相関変数集合導出手法 [#t7038c6f]
○中西耕太郎, 鷲尾 隆 (阪大)
- 相関解析は属性間の相関を調べ,相関の強いを見つける
- AC, AB の相関が計算済みのとき,BCの相関がしきい値以上か...
- 最悪の場合,かえって計算量が増えるので,相関が強そうな...
- 相関の強い変数が多くなると高速になる
* 局所単調性に基づく条件付相関変化の探索法に関する一考察 ...
○谷口 剛, 原口 誠 (北大)
- 大域的なDBでは相関・共起が低いが,ある条件を満たす局所D...
* カテゴリー変数に対する共分散と主成分分析および実データ...
○新妻弘崇(産総研),岡田 孝(関西学院大学)
- カテゴリ変数の変数選択をするための共分散の定義
- Gini Indexで,同じ変数について2乗するところを,違う変数...
- カテゴリ変数の差は,regularな単体上で定義した座標を使う
- さらに座標系を合わせるための回転も考慮
- これは固有値問題として解くことができる
- 同様の手法で,カテゴリ変数に対する PCA も定義
終了行:
* 第3回 人工知能学会 データマイニングと統計数理研究会(SIG...
このページはしましまが人工知能学会 [[第3回データマイニン...
* ファジィクラスタリングの展開 [#n657cb58]
○佐藤美佳 (筑波大)
※ 難しかったので,だいぶ不正確っぽいメモ
** クラスター分析:類似性に基づいて,内在する構造を見つけ...
- ものを分類する→人間のもつ原始的能力,最も古い科学的探求
- Sokal&Sneath Principles of Numerical Taxonomy (1963) ら...
** ファジィクラスタリング [#b7077970]
全データは必ずクラスタに所属するという条件の下では,複数...
→そういった対象はクラスタAとBにそれぞれ1/2ずつ所属すると...
** ファジィクラスタ [#vf64f170]
- ファジィ部分集合をもって定義されるクラスタ.
- 具体的にはメンバーシップ関数によって記述される
- ハードでは所属度 μA(x)∈{0,1} だが,ファジィでは μA(x)∈[...
** ファジィクラスタリング [#a7d87469]
- Dunn (1973) 級内偏差平方和にファジィ分割の考えを導入
- Bezdek (1981) ファジィ c-means
*** 最近の展開 [#q6ef63e3]
- ファジィクラスタリングの利点を活かしたデータ解析手法
- 区間データに対するファジィ主成分分析
- ファジィクラスタ負荷量モデル
** 加法的クラスタリングモデル [#z0d853c3]
sij=Σk^K wk uik ujk + εij
-s: 類似度
-w: クラスタの重み
-u: クラスタの帰属度
-ε: エラー
** 一般化ファジィクラスタリングモデル [#i7142b5c]
少数のクラスタで類似性の構造説明 (類似性の構造をより柔軟...
aggregation関数
ρ(uik,ujl):i と j が共にクラスタkとlについて共通の性質...
- aggregation演算子 Φを導入:一次斉正次性(positively homo...
- ファジィ分割構造を全体としてもつようにする
sij=Φ(ρij)+εij
ρij=( ρ(ui1,uj1)...ρ(ui1,ujK)...ρ(uiK,ujK) )
- ρ=uik ujl なら加法的クラスタモデルとなる
- モデルを満たすクラスタはどうやって求める ???
** 類似度 sij が非対称の場合 [#xff8bcf6]
- ρの設計を変える
- 類似度の非対称性をもが類似しているものをまとめる
*** 問題点 [#gc0ff52c]
- 解全体 U は回転できると,不定になるが,その可能性はごく...
** 区間データ [#cc5db4a3]
- データが区間の形で表される場合 ξia=[_x_ia, ~x_ia]
- 区間に均一分布をかけて処理する → 中心を見ているのと変わ...
- さらにPCAする:射影する前のグループ構造を保持しつつ射影...
** ファジィクラスタ負荷量モデル [#o62252a5]
- ファジィの解の柔軟すぎて解釈が難しい
- 回帰モデルを使って,
uik=Σz^p x_ia z_ak + ε
として帰属度をモデル化して,負荷量 z_ak を求める.
- 重み付最小二乗で計算できる.
* Random Subspaceを利用したロジスティック回帰モデルの構築...
○北原洋一,折原良平 (東芝)
- ランダムサブスペースをアンサンブル学習手法として使う.
- 属性をランダムに選択して作ったモデルを結合する.
- 弱学習器はロジスティック回帰
- 結合はロジットの単純平均や,重み付にする場合もある.
- ロジスティック回帰モデルの係数が簡単には得られなくなっ...
→予測精度は低下することがある
- 提案手法は,単一のロジスティック回帰よりは良いが,Boost...
* 感染症の流行現況把握・流行予測のアルゴリズムの検討 −地...
○長谷川伸作 (北海道立衛生研), 井上 仁 (鳥取大), 陶山昭彦 ...
感染症の発症についての保健所からの報告のデータ:
目で見て検証し,周期性などはおおまかに把握できる→もっと統...
- パワースペクトルやコレログラムを用いた解析のケーススタ...
15:30-17:30 【多変量解析,可視化】
* Local Fisher Discriminant Analysis for Dimensionality R...
○杉山 将 (東工大)
- (ICML2006での発表)線形の教師あり次元圧縮
- クラス内多峰性がある場合:クラス内で密な部分が複数個存在
- Fisher判別分析をpairwiseに書くと,同じクラスを近くに,...
- 多峰性だとFDAは,離れた同じクラスのデータを近くに埋め込...
- 局所性保存射影(LPP):下の空間で近くにあるものは近くに埋...
- LPP+FDA:同じクラスの近くの標本は近く,違うクラスなら遠...
→局所フィッシャー判別分析 (LFDA):pairwise表現のFDAに局所...
- FDAは(クラス数-1)個の次元しかとりだせないが,任意の個数...
- 関連研究:Hastie&Tibshrani(PAMI 1996)のLDIとの違い:多...
- MDA:Hastie&Tibshrani,NCA:Goldberger,Roweis,Hingon,Sala...
- 局所性を決めるノルムの選択が提案手法の課題
* 不均一関数データに対する主成分分析と手書き文字データへ...
○茅野光範, 堂園剛司, 小西貞則 (九大)
- 不均一関数データ:関数の値が,観測点数や観測区間がバラ...
- 関数主成分分析:関数の集まりが与えられたとき,これらにP...
- 不均一関数データに関数主成分分析を縮小ランクモデルで解...
* R,GAM,そして生存時間解析 [#fa17fcd9]
○辻谷将明 (大阪電通大)
- GAM:一般化加算モデルに平滑化スプライン項を加えて解析
* テュートリアル教育(情報科学演習)における学習行動の類似...
○安田 晃, 平野章二, 阿部秀尚, 中國秀章, 花田英輔, 津本周...
- 演習中の学生の行動の時系列上での変化を定量的に評価する...
- データは各演習後に提出する評価シートから得る
- 各演習の順位相関を使って学生の行動が変化する時期を見つ...
- Russel and Rao係数で類似度を測る.最終週のガンバリをみ...
- MDSで可視化
* 事例に論理構造に基づく関係的知識発見 [#t3d70c87]
○元山純一, 中野智文, 犬塚信博 (名工大)
- ILPで,意味があり,頻出のパターンを,関係データから列挙...
- 「意味がある」:1引数の事実を表す述語(一つ以上必要)が最...
- 各事例(具体的な関係を展開した木)が,節で表された性質を...
- 同値なパターンや部分構造の組み合わせなどを考慮する工夫
* 分散共起尺度の提案 [#x99ad451]
○中野智文, 犬塚信博, 小山由紀江, 石川有香 (名工大)
- コーパス中の単語の共起関係の尺度を,分散計算機環境で計...
- 各計算機でレンマ化(stemming)する前の共起関係を見つけ,...
* データマイニング手法に基づくインシデントレポートデータ...
○阿部秀尚, 津本周作, 中國秀章, 平野章二, 花田英輔 (島根大)
- 専門家がデータ集合を作るのは大変なので,各アルゴリズム...
- 有効な学習ができるようになるために,データ全体を使った...
- 有効性を実験的に検証
10:45-12:15 【系列・グラフマイニング】
* 情報量と頻度に基づく知的系列データマイニング手法 [#m1a9...
○大塚尚貴, 岩沼宏治, 鍋島英知 (山梨大)
- 長い系列 S から,系列と無矛盾なシンボル系列パターンで頻...
- kごとのスライディングウィンドウに切って,PrefixSpan を...
- 頻度ではなく,情報量利得を使う抽出基準.
- 深さ優先探索をするが,探索の枝狩りをする基準の提案.
* 頻出系列パターンマイニング手法を用いたWeb利用パターン発...
○早川潤一, 中野智文, 犬塚信博 (名工大)
- ログレコードグラフ(ログのアクセス順を考慮したグラフ),U...
* 情報利得値の上界を枝刈り基準とした特徴的部分グラフの探...
○原 昌弘, 高林健登, 大原剛三, 元田 浩, 鷲尾 隆 (阪大)
- 頻出する部分グラフを見つける Cl-GBI法の改良
- 見つけた部分グラフは,それを特徴として,クラス分類に利...
- この目的で,頻出するものの中でも,クラスとの相互情報量...
- この相互情報量についてbranch-and-boundを実行するための...
* データマイニング手法 -評価法からの俯瞰- [#d9505a0a]
○鈴木英之進 (九大)
** データマイニングのプロセスモデル [#deea3b3c]
- 選択,前処理,変換,抽出,評価のプロセスを反復的に実行
- パターンの抽出と評価を中心に
** 視点 [#t83a1424]
*** データマイニング手法の評価法 [#u5a42078]
- 母体分野:機械学習,統計,DB
- パターン表現:異常値,構造ルール,分類ルール
- データ:サイズ,属性の粒度,例の粒度
- 評価による違い:専門家,複数・単数
*** 母体分野からみたデータマイニング [#lf8a32b4]
- 機械学習:人間の推論を実現.自動評価好き.
- 統計学:統データの解析手法
- データベース:データ処理.記憶媒体の処理特性を考慮
** 研究分野の違いによる評価の違い [#a02e2b73]
*** DB系の研究の視点から [#w02a4418]
ICDM2001のJim Grayの招待講演
- データベースの研究者
-- 知識の発見,興味深さ,意味には興味なし
-- データの保存や検索などの処理には,興味があり,効率的な...
- 相関ルール発見:
- ポイント:データがメモリに配置できないことを考慮し,''...
-- 評価は,データや実行環境の制約を変えて,効率の評価~
→ ルールの良さは評価しない
- 批判
-- 多数のルールが出てきて役立たない→あとは,DBにクエリを...
-- 支持度や確信度では不足?
-- アルゴリズムとデータ構造が素朴?→基本的な枠組みの提案
*** 機械学習系の研究の視点から [#j770c3f7]
ルール意味とかを無視できない
- ITRULE: 表形式データから if-then ルールを J値と呼ぶ基準...
- ポイント:圧縮情報量(評価値J)とbranch-and-boundによる探索
-- ''意味を定量化しようとする試み''
- 評価は,理論的価値と実用的価値の両面がある
*** 離散的アプローチと統計的アプローチ [#gc59d0a6]
遺伝子からのモチーフ発見
- 拡張可能モチーフというパターンを定義し,その性質の定理...
- 統計では,頑健性とかに関心はあるが,データ構造に関心は...
- 統計系の研究:''pLSA''
- d:文書,z:潜在クラス,w:単語:p(d),P(z|d),P(w|z) のグラ...
-- 評価:データを使った経験的評価
-- 批判:正解率などは過剰に厳しい場合もある?直観的でない...
** パターン表現の粒度例 [#i252020a]
*** DBOutlier [#q3a7c0f0]
- 表形式データから,半径 D 内には(1-p)個の事例しか存在し...
-- セルを作って離散的に事前に数えあげておくことで,分枝限...
-- 評価:例外にされた事例は定性的にも評価されている.(機...
-- ROCなどの指標を使った評価はしていないので定量的評価と...
*** 構造ルール発見の研究例:例外ルールの同時発見 [#md3cb0...
- Y → X,と Y→X∧Z から例外パターンルールを作る
-- とても小数の例を説明するルール
-- 評価:単一の軸ではなく,複数の視点からの評価.妥当,有...
** データの難易度 [#z859910b]
- サイズ:例数,属性数,記憶媒体
- 属性の粒度:目的に応じて調整済み・まだ
- 例の粒度:知識にしやすい高次なものか,低次の観測量
** 専門家評価の注意点 [#dea4fa80]
- 単複:専門家で意見が違うことはよくあるので,影響は大きい
- 最高・平均:どちらを目指すかは,かなり差がでる
- 性格:楽観的・慎重
- 実証可能性:結果の良さが分からない (例:創薬などは検証...
- 本物か?:計算機でシュミレートした評価者
** 結論 [#y8bf8b0d]
- 評価法の違いはよく検定すべき
- 本当にやったことをタイトルに書こう「Beware of the hype ...
- 将来:より多くの種類の評価が要求されるようになる
** Q&A: 知識とは [#f4e77d41]
- メタな議論は生産的ではない
- 再利用可能性があるというあたりで手をうつ
* データ解析履歴に基づくマイニングアルゴリズム選択支援 [#...
○陸 洪涛, 大原剛三, 鷲尾 隆 (阪大)
- データマイニングプロセスで使用するアルゴリズムの選択の...
- 過去の解析した経験のデータベースから,使用するアルゴリ...
- 解析したデータの特徴と,アルゴリズムのパラメータ設定と...
- データの特徴間の類似度を定義.事例ベース推論の枠組みを...
*観点を考慮した知識整理のための地図型アニメーションインタ...
○田中大智, 砂山 渡 (広島市立大)
- あるテーマの単語集合の関係を可視化する.また,それらに...
- 単語間の関係の強さを定義し,バネモデルで配置
- Newton 2004 の方法でクラスタを求め,それらを島としてメ...
- 局所的な関係を「道路」,大局的な関係を「線路と橋」によ...
- 観点を使うと,観点に関する単語だけについて地図が生成さ...
* 幾何学的制約に基づいた高相関変数集合導出手法 [#t7038c6f]
○中西耕太郎, 鷲尾 隆 (阪大)
- 相関解析は属性間の相関を調べ,相関の強いを見つける
- AC, AB の相関が計算済みのとき,BCの相関がしきい値以上か...
- 最悪の場合,かえって計算量が増えるので,相関が強そうな...
- 相関の強い変数が多くなると高速になる
* 局所単調性に基づく条件付相関変化の探索法に関する一考察 ...
○谷口 剛, 原口 誠 (北大)
- 大域的なDBでは相関・共起が低いが,ある条件を満たす局所D...
* カテゴリー変数に対する共分散と主成分分析および実データ...
○新妻弘崇(産総研),岡田 孝(関西学院大学)
- カテゴリ変数の変数選択をするための共分散の定義
- Gini Indexで,同じ変数について2乗するところを,違う変数...
- カテゴリ変数の差は,regularな単体上で定義した座標を使う
- さらに座標系を合わせるための回転も考慮
- これは固有値問題として解くことができる
- 同様の手法で,カテゴリ変数に対する PCA も定義
ページ名: