KNIME (Konstanz Information Miner)†
- データ分析用の統合環境.
- ドイツの Konstanz大のバイオ系の部門が開発した.
- 「ナイム」と読むらしい
- Eclipse をベースに作られている.
- GPLv3で配布されている無料で利用できるオープンソースのソフトだが,KNIME.com が有料サポートもしている.
- 拡張プラグインがある.化学・バイオ系やBI用のレポート作成などのプラグインもある.
- java で本体は書かれているが,拡張プラグインで Weka,R,python などを呼び出して利用できる.
- 紹介ビデオ と スクリーンショット
- 交差確認などでは並列処理もできて,マルチコアを活用できる.Preference > General > KNIME で最大スレッド数を指定しておくこと
- Mac版で割り当てメモリを増やすには,KNIME.app の中の Contents/MacOS/KNIME.ini で -Xmx512m を増やす
- RapidMinerと比べて,拡張性はKNIMEが上で,ヒントやサンプルなどアシスト系の部分はRapidMinerが上な気がする.実験・研究系はKNIMEを,BI系はRapidMinerがいい気がする.
Getting Started†
※ Macβ版の2.1.2でやってます
インストール
- Windows/Linux/Mac と配布されているので Java 6 が使えるようになっていれば Installation Guide からダウンロードしてインストーラを使うか,コピーするとかでインストールできる.
- 起動したらWorkflowとかを置くための workspace を指定する
- WorkBench の図があるが,真ん中のところのWorkflow Editor にアイコンを並べて,つないでいけばいい
- 左下が部品の一覧 Node Repository,右上が各ノードの説明 Node Description,左上がワークフローのプロジェクト
- Getting Started の前に,Benchmark Data Sets からデータをダウンロードして,どこかに展開しておく.
チュートリアル
- Getting Started のページを参照
- 例題は k-means法 で定番の IRIS データをクラスタリング
- 左下の部品置き場からアイコンを持ってきて,2番目の図みたいに並べる
- 検索窓で名前を入力すると検索できる.検索による絞り込みの解除は ESC か BS.
- アイコンの下の三つの点は重要:赤は実行不能,黄色は実行可能,緑は実行済み
- アイコンの三角とか四角の出っ張りは入出力を表す.何が出てるかは,カーソルをもっていけば,tool tipsが出る.
- 最初は File Reader の設定.右クリックしてConfigureする
- 上の方の Browse... を選んで,さっきダウンロードした Benchmark Data Sets の中の,iris/data.all を選んで,OKを押してダイアログを閉じる.
- File Reader が黄色状態になって実行可能になる.
- この状態で右クリックで Execute を押すと実行される
- Color Manager は特定の属性値と色を結びつける
- アイコンの下に注意マークが出てたら,まだ入力データが確定してないけど,今は適当に色を割り当ててますという意味
- k-Means まで実行を終えてから,Color Manager を Configure する
- 属性 Cluster に,三つの値があるので,適当に色を選んで,OKをおせば注意マークは消える
- 全ノードを選んでまとめてExecuteして,全ノードを緑の実行済み状態にする
- Scatter Plot と Interactive Table でそれぞれ viewなんとか を選ぶと結果がみれる
- Color Manager で選んだ色で色分けされている
- Scatter Plot で何個か点を選んで,メニューから HiLite selected を選ぶ
- 選択状態が,Interactive Table の方に反映されて,どのデータに対応するかが分かる
Examples†
本体・プラグインのアップデート
- KNIME Update Site に書いてある.
- Help > Check for Updates がMac版はだめだった.β版だからか?
- Preferences に Install/Update があるが,URLの追加方法が分からない
Example の読み込み
- Examples のページから目的のworkflowをダウンロードして,zip を展開
- File > Import KNIME workflow を使って,展開したフォルダを指定すればOK
- workflow をインポートできたら,左上のWorkflow Projects に出てるので,それを Open すればよい
learn decision tree
- File Reader から Benchmark Data Sets の iris/data.all を指定
- File Reader を実行後,Color Manager の Select Column で Col4 を指定
- Partitioning では訓練・テスト用にデータを分ける
- 各クラスからサンプリングされるように,Stratified sampling を選んで,Col4 を設定
- Decision Tree Learner は,Class column に Col4 を設定
- Scorer は First Column が正解の Col4,Second Column に予測結果の Prediction (Dec Tree) を設定
- 全部,黄色か緑になったはずなので,全部選んで実行
- Scorer を view すると,テスト集合に対する confusion matrix や誤り率が出ている
cross validation
- File Reader でやはり iris/data.all を指定
- Cross Validation では,右クリックで Open Subworkflow Editor を選ぶ
- 交差確認の分割をする X-Partitioner では,Straified sampling で Col4 を選択
- Naive Bayes Learner は適当にConfigure
- X-aggregator は Target Column を Col4 に,Prediction column を Winner (Naive Bayes) にする
- Cross Validation を実行すると,交差確認で単純ベイズが実行される
- 一度変更してから,2回目以降に実行しようとするとエラーになることがあるので,リセットを選んでから再実行する
- subworkflow を開いたまま,全ノードを選んで実行すると,ちゃんと何回も実行してるのが見れる
- 結果が見えないので,適当に Scorer とか,Scatter Plot とかを繋げば結果がみれる
R example
- File Reader に iris/data.all を指定
- Rename で Col4 の列の名前を class に書き換えておく(代わりにR Learnerのスクリプト中の class を Col4 に書き換えてもよい)
- 上から,R を使って決定木,共分散の計算,プロットを行っている
- R learner は rpart (Recursive Partitioning and Regression Trees) を呼び出すスクリプトになっている.
- スクリプト中の class は列の名前なので,左の変数から選べる
- R Snippet は cov とかになっているが mean とかにも変えられる
- 結果は出てこないので,Interactive Table とかを繋いで見る
- R View は Configure で View type をいろいろ変えられる
関連項目†
リンク集†
関連文献†
Last-modified: 2010-05-29 (土) 20:12:15