KNIME

KNIME (Konstanz Information Miner)†

データ分析用の統合環境．
ドイツの Konstanz大のバイオ系の部門が開発した．
「ナイム」と読むらしい
Eclipse をベースに作られている．
GPLv3で配布されている無料で利用できるオープンソースのソフトだが，KNIME.com が有料サポートもしている．
拡張プラグインがある．化学・バイオ系やBI用のレポート作成などのプラグインもある．
java で本体は書かれているが，拡張プラグインで Weka，R，python などを呼び出して利用できる．
紹介ビデオとスクリーンショット

↑

しましまの個人的感想†

交差確認などでは並列処理もできて，マルチコアを活用できる．Preference > General > KNIME で最大スレッド数を指定しておくこと
Mac版で割り当てメモリを増やすには，KNIME.app の中の Contents/MacOS/KNIME.ini で -Xmx512m を増やす
RapidMinerと比べて，拡張性はKNIMEが上で，ヒントやサンプルなどアシスト系の部分はRapidMinerが上な気がする．実験・研究系はKNIMEを，BI系はRapidMinerがいい気がする．

↑

Getting Started†

※ Macβ版の2.1.2でやってます

インストール

Windows/Linux/Mac と配布されているので Java 6 が使えるようになっていれば Installation Guide からダウンロードしてインストーラを使うか，コピーするとかでインストールできる．
起動したらWorkflowとかを置くための workspace を指定する
WorkBench の図があるが，真ん中のところのWorkflow Editor にアイコンを並べて，つないでいけばいい
左下が部品の一覧 Node Repository，右上が各ノードの説明 Node Description，左上がワークフローのプロジェクト
Getting Started の前に，Benchmark Data Sets からデータをダウンロードして，どこかに展開しておく．

チュートリアル

Getting Started のページを参照
例題は k-means法で定番の IRIS データをクラスタリング
左下の部品置き場からアイコンを持ってきて，2番目の図みたいに並べる
- 検索窓で名前を入力すると検索できる．検索による絞り込みの解除は ESC か BS．
アイコンの下の三つの点は重要：赤は実行不能，黄色は実行可能，緑は実行済み
アイコンの三角とか四角の出っ張りは入出力を表す．何が出てるかは，カーソルをもっていけば，tool tipsが出る．
最初は File Reader の設定．右クリックしてConfigureする
- 上の方の Browse... を選んで，さっきダウンロードした Benchmark Data Sets の中の，iris/data.all を選んで，OKを押してダイアログを閉じる．
- File Reader が黄色状態になって実行可能になる．
- この状態で右クリックで Execute を押すと実行される
Color Manager は特定の属性値と色を結びつける
- アイコンの下に注意マークが出てたら，まだ入力データが確定してないけど，今は適当に色を割り当ててますという意味
- k-Means まで実行を終えてから，Color Manager を Configure する
  - 属性 Cluster に，三つの値があるので，適当に色を選んで，OKをおせば注意マークは消える
全ノードを選んでまとめてExecuteして，全ノードを緑の実行済み状態にする
Scatter Plot と Interactive Table でそれぞれ viewなんとかを選ぶと結果がみれる
- Color Manager で選んだ色で色分けされている
Scatter Plot で何個か点を選んで，メニューから HiLite selected を選ぶ
- 選択状態が，Interactive Table の方に反映されて，どのデータに対応するかが分かる

↑

Examples†

本体・プラグインのアップデート

KNIME Update Site に書いてある．
Help > Check for Updates がMac版はだめだった．β版だからか？
- Preferences に Install/Update があるが，URLの追加方法が分からない

Example の読み込み

Examples のページから目的のworkflowをダウンロードして，zip を展開
File > Import KNIME workflow を使って，展開したフォルダを指定すればOK
workflow をインポートできたら，左上のWorkflow Projects に出てるので，それを Open すればよい

learn decision tree

File Reader から Benchmark Data Sets の iris/data.all を指定
File Reader を実行後，Color Manager の Select Column で Col4 を指定
Partitioning では訓練・テスト用にデータを分ける
- 各クラスからサンプリングされるように，Stratified sampling を選んで，Col4 を設定
Decision Tree Learner は，Class column に Col4 を設定
Scorer は First Column が正解の Col4，Second Column に予測結果の Prediction (Dec Tree) を設定
全部，黄色か緑になったはずなので，全部選んで実行
Scorer を view すると，テスト集合に対する confusion matrix や誤り率が出ている

cross validation

File Reader でやはり iris/data.all を指定
Cross Validation では，右クリックで Open Subworkflow Editor を選ぶ
- 交差確認の分割をする X-Partitioner では，Straified sampling で Col4 を選択
- Naive Bayes Learner は適当にConfigure
- X-aggregator は Target Column を Col4 に，Prediction column を Winner (Naive Bayes) にする
Cross Validation を実行すると，交差確認で単純ベイズが実行される
- 一度変更してから，2回目以降に実行しようとするとエラーになることがあるので，リセットを選んでから再実行する
- subworkflow を開いたまま，全ノードを選んで実行すると，ちゃんと何回も実行してるのが見れる
結果が見えないので，適当に Scorer とか，Scatter Plot とかを繋げば結果がみれる

R example

File Reader に iris/data.all を指定
Rename で Col4 の列の名前を class に書き換えておく（代わりにR Learnerのスクリプト中の class を Col4 に書き換えてもよい）
上から，R を使って決定木，共分散の計算，プロットを行っている
R learner は rpart (Recursive Partitioning and Regression Trees) を呼び出すスクリプトになっている．
- スクリプト中の class は列の名前なので，左の変数から選べる
R Snippet は cov とかになっているが mean とかにも変えられる
- 結果は出てこないので，Interactive Table とかを繋いで見る
R View は Configure で View type をいろいろ変えられる