* KNIME (Konstanz Information Miner) [#vdeebfde]

//ここには %項目の説明を書いてください.よろしければ署名しておいてください.

- データ分析用の統合環境.
- ドイツの Konstanz大のバイオ系の部門が開発した.
-「ナイム」と読むらしい
- [[Eclipse>http://www.eclipse.org/]] をベースに作られている.
- GPLv3で配布されている無料で利用できるオープンソースのソフトだが,[[KNIME.com>http://www.knime.com/]] が有料サポートもしている.
- [[拡張プラグイン>http://www.knime.org/downloads/extensions]]がある.化学・バイオ系やBI用のレポート作成などのプラグインもある.
- java で本体は書かれているが,拡張プラグインで [[Weka]],[[R]],[[python]] などを呼び出して利用できる.
- [[紹介ビデオ>http://www.knime.org/introduction/screencasts]] と [[スクリーンショット>http://www.knime.org/introduction/screenshots]]

*** しましまの個人的感想 [#v227be48]

- 交差確認などでは並列処理もできて,マルチコアを活用できる.Preference > General > KNIME で最大スレッド数を指定しておくこと
- Mac版で割り当てメモリを増やすには,KNIME.app の中の Contents/MacOS/KNIME.ini で -Xmx512m を増やす
- [[RapidMiner]]と比べて,拡張性はKNIMEが上で,ヒントやサンプルなどアシスト系の部分はRapidMinerが上な気がする.実験・研究系はKNIMEを,BI系はRapidMinerがいい気がする.

*** Getting Started [#y2dbe848]

※ Macβ版の2.1.2でやってます

''インストール''
- Windows/Linux/Mac と配布されているので Java 6 が使えるようになっていれば [[Installation Guide>http://www.knime.org/documentation/installation]] からダウンロードしてインストーラを使うか,コピーするとかでインストールできる.
- 起動したらWorkflowとかを置くための workspace を指定する
- WorkBench の図があるが,真ん中のところのWorkflow Editor にアイコンを並べて,つないでいけばいい
- 左下が部品の一覧 Node Repository,右上が各ノードの説明 Node Description,左上がワークフローのプロジェクト
- Getting Started の前に,[[Benchmark Data Sets>http://www.knime.org/downloads/datasets]] からデータをダウンロードして,どこかに展開しておく.

''チュートリアル''
- [[Getting Started>http://www.knime.org/documentation/getting_started]] のページを参照
- 例題は [[k-means法]] で定番の IRIS データをクラスタリング
- 左下の部品置き場からアイコンを持ってきて,2番目の図みたいに並べる
-- 検索窓で名前を入力すると検索できる.検索による絞り込みの解除は ESC か BS.
- アイコンの下の三つの点は重要:赤は実行不能,黄色は実行可能,緑は実行済み
- アイコンの三角とか四角の出っ張りは入出力を表す.何が出てるかは,カーソルをもっていけば,tool tipsが出る.
- 最初は File Reader の設定.右クリックしてConfigureする
-- 上の方の Browse... を選んで,さっきダウンロードした Benchmark Data Sets の中の,iris/data.all を選んで,OKを押してダイアログを閉じる.
-- File Reader が黄色状態になって実行可能になる.
-- この状態で右クリックで Execute を押すと実行される
- Color Manager は特定の属性値と色を結びつける
-- アイコンの下に注意マークが出てたら,まだ入力データが確定してないけど,今は適当に色を割り当ててますという意味
-- k-Means まで実行を終えてから,Color Manager を Configure する
--- 属性 Cluster に,三つの値があるので,適当に色を選んで,OKをおせば注意マークは消える
- 全ノードを選んでまとめてExecuteして,全ノードを緑の実行済み状態にする
- Scatter Plot と Interactive Table でそれぞれ viewなんとか を選ぶと結果がみれる
-- Color Manager で選んだ色で色分けされている
- Scatter Plot で何個か点を選んで,メニューから HiLite selected を選ぶ
-- 選択状態が,Interactive Table の方に反映されて,どのデータに対応するかが分かる

*** Examples [#zaae8a29]

本体・プラグインのアップデート
- [[KNIME Update Site>http://www.knime.org/downloads/update]] に書いてある.
- Help > Check for Updates がMac版はだめだった.β版だからか?
-- Preferences に Install/Update があるが,URLの追加方法が分からない

Example の読み込み
- [[Examples>http://www.knime.org/introduction/examples]] のページから目的のworkflowをダウンロードして,zip を展開
- File > Import KNIME workflow を使って,展開したフォルダを指定すればOK
- workflow をインポートできたら,左上のWorkflow Projects に出てるので,それを Open すればよい

learn decision tree
- File Reader から Benchmark Data Sets の iris/data.all を指定
- File Reader を実行後,Color Manager の Select Column で Col4 を指定
- Partitioning では訓練・テスト用にデータを分ける
-- 各クラスからサンプリングされるように,Stratified sampling を選んで,Col4 を設定
- Decision Tree Learner は,Class column に Col4 を設定
- Scorer は First Column が正解の Col4,Second Column に予測結果の Prediction (Dec Tree) を設定
- 全部,黄色か緑になったはずなので,全部選んで実行
- Scorer を view すると,テスト集合に対する confusion matrix や誤り率が出ている

cross validation
- File Reader でやはり iris/data.all を指定
- Cross Validation では,右クリックで Open Subworkflow Editor を選ぶ
-- 交差確認の分割をする X-Partitioner では,Straified sampling で Col4 を選択
-- Naive Bayes Learner は適当にConfigure
-- X-aggregator は Target Column を Col4 に,Prediction column を Winner (Naive Bayes) にする
- Cross Validation を実行すると,交差確認で単純ベイズが実行される
-- 一度変更してから,2回目以降に実行しようとするとエラーになることがあるので,リセットを選んでから再実行する
-- subworkflow を開いたまま,全ノードを選んで実行すると,ちゃんと何回も実行してるのが見れる
- 結果が見えないので,適当に Scorer とか,Scatter Plot とかを繋げば結果がみれる

R example
- File Reader に iris/data.all を指定
- Rename で Col4 の列の名前を class に書き換えておく(代わりにR Learnerのスクリプト中の class を Col4 に書き換えてもよい)
- 上から,R を使って決定木,共分散の計算,プロットを行っている
- R learner は rpart (Recursive Partitioning and Regression Trees) を呼び出すスクリプトになっている.
-- スクリプト中の class は列の名前なので,左の変数から選べる
- R Snippet は cov とかになっているが mean とかにも変えられる
-- 結果は出てこないので,Interactive Table とかを繋いで見る
- R View は Configure で View type をいろいろ変えられる

** 関連項目 [#s03c8790]

//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.

-[[Freeware]]
-[[Weka]]
-[[R]]
#br
-[[検索:KNIME]]

** リンク集 [#i07a7f61]

//関連するWWW資源があればリンクしてください.
-[[KNIME (Konstanz Information Miner)>http://www.knime.org/]]:公式サイト
-[[KNIME.com>http://www.knime.com/]]:KNIMEの有料サポート
-[[統合DB情報基盤サイト @ 産総研CBRC>http://togo.cbrc.jp/]]:ワークフローの配布
-[[バイオインフォマティクスって何ですか?>http://d.hatena.ne.jp/makiyamakoji/]]:KNIMEを使った開発者のブログ
#br
-[[GoogleScholar:KNIME]]:Google Scholar での検索

** 関連文献 [#i3aa7e74]

//この%項目%に関連する書籍や論文を紹介してください.

-基本文献~
M.R.Berthold et al. "KNIME: The Konstanz Information Miner" Springer (2008)~
[[GoogleScholarAll:KNIME: The Konstanz Information Miner]]

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS