KNIME (Konstanz Information Miner)

  • データ分析用の統合環境.
  • ドイツの Konstanz大のバイオ系の部門が開発した.
  • 「ナイム」と読むらしい
  • Eclipse をベースに作られている.
  • GPLv3で配布されている無料で利用できるオープンソースのソフトだが,KNIME.com が有料サポートもしている.
  • 拡張プラグインがある.化学・バイオ系やBI用のレポート作成などのプラグインもある.
  • java で本体は書かれているが,拡張プラグインで WekaRpython などを呼び出して利用できる.
  • 紹介ビデオスクリーンショット

しましまの個人的感想

  • 交差確認などでは並列処理もできて,マルチコアを活用できる.Preference > General > KNIME で最大スレッド数を指定しておくこと
  • Mac版で割り当てメモリを増やすには,KNIME.app の中の Contents/MacOS/KNIME.ini で -Xmx512m を増やす
  • RapidMinerと比べて,拡張性はKNIMEが上で,ヒントやサンプルなどアシスト系の部分はRapidMinerが上な気がする.実験・研究系はKNIMEを,BI系はRapidMinerがいい気がする.

Getting Started

※ Macβ版の2.1.2でやってます

インストール

  • Windows/Linux/Mac と配布されているので Java 6 が使えるようになっていれば Installation Guide からダウンロードしてインストーラを使うか,コピーするとかでインストールできる.
  • 起動したらWorkflowとかを置くための workspace を指定する
  • WorkBench の図があるが,真ん中のところのWorkflow Editor にアイコンを並べて,つないでいけばいい
  • 左下が部品の一覧 Node Repository,右上が各ノードの説明 Node Description,左上がワークフローのプロジェクト
  • Getting Started の前に,Benchmark Data Sets からデータをダウンロードして,どこかに展開しておく.

チュートリアル

  • Getting Started のページを参照
  • 例題は k-means法 で定番の IRIS データをクラスタリング
  • 左下の部品置き場からアイコンを持ってきて,2番目の図みたいに並べる
    • 検索窓で名前を入力すると検索できる.検索による絞り込みの解除は ESC か BS.
  • アイコンの下の三つの点は重要:赤は実行不能,黄色は実行可能,緑は実行済み
  • アイコンの三角とか四角の出っ張りは入出力を表す.何が出てるかは,カーソルをもっていけば,tool tipsが出る.
  • 最初は File Reader の設定.右クリックしてConfigureする
    • 上の方の Browse... を選んで,さっきダウンロードした Benchmark Data Sets の中の,iris/data.all を選んで,OKを押してダイアログを閉じる.
    • File Reader が黄色状態になって実行可能になる.
    • この状態で右クリックで Execute を押すと実行される
  • Color Manager は特定の属性値と色を結びつける
    • アイコンの下に注意マークが出てたら,まだ入力データが確定してないけど,今は適当に色を割り当ててますという意味
    • k-Means まで実行を終えてから,Color Manager を Configure する
      • 属性 Cluster に,三つの値があるので,適当に色を選んで,OKをおせば注意マークは消える
  • 全ノードを選んでまとめてExecuteして,全ノードを緑の実行済み状態にする
  • Scatter Plot と Interactive Table でそれぞれ viewなんとか を選ぶと結果がみれる
    • Color Manager で選んだ色で色分けされている
  • Scatter Plot で何個か点を選んで,メニューから HiLite selected を選ぶ
    • 選択状態が,Interactive Table の方に反映されて,どのデータに対応するかが分かる

Examples

本体・プラグインのアップデート

  • KNIME Update Site に書いてある.
  • Help > Check for Updates がMac版はだめだった.β版だからか?
    • Preferences に Install/Update があるが,URLの追加方法が分からない

Example の読み込み

  • Examples のページから目的のworkflowをダウンロードして,zip を展開
  • File > Import KNIME workflow を使って,展開したフォルダを指定すればOK
  • workflow をインポートできたら,左上のWorkflow Projects に出てるので,それを Open すればよい

learn decision tree

  • File Reader から Benchmark Data Sets の iris/data.all を指定
  • File Reader を実行後,Color Manager の Select Column で Col4 を指定
  • Partitioning では訓練・テスト用にデータを分ける
    • 各クラスからサンプリングされるように,Stratified sampling を選んで,Col4 を設定
  • Decision Tree Learner は,Class column に Col4 を設定
  • Scorer は First Column が正解の Col4,Second Column に予測結果の Prediction (Dec Tree) を設定
  • 全部,黄色か緑になったはずなので,全部選んで実行
  • Scorer を view すると,テスト集合に対する confusion matrix や誤り率が出ている

cross validation

  • File Reader でやはり iris/data.all を指定
  • Cross Validation では,右クリックで Open Subworkflow Editor を選ぶ
    • 交差確認の分割をする X-Partitioner では,Straified sampling で Col4 を選択
    • Naive Bayes Learner は適当にConfigure
    • X-aggregator は Target Column を Col4 に,Prediction column を Winner (Naive Bayes) にする
  • Cross Validation を実行すると,交差確認単純ベイズが実行される
    • 一度変更してから,2回目以降に実行しようとするとエラーになることがあるので,リセットを選んでから再実行する
    • subworkflow を開いたまま,全ノードを選んで実行すると,ちゃんと何回も実行してるのが見れる
  • 結果が見えないので,適当に Scorer とか,Scatter Plot とかを繋げば結果がみれる

R example

  • File Reader に iris/data.all を指定
  • Rename で Col4 の列の名前を class に書き換えておく(代わりにR Learnerのスクリプト中の class を Col4 に書き換えてもよい)
  • 上から,R を使って決定木共分散の計算,プロットを行っている
  • R learner は rpart (Recursive Partitioning and Regression Trees) を呼び出すスクリプトになっている.
    • スクリプト中の class は列の名前なので,左の変数から選べる
  • R Snippet は cov とかになっているが mean とかにも変えられる
    • 結果は出てこないので,Interactive Table とかを繋いで見る
  • R View は Configure で View type をいろいろ変えられる

関連項目

リンク集

関連文献


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-05-29 (土) 20:12:15 (2387d)