RapidMiner
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
* RapidMiner [#md074995]
//ここには %項目の説明を書いてください.よろしければ署名...
[[Weka]] の学習ルーチンに,前処理・可視化の部分を強化した...
さらに今は社名も [[RapidMiner>http://rapidminer.com/]] に...
- Community Edition は無料でオープンソースで 5.x
- 6.x 移行は製品で,機能制限版で無償のStarter版と,有償の...
- ビデオ: http://www.youtube.com/user/RapidIVideos
** Version 5.x のCommunity Edition について [#dd760cc5]
*** しましまの個人的感想 [#w54a2575]
- 便利にできている.アルゴリズムをいじらないで分析だけす...
-- Helpメニューからは,Wikiやビデオなどの他の資料へのアク...
- 下の方にエラーが出てくるが,対処法が提案されてるので,...
- ブースティングとかをメタ学習っていうな〜アンサンブル学...
- 可視化で決定面を書く機能と,クラス条件付きでない特徴の...
- Look&Feel が変えられず,フォントが細くてジャギーがあっ...
- Process のParameter設定の parallelize main process など...
- [[KNIME]]と比べて,拡張性はKNIMEが上で,ヒントやサンプ...
*** インストール [#bcf71ff0]
Mac/UNIX 系へのインストールの概要.
Windows系は [[Installation Guide>http://rapid-i.com/conte...
+ Java が 6.0 であることを確認
+ [[Rapid-I>http://rapid-i.com/]] から,RapidMiner > Down...
+ 関連情報が欲しければメールを登録して,そうでなければ,...
+ ダウンロードしたzipファイルを /usr/local/ や /Applicati...
+ その中の scripts に RapidMinerGUI があるので
-- MAX_JAVA_MEMORY= をMBytes 単位で設定
+ RapidMinerGUI に実行権限を与えて,パス上の適当な場所へ...
さらに [[R]] との連携をする場合(Mac OS Xの場合)
- scripts/RapidMinerGUI の MAX_JAVA_MEMORY の定義の直後あ...
## for R_Extension
export R_HOME=/Library/Frameworks/R.framework/Resources
export JAVA_HOME=/Library/Java/Home
- CRAN版のRをインストールし,起動後にパッケージインストー...
- 起動後に指定するライブラリは次のパスを指定
/Library/Frameworks/R.framework/Resources/library/rJava/...
*** チュートリアルまとめ [#v0d06c59]
しましまがVersion 5.0 のチュートリアルを実行したときのメ...
最後にしましまと書いてある行は,特に個人的な視点で書いて...
他の部分も私の理解に基づくまとめです.
- 最初に実行したら,自分のファイルを置くディレクトリを聞...
- Helpメニューの RapidMiner Tutorial を選ぶとチュートリア...
''1. 決定木''
- 上の三角の実行ボタンを押すと,results workspace に変え...
- 結果が出てくるので,Tree タブで,Graph view を選ぶと決...
- viewメニューのperspective か上のバーのアイコンで design...
- Decision Tree が選ばれた状態で,右クリック
-- Reprace Operator > Modeling でいろいろな分類器を使える
-- データ集合がカテゴリ属性ばかりなので,SVM などを使うと...
''2. 前処理込みの相関ルール''
- Preprocessing は,多値変数を複数の2値変数で表す.
- 頻出パターンマイニングの FPGrowth で頻出パターンを見つ...
- 結果の相関ルールのカラムをクリックするとソートできる
''3. アンサンブル学習''
- 複数の学習器を組み合わせる学習
-- ここでは異なる種類の学習器の結果をまとめる Stacking ブ...
- Stacking をダブルクリックする,もしくは Stacking を選ん...
-- ここでは,決定木,最近隣法,線形回帰の結果を単純ベイズ...
''4. クラスタリングと次元削減''
- KMeans でクラスタリングして,SVDReduction で次元削減
- 結果の ExampleSet (SVDReduction) で,Plotter=Scatter, x...
''5. [[SVM]] の例''
- [[SVM]]を実行する
- 結果のKernel Model (JMySVMLearner) で,Plot View を選ぶ
- うまく分離できているかをみる
- Plotter=scatter か quantile, x-Axis=function values, y-...
- Plotter=density, x-Axis=attribute1, y-Axis=attribute2, ...
''6. 前処理:欠損値補完''
- Retrieve を選んで,右クリックで break after を選択して...
-- ブレークポイント時点での各クラスごとのデータが表示される
-- Meta Data View ではMissings は欠損値の数
-- Data View では,各データを閲覧可能.右上の View Filter...
- design workspace に戻って,view の expert mode を選ぶ
- Preprocessing (Replace Missing Values) で,attribute fi...
-- Preprocessing のパラメータ(右の方) でattribute filter ...
''7. 人工ノイズの追加''
- 人工ノイズをデータに加える前処理 (ニューラルネットの時...
-- 他にも,TFIDF,obfuscating, 時系列処理とかあるらしい
''8. データベースの join''
- 同じIDのデータを統合する DB の join の例
''9. 交差確認''
- 交差確認の各foldで訓練・テストを実行できる.実行のフロ...
- X-Val をダブルクリックする,もしくは X-Val を選んでから...
-- 左の訓練枠では SVM が適用されて,右ではテスト集合を分...
''10. ROC曲線''
- 実行すると交差確認の5回分のROC曲線がプロットされる
- 交差確認の中身は,左の訓練では SVM を適用
- 右は,ThresholdFinder で最良のしきい値を見つけ(ついで...
''11. コストを考慮した学習 (分類しきい値を調整する)''
- ThresholdFinder で,クラスのコストが非対称に設定されて...
-- チュートリアルには第1クラスの誤分類が,第2クラスの5倍...
- TestModelApplier が ThresholdFinder の前にあって,ここ...
''12. コストを考慮した学習 (誤分類コストの重み付き学習)''
- X-Validation をダブルクリックすると,学習器はMetaCostに...
- MetaCost は,各クラスを誤分類したときの誤差行列を設定し...
-- MetaCostをダブルクリックすると,決定木を中で使っている...
''13. 主成分分析''
- Normalization は平均引いて,標準偏差で割る
- あとはPCAをする
- Example Set (Principal Components) で,Plot Viewにして...
''14. forward stepwise selection による特徴選択''
- 追加すると最も予測精度が上がる特徴から順番に追加してい...
- XValidation で予測精度を測る.中身の学習器は最近隣法
- ProcessLog は途中の誤差の保存
- 選択された特徴は,結果の AttributeWeights で分かる
- 誤差の変化は ProcessLog に,generation と performance ...
''15. 遺伝アルゴリズムによる特徴選択''
- 遺伝アルゴリズムで特徴選択
- 予測精度だけでなく,特徴数の少なさも考慮
''16. モデル選択''
- 最初の層では,データにランダムな特徴量を足している.ラ...
- 前処理での過学習を防ぐため,WrapperXValidation は,変換...
-- 第1段階は通常の FeatureSelection,第2段階はSVM,第3段...
-- FeatureSelection の中身は交差確認での評価 FSXValidation
-- さらにその中身は,SVMの学習と,モデルの評価
--- 最後のFSMinMaxWrapper は,平均と最小値の線形結合で評...
''17. 特徴選択と特徴生成''
- 特徴を組み合わせて新たな特徴を作る
- YAGGA (Yet Another Generating Genetic Algorithm) は遺伝...
- YAGGAのパラメータを変えると性能がどうかわるか?
-- (apply_best_parameter というパラメータがYAGGA のexper...
''18. 他のプロセスからの情報の導入''
- 前の17で構築した特徴や,特徴の重みを AttributeConstruct...
-- これらの構築した特徴や特徴の重みは AttributeConstructi...
''19. 数値特徴からの特徴構築''
- keep_all は,元の特徴も出力に含めるかどうかを決める
- Generation の中にある function description の式に従って...
''20. 特徴の重み付け''
- 遺伝的アルゴリズムで特徴を重み付け
- 最近隣法をラップした交差確認じゃない性能評価を目的関数...
- 実行中に一時停止してResultビューに切り替えてlogで途中経...
-- 一時停止ではなく,停止をやらないで,新たなプロセスを実...
''21. χ2乗検定による特徴の重み付け''
- 実行して ExampleSet の Plot Viewを選ぶ.
parallel, survey, RadViz, GridViz, histogram matrix, quar...
-(重みが黄色いマークで表示される説明にはあるが,見つから...
''22. パラメータ設定''
- C と dgeree のパラメータをいろいろ変えながら [[SVM]] を...
- Results の Log でplotter=Surface 3D, x-Axis=C, y-Axis=d...
''23. 前処理の最適化''
- 前処理をするかどうかをOperatorEnabler で決定し,した結...
''24. 分類を最適化するしきい値の探索''
- GridParameterOptimization 中の Selection の weight パラ...
''25. 性能評価指標の検定''
- 性能指標の平均と標準偏差の有意性を検定
- [[SVM]]と線形回帰について,交差確認で性能指標のベクトル...
- 対応のあるt検定とANOVAのいずれでも,SVMの性能が有意に良...
''26. 複雑な前処理''
- トップレベルの三つの処理
-- 一つ目は特定のフォーマットを作り出す定型処理
-- 二つ目のValueIteratorはforeach のようなもので,指定し...
--- その属性値を持つ値を抽出するのに,ExampleFilter の中...
--- DataMacroDefinition で定義したマクロ current_average ...
** 関連項目 [#m32b5db9]
//英語や同義語のあとに,#brで区切って関連する項目をリスト...
-[[Weka]]
-[[Freeware]]
#br
-[[検索:RapidMiner]]
** リンク集 [#c9fab4a9]
//関連するWWW資源があればリンクしてください.
-[[Rapid-I>http://rapid-i.com/]]:開発・配布
--[[KSKソリューションズ>http://www.rapid-i-partner.jp/]]...
-[[RapidMiner @ sourceforge.net>http://sourceforge.jp/pro...
-[[Vancouver Data Blog by Neil McGuigan>http://vancouverd...
** 関連文献 [#y914eec8]
//この%項目%に関連する書籍や論文を紹介してください.
-基本文献:RapidMiner の前身 Yale の文献~
I.Mierswa et. al. "YALE: Rapid prototyping for complex da...
[[GoogleScholarAll:YALE: Rapid prototyping for complex da...
終了行:
* RapidMiner [#md074995]
//ここには %項目の説明を書いてください.よろしければ署名...
[[Weka]] の学習ルーチンに,前処理・可視化の部分を強化した...
さらに今は社名も [[RapidMiner>http://rapidminer.com/]] に...
- Community Edition は無料でオープンソースで 5.x
- 6.x 移行は製品で,機能制限版で無償のStarter版と,有償の...
- ビデオ: http://www.youtube.com/user/RapidIVideos
** Version 5.x のCommunity Edition について [#dd760cc5]
*** しましまの個人的感想 [#w54a2575]
- 便利にできている.アルゴリズムをいじらないで分析だけす...
-- Helpメニューからは,Wikiやビデオなどの他の資料へのアク...
- 下の方にエラーが出てくるが,対処法が提案されてるので,...
- ブースティングとかをメタ学習っていうな〜アンサンブル学...
- 可視化で決定面を書く機能と,クラス条件付きでない特徴の...
- Look&Feel が変えられず,フォントが細くてジャギーがあっ...
- Process のParameter設定の parallelize main process など...
- [[KNIME]]と比べて,拡張性はKNIMEが上で,ヒントやサンプ...
*** インストール [#bcf71ff0]
Mac/UNIX 系へのインストールの概要.
Windows系は [[Installation Guide>http://rapid-i.com/conte...
+ Java が 6.0 であることを確認
+ [[Rapid-I>http://rapid-i.com/]] から,RapidMiner > Down...
+ 関連情報が欲しければメールを登録して,そうでなければ,...
+ ダウンロードしたzipファイルを /usr/local/ や /Applicati...
+ その中の scripts に RapidMinerGUI があるので
-- MAX_JAVA_MEMORY= をMBytes 単位で設定
+ RapidMinerGUI に実行権限を与えて,パス上の適当な場所へ...
さらに [[R]] との連携をする場合(Mac OS Xの場合)
- scripts/RapidMinerGUI の MAX_JAVA_MEMORY の定義の直後あ...
## for R_Extension
export R_HOME=/Library/Frameworks/R.framework/Resources
export JAVA_HOME=/Library/Java/Home
- CRAN版のRをインストールし,起動後にパッケージインストー...
- 起動後に指定するライブラリは次のパスを指定
/Library/Frameworks/R.framework/Resources/library/rJava/...
*** チュートリアルまとめ [#v0d06c59]
しましまがVersion 5.0 のチュートリアルを実行したときのメ...
最後にしましまと書いてある行は,特に個人的な視点で書いて...
他の部分も私の理解に基づくまとめです.
- 最初に実行したら,自分のファイルを置くディレクトリを聞...
- Helpメニューの RapidMiner Tutorial を選ぶとチュートリア...
''1. 決定木''
- 上の三角の実行ボタンを押すと,results workspace に変え...
- 結果が出てくるので,Tree タブで,Graph view を選ぶと決...
- viewメニューのperspective か上のバーのアイコンで design...
- Decision Tree が選ばれた状態で,右クリック
-- Reprace Operator > Modeling でいろいろな分類器を使える
-- データ集合がカテゴリ属性ばかりなので,SVM などを使うと...
''2. 前処理込みの相関ルール''
- Preprocessing は,多値変数を複数の2値変数で表す.
- 頻出パターンマイニングの FPGrowth で頻出パターンを見つ...
- 結果の相関ルールのカラムをクリックするとソートできる
''3. アンサンブル学習''
- 複数の学習器を組み合わせる学習
-- ここでは異なる種類の学習器の結果をまとめる Stacking ブ...
- Stacking をダブルクリックする,もしくは Stacking を選ん...
-- ここでは,決定木,最近隣法,線形回帰の結果を単純ベイズ...
''4. クラスタリングと次元削減''
- KMeans でクラスタリングして,SVDReduction で次元削減
- 結果の ExampleSet (SVDReduction) で,Plotter=Scatter, x...
''5. [[SVM]] の例''
- [[SVM]]を実行する
- 結果のKernel Model (JMySVMLearner) で,Plot View を選ぶ
- うまく分離できているかをみる
- Plotter=scatter か quantile, x-Axis=function values, y-...
- Plotter=density, x-Axis=attribute1, y-Axis=attribute2, ...
''6. 前処理:欠損値補完''
- Retrieve を選んで,右クリックで break after を選択して...
-- ブレークポイント時点での各クラスごとのデータが表示される
-- Meta Data View ではMissings は欠損値の数
-- Data View では,各データを閲覧可能.右上の View Filter...
- design workspace に戻って,view の expert mode を選ぶ
- Preprocessing (Replace Missing Values) で,attribute fi...
-- Preprocessing のパラメータ(右の方) でattribute filter ...
''7. 人工ノイズの追加''
- 人工ノイズをデータに加える前処理 (ニューラルネットの時...
-- 他にも,TFIDF,obfuscating, 時系列処理とかあるらしい
''8. データベースの join''
- 同じIDのデータを統合する DB の join の例
''9. 交差確認''
- 交差確認の各foldで訓練・テストを実行できる.実行のフロ...
- X-Val をダブルクリックする,もしくは X-Val を選んでから...
-- 左の訓練枠では SVM が適用されて,右ではテスト集合を分...
''10. ROC曲線''
- 実行すると交差確認の5回分のROC曲線がプロットされる
- 交差確認の中身は,左の訓練では SVM を適用
- 右は,ThresholdFinder で最良のしきい値を見つけ(ついで...
''11. コストを考慮した学習 (分類しきい値を調整する)''
- ThresholdFinder で,クラスのコストが非対称に設定されて...
-- チュートリアルには第1クラスの誤分類が,第2クラスの5倍...
- TestModelApplier が ThresholdFinder の前にあって,ここ...
''12. コストを考慮した学習 (誤分類コストの重み付き学習)''
- X-Validation をダブルクリックすると,学習器はMetaCostに...
- MetaCost は,各クラスを誤分類したときの誤差行列を設定し...
-- MetaCostをダブルクリックすると,決定木を中で使っている...
''13. 主成分分析''
- Normalization は平均引いて,標準偏差で割る
- あとはPCAをする
- Example Set (Principal Components) で,Plot Viewにして...
''14. forward stepwise selection による特徴選択''
- 追加すると最も予測精度が上がる特徴から順番に追加してい...
- XValidation で予測精度を測る.中身の学習器は最近隣法
- ProcessLog は途中の誤差の保存
- 選択された特徴は,結果の AttributeWeights で分かる
- 誤差の変化は ProcessLog に,generation と performance ...
''15. 遺伝アルゴリズムによる特徴選択''
- 遺伝アルゴリズムで特徴選択
- 予測精度だけでなく,特徴数の少なさも考慮
''16. モデル選択''
- 最初の層では,データにランダムな特徴量を足している.ラ...
- 前処理での過学習を防ぐため,WrapperXValidation は,変換...
-- 第1段階は通常の FeatureSelection,第2段階はSVM,第3段...
-- FeatureSelection の中身は交差確認での評価 FSXValidation
-- さらにその中身は,SVMの学習と,モデルの評価
--- 最後のFSMinMaxWrapper は,平均と最小値の線形結合で評...
''17. 特徴選択と特徴生成''
- 特徴を組み合わせて新たな特徴を作る
- YAGGA (Yet Another Generating Genetic Algorithm) は遺伝...
- YAGGAのパラメータを変えると性能がどうかわるか?
-- (apply_best_parameter というパラメータがYAGGA のexper...
''18. 他のプロセスからの情報の導入''
- 前の17で構築した特徴や,特徴の重みを AttributeConstruct...
-- これらの構築した特徴や特徴の重みは AttributeConstructi...
''19. 数値特徴からの特徴構築''
- keep_all は,元の特徴も出力に含めるかどうかを決める
- Generation の中にある function description の式に従って...
''20. 特徴の重み付け''
- 遺伝的アルゴリズムで特徴を重み付け
- 最近隣法をラップした交差確認じゃない性能評価を目的関数...
- 実行中に一時停止してResultビューに切り替えてlogで途中経...
-- 一時停止ではなく,停止をやらないで,新たなプロセスを実...
''21. χ2乗検定による特徴の重み付け''
- 実行して ExampleSet の Plot Viewを選ぶ.
parallel, survey, RadViz, GridViz, histogram matrix, quar...
-(重みが黄色いマークで表示される説明にはあるが,見つから...
''22. パラメータ設定''
- C と dgeree のパラメータをいろいろ変えながら [[SVM]] を...
- Results の Log でplotter=Surface 3D, x-Axis=C, y-Axis=d...
''23. 前処理の最適化''
- 前処理をするかどうかをOperatorEnabler で決定し,した結...
''24. 分類を最適化するしきい値の探索''
- GridParameterOptimization 中の Selection の weight パラ...
''25. 性能評価指標の検定''
- 性能指標の平均と標準偏差の有意性を検定
- [[SVM]]と線形回帰について,交差確認で性能指標のベクトル...
- 対応のあるt検定とANOVAのいずれでも,SVMの性能が有意に良...
''26. 複雑な前処理''
- トップレベルの三つの処理
-- 一つ目は特定のフォーマットを作り出す定型処理
-- 二つ目のValueIteratorはforeach のようなもので,指定し...
--- その属性値を持つ値を抽出するのに,ExampleFilter の中...
--- DataMacroDefinition で定義したマクロ current_average ...
** 関連項目 [#m32b5db9]
//英語や同義語のあとに,#brで区切って関連する項目をリスト...
-[[Weka]]
-[[Freeware]]
#br
-[[検索:RapidMiner]]
** リンク集 [#c9fab4a9]
//関連するWWW資源があればリンクしてください.
-[[Rapid-I>http://rapid-i.com/]]:開発・配布
--[[KSKソリューションズ>http://www.rapid-i-partner.jp/]]...
-[[RapidMiner @ sourceforge.net>http://sourceforge.jp/pro...
-[[Vancouver Data Blog by Neil McGuigan>http://vancouverd...
** 関連文献 [#y914eec8]
//この%項目%に関連する書籍や論文を紹介してください.
-基本文献:RapidMiner の前身 Yale の文献~
I.Mierswa et. al. "YALE: Rapid prototyping for complex da...
[[GoogleScholarAll:YALE: Rapid prototyping for complex da...
ページ名: