- 追加された行はこの色です。
- 削除された行はこの色です。
- 自然言語処理 へ行く。
* 自然言語処理 (natural language procesing) [#wba715c9]
人間が読み書きや話しに使う言語で書かれた文書や,文書の集まり(コーパス)をコンピュータで処理すること.
コーパス中の語の頻度に基づく統計的自然言語処理や,テキスト中から再利用可能な知識を見つけるテキストデータを対象としたデータマイニングであるテキストマイニングは機械学習と関連が深い.
> -- しましま
**関連項目 [#y6736418]
//英語や同義語のあとに,#brで区切って関連する項目をリストしてください.
-[[natural language procesing]]
#br
-[[機械学習]]
-[[テキストマイニング]]
-[[情報検索]]
#br
-[[検索:自然言語処理 NLP]]
**リンク集 [#gc20f33a]
//関連するWWW資源があればリンクしてください.
-[[言語情報処理ポータル>http://nlp.kuee.kyoto-u.ac.jp/NLP_Portal/]]
-[[Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources>http://www-nlp.stanford.edu/links/statnlp.html]]
-[[Natural Language Processing>http://www.aaai.org/aitopics/html/natlang.html]] @ AAAI AI topics
-[[Related links>http://amontejo.home.cern.ch/amontejo/Sections/Research/Links/]] @ Arturo Montejo Ráez
-[[nlp.nagaokaut.ac.jp:自然言語処理]] @ 長岡技科大自然言語処理研
-[[雑談@くどう:FrontPage]]:自然言語処理のツールや書籍の紹介などがまとめられている.
-[[ACLWiki>http://aclweb.org/aclwiki/]]
-[[ACL Anthology>http://www.aclweb.org/anthology-index/]]:計算機言語学関連の論文のデジタルアーカイブ
--[[ACL Anthology Network>http://belobog.si.umich.edu/clair/anthology/index.cgi]]:文献間や研究者間のネットワークについての統計
#br
-[[Wikipedia:Natural_language_processing]]
-[[Wikipedia.jp:自然言語処理]]
*** Freeware [#be4cd6f3]
-[[mloss:natural-language-processing]]
-[[AI Related Ruby Extensions>http://web.media.mit.edu/~dustin/rubyai.html]]:自然言語処理や機械学習などのruby用コード
-[[BOW>http://www.cs.umass.edu/~mccallum/bow/]]:TF-IDFの計算などの基本的な処理
-[[C&C tools>http://svn.ask.it.usyd.edu.au/trac/candc/wiki]]:パーサー,タガー
-[[茶筌>http://chasen.naist.jp/hiki/ChaSen/]]:形態素解析
-[[fnTBL>http://www.cs.jhu.edu/~rflorian/fntbl/index.html]]:名詞のチャンキングや曖昧性解消
-[[FreeLing>http://garraf.epsevg.upc.es/freeling/]]:トークン化から固有表現抽出とかまでいろいろな自然言語処理
-[[GATE - General Architecture for Text Engineering>http://gate.ac.uk/]]:自然言語処理の統合アーキテクチャー,UIMAと統合中
-[[KH Coder>http://khc.sourceforge.net/]]:日本語テキストの定量解析 (Perl)
-[[LingPipe>http://alias-i.com/lingpipe/]]:固有表現抽出,名詞のcoreferenceなどのライブラリ
-[[Lucene>http://lucene.apache.org/java/docs/]]:Apacheプロジェクトの検索エンジン
--[[Carrot2>http://project.carrot2.org/]]:検索結果のクラスタリング
-[[Mallet>http://mallet.cs.umass.edu/index.php/Main_Page]]:自然言語処理,最適化,条件付確率場,クラス分類,クラスタリング (java)
-[[MeCab>http://mecab.sourceforge.jp/]]:形態素解析
--[[RMeCab>http://cms.ias.tokushima-u.ac.jp/index.php?RMeCab]]:MeCabを[[R]]から呼び出す
-[[Minorthird>http://minorthird.sourceforge.net/]]:アノテーション,クラス分類
-[[MLTL (機械学習テンプレートライブラリ)>http://mltl.sourceforge.jp/]]:自然言語処理用のデータ構造を扱うテンプレート (C++)
-[[中川研究室で開発したソフト・言語資源>http://www.r.dl.itc.u-tokyo.ac.jp/?q=node/10]]
-[[Natural Language Software Registry>http://registry.dfki.de/]]
-[[Natural Language Toolkit>http://nltk.org/]]:自然言語処理をpythonで ([[ドキュメント>http://nltk.sourceforge.net/index.php/Book]])
-[[OpenNLP>http://opennlp.sourceforge.net/]]:オープンソースの自然言語処理ソフト開発の相互交流を図る.いろいろなプロジェクトがある.
-[[Porter Stemming Algorithm>http://www.tartarus.org/~martin/PorterStemmer/]]:英単語の正規化手法
-[[Natural Language Processing @ CRAN Task View>http://cran.r-project.org/web/views/NaturalLanguageProcessing.html]]:統計処理ソフト [[R]] の関連パッケージまとめ
-[[Rainbow>http://www.cs.cmu.edu/~mccallum/bow/rainbow/]]:テキスト分類
-[[Senna>http://ml.nec-labs.com/senna/]]:品詞タグ付け,固有表現抽出など
-[[SVMTool>http://www.lsi.upc.es/~nlp/SVMTool/]]:SVMを使った英語やスペイン語のタガー (C++, perl)
-[[Standord Core NLP>http://nlp.stanford.edu/software/corenlp.shtml]]:品詞タグ付け,固有表現抽出,名詞の同一指示分析
-[[Stanford Entity Resolution Framework (SERF)>http://infolab.stanford.edu/serf/]]:同じ実体を見つける entity resolution 問題 (java)
-[[辻井研ソフトウェア>http://www-tsujii.is.s.u-tokyo.ac.jp/software-j.html]]:最大エントロピー法, タガー, パーサなど
-[[Stanford Parser>http://nlp.stanford.edu/software/lex-parser.shtml]]:確率的文脈自由文法によるパーサ
-[[Text algorithms for Ruby - RDoc Documentation>http://text.rubyforge.org/]]:stemmingやLevensten距離などのごく基礎的なテキスト処理 (ruby)
-[[TextGarden>http://kt.ijs.si/Dunja/textgarden/]]:テキストマイニング.小さなフィルタリングプログラムの集まり.
-[[uClassify>http://www.uclassify.com/]]:テキスト分類 WebAPI
-[[UIMA - Unstructured Information Management Architecture>http://www.research.ibm.com/UIMA/]]:自然言語処理統合環境
-- [[U-Compare>http://u-compare.org/japanese.html]]:UIMA準拠コンポーネントの相互接続のためのプロジェクト
-- [[竹内 広宜 他 ”UIMA(非構造情報処理アーキテクチャー)” 人工知能学会誌, vol.22, no.6 (2007)>http://www.ai-gakkai.or.jp/jsai/journal/toolbox/06/#FOURTH]]
-- [[cleartk>http://code.google.com/p/cleartk/]]:UIMA用のフレームワーク
-[[Wikipedia Clustering>http://wikipedia-clustering.speedblue.org/]]:Wikipediaページのクラスタリング.自然言語処理ライブラリも.(C++)
**関連文献 [#g63058cb]
//この%項目%に関連する書籍や論文を紹介してください.
- 基本の教科書~
[[Book/Foundations of Statistical Natural Language Processing]]
- 全文がWebで公開されているチュートリアル~
[[C. J. van RIJSBERGEN, Information Retrieval>http://www.dcs.gla.ac.uk/Keith/Preface.html]]
- [[Daniel Jurafsky and James H. Martin "Speech and Language Processing" Prentice-Hall>http://www.cs.colorado.edu/~martin/slp.html]]~
[[第2版のドラフト公開中>http://www.cs.colorado.edu/~martin/slp2.html]]
- 日本語の教科書
--[[Book/確率的言語モデル]]
--[[Book/情報検索と言語処理]]
--[[Book/言語と心理の統計 (統計科学のフロンティア10)]] 第2部 確率モデルによる自然言語処理 @ 永田昌明
-[[Book/人工知能学事典]] 7章