自然言語処理の変更点

追加された行はこの色です。
削除された行はこの色です。
自然言語処理へ行く。
* 自然言語処理 (natural language procesing) [#wba715c9]

人間が読み書きや話しに使う言語で書かれた文書や，文書の集まり(コーパス)をコンピュータで処理すること．
コーパス中の語の頻度に基づく統計的自然言語処理や，テキスト中から再利用可能な知識を見つけるテキストデータを対象としたデータマイニングであるテキストマイニングは機械学習と関連が深い．

> -- しましま

**関連項目 [#y6736418]

//英語や同義語のあとに，#brで区切って関連する項目をリストしてください．

-[[natural language procesing]]
#br
-[[機械学習]]
-[[テキストマイニング]]
-[[情報検索]]
#br
-[[検索:自然言語処理 NLP]]

**リンク集 [#gc20f33a]

//関連するWWW資源があればリンクしてください．

-[[言語情報処理ポータル>http://nlp.kuee.kyoto-u.ac.jp/NLP_Portal/]]
-[[Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources>http://www-nlp.stanford.edu/links/statnlp.html]]
-[[Natural Language Processing>http://www.aaai.org/aitopics/html/natlang.html]] @ AAAI AI topics
-[[Related links>http://amontejo.home.cern.ch/amontejo/Sections/Research/Links/]] @ Arturo Montejo Ráez
-[[nlp.nagaokaut.ac.jp:自然言語処理]] @ 長岡技科大自然言語処理研
-[[雑談@くどう:FrontPage]]：自然言語処理のツールや書籍の紹介などがまとめられている． 
-[[ACLWiki>http://aclweb.org/aclwiki/]]
-[[ACL Anthology>http://www.aclweb.org/anthology-index/]]：計算機言語学関連の論文のデジタルアーカイブ
--[[ACL Anthology Network>http://belobog.si.umich.edu/clair/anthology/index.cgi]]：文献間や研究者間のネットワークについての統計
#br
-[[Wikipedia:Natural_language_processing]]
-[[Wikipedia.jp:自然言語処理]]

*** Freeware [#be4cd6f3]

-[[mloss:natural-language-processing]]
-[[AI Related Ruby Extensions>http://web.media.mit.edu/~dustin/rubyai.html]]：自然言語処理や機械学習などのruby用コード
-[[BOW>http://www.cs.umass.edu/~mccallum/bow/]]：TF-IDFの計算などの基本的な処理
-[[C&C tools>http://svn.ask.it.usyd.edu.au/trac/candc/wiki]]：パーサー，タガー
-[[茶筌>http://chasen.naist.jp/hiki/ChaSen/]]：形態素解析
-[[fnTBL>http://www.cs.jhu.edu/~rflorian/fntbl/index.html]]：名詞のチャンキングや曖昧性解消
-[[FreeLing>http://garraf.epsevg.upc.es/freeling/]]：トークン化から固有表現抽出とかまでいろいろな自然言語処理
-[[GATE - General Architecture for Text Engineering>http://gate.ac.uk/]]：自然言語処理の統合アーキテクチャー，UIMAと統合中
-[[KH Coder>http://khc.sourceforge.net/]]：日本語テキストの定量解析 (Perl)
-[[LingPipe>http://alias-i.com/lingpipe/]]：固有表現抽出，名詞のcoreferenceなどのライブラリ
-[[Lucene>http://lucene.apache.org/java/docs/]]：Apacheプロジェクトの検索エンジン
--[[Carrot2>http://project.carrot2.org/]]：検索結果のクラスタリング
-[[Mallet>http://mallet.cs.umass.edu/index.php/Main_Page]]：自然言語処理，最適化，条件付確率場，クラス分類，クラスタリング (java)
-[[MeCab>http://mecab.sourceforge.jp/]]：形態素解析
--[[RMeCab>http://cms.ias.tokushima-u.ac.jp/index.php?RMeCab]]：MeCabを[[R]]から呼び出す
-[[Minorthird>http://minorthird.sourceforge.net/]]：アノテーション，クラス分類
-[[MLTL (機械学習テンプレートライブラリ)>http://mltl.sourceforge.jp/]]：自然言語処理用のデータ構造を扱うテンプレート (C++)
-[[中川研究室で開発したソフト・言語資源>http://www.r.dl.itc.u-tokyo.ac.jp/?q=node/10]]
-[[Natural Language Software Registry>http://registry.dfki.de/]]
-[[Natural Language Toolkit>http://nltk.org/]]：自然言語処理をpythonで ([[ドキュメント>http://nltk.sourceforge.net/index.php/Book]])
-[[OpenNLP>http://opennlp.sourceforge.net/]]：オープンソースの自然言語処理ソフト開発の相互交流を図る．いろいろなプロジェクトがある．
-[[Porter Stemming Algorithm>http://www.tartarus.org/~martin/PorterStemmer/]]：英単語の正規化手法
-[[Natural Language Processing @ CRAN Task View>http://cran.r-project.org/web/views/NaturalLanguageProcessing.html]]：統計処理ソフト [[R]] の関連パッケージまとめ
-[[Rainbow>http://www.cs.cmu.edu/~mccallum/bow/rainbow/]]：テキスト分類
-[[Senna>http://ml.nec-labs.com/senna/]]：品詞タグ付け，固有表現抽出など
-[[SVMTool>http://www.lsi.upc.es/~nlp/SVMTool/]]：SVMを使った英語やスペイン語のタガー (C++, perl)
-[[Standord Core NLP>http://nlp.stanford.edu/software/corenlp.shtml]]：品詞タグ付け，固有表現抽出，名詞の同一指示分析
-[[Stanford Entity Resolution Framework (SERF)>http://infolab.stanford.edu/serf/]]：同じ実体を見つける entity resolution 問題 (java)
-[[辻井研ソフトウェア>http://www-tsujii.is.s.u-tokyo.ac.jp/software-j.html]]：最大エントロピー法, タガー, パーサなど
-[[Stanford Parser>http://nlp.stanford.edu/software/lex-parser.shtml]]：確率的文脈自由文法によるパーサ
-[[Text algorithms for Ruby - RDoc Documentation>http://text.rubyforge.org/]]：stemmingやLevensten距離などのごく基礎的なテキスト処理 (ruby)
-[[TextGarden>http://kt.ijs.si/Dunja/textgarden/]]：テキストマイニング．小さなフィルタリングプログラムの集まり．
-[[uClassify>http://www.uclassify.com/]]：テキスト分類 WebAPI
-[[UIMA - Unstructured Information Management Architecture>http://www.research.ibm.com/UIMA/]]：自然言語処理統合環境
-- [[U-Compare>http://u-compare.org/japanese.html]]：UIMA準拠コンポーネントの相互接続のためのプロジェクト
-- [[竹内 広宜 他 ”UIMA（非構造情報処理アーキテクチャー）” 人工知能学会誌, vol.22, no.6 (2007)>http://www.ai-gakkai.or.jp/jsai/journal/toolbox/06/#FOURTH]]
-- [[cleartk>http://code.google.com/p/cleartk/]]：UIMA用のフレームワーク
-[[Wikipedia Clustering>http://wikipedia-clustering.speedblue.org/]]：Wikipediaページのクラスタリング．自然言語処理ライブラリも．(C++)

**関連文献 [#g63058cb]

//この%項目%に関連する書籍や論文を紹介してください．
- 基本の教科書~
[[Book/Foundations of Statistical Natural Language Processing]]
- 全文がWebで公開されているチュートリアル~
[[C. J. van RIJSBERGEN, Information Retrieval>http://www.dcs.gla.ac.uk/Keith/Preface.html]]
- [[Daniel Jurafsky and  James H. Martin "Speech and Language Processing" Prentice-Hall>http://www.cs.colorado.edu/~martin/slp.html]]~
[[第2版のドラフト公開中>http://www.cs.colorado.edu/~martin/slp2.html]]
- 日本語の教科書
--[[Book/確率的言語モデル]]
--[[Book/情報検索と言語処理]]
--[[Book/言語と心理の統計 (統計科学のフロンティア10)]] 第2部 確率モデルによる自然言語処理 @ 永田昌明
-[[Book/人工知能学事典]] 7章
自然言語処理 の変更点