#author("2020-06-29T19:11:55+00:00","default:ibisforest","ibisforest")
* テスト用データ集合 [#z5461830]
アルゴリズムの比較検証に利用できるテスト用データについてまとめましょう.
>ID は ''ibis'' でパスワードは ''VC 次元の V のフルスペルです(頭だけ大文字)''

----
#contents

* 総合 [#s78aef36]

- [[UCI Machine Learning Repository>http://www.ics.uci.edu/~mlearn/MLRepository.html]]
-- [[UCI KDD Repository>http://kdd.ics.uci.edu/]]
- [[Awesome Public Datasets>https://github.com/caesar0301/awesome-public-datasets]] @ GitHub
- [[Google Dataset Search>https://toolbox.google.com/datasetsearch]]
- [[Amazon Web Services Hosted Public Data Sets>http://aws.amazon.com/publicdatasets/]]
- [[Microsoft Research Open Data>https://msropendata.com/]]
- [[Datasets for Data Mining @ kdnuggets>http://www.kdnuggets.com/datasets/]]
-- [[kdnuggetts のデータ集合のリンク集記事>http://www.kdnuggets.com/2011/02/free-public-datasets.html]]
- [[Pew Research Center>https://www.pewresearch.org/download-datasets/]] 社会調査データ
- [[mldata.org>http://mldata.org/]]
- [[StatLib --- Datasets Archive>http://lib.stat.cmu.edu/datasets/]]
- [[Quandl>http://www.quandl.com/]]:市場・社会データの検索
- [[CSV on the Web: Use Cases and Requirements>http://www.w3.org/TR/2014/WD-csvw-ucr-20140327/]]
- [[情報学研究データリポジトリ@国立情報学研究所>http://www.nii.ac.jp/cscenter/idr/]] 情報検索コンペのNTCIRや,国内ネット企業のデータ

** 関連情報 [#g47e5cc1]

- [[Where can I get large datasets open to the public?>http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public]] @ Quora
- [[Myriad Data Generator Toolkit>https://github.com/TU-Berlin-DIMA/myriad-toolkit/wiki]]:人工データの生成フレームワーク
- [[zenodo>https://zenodo.org/]]:CERN/EUが運営する研究用コード・データの共有レポジトリ
- [[OpenPsych>http://openpsych.net/]]:心理系のオープンデータなど
- [[国内の政府統計などオープンデータ&公開データのまとめ>https://matome.naver.jp/odai/2135883023685089601]]
- [[ACM KDDCup>https://www.kdd.org/kdd-cup]]

* 機械学習,データマイニング [#u3bf3606]

- [[TunedIT>http://tunedit.org/]]:分析コンペのサイト.arff で検索すると arff 形式のデータが得られる
- [[UCR Time Series Classification/Clustering>http://www.cs.ucr.edu/~eamonn/time_series_data/]]
- [[Internet Traffic Archive>http://ita.ee.lbl.gov/]]:Webのログファイル
- [[GroupLens>http://www.grouplens.org/taxonomy/term/14]]:協調フィルタリング
- [[Frequent Itemset Mining Dataset Repository>http://fimi.cs.helsinki.fi/data/]]:頻出パターン抽出問題のためのテストデータ
- [[Matrix Market>http://math.nist.gov/MatrixMarket/]]:行列形式のデータのポータル
- [[Market-Basket Synthetic Data Generator>http://synthdatagen.codeplex.com/]]

* 統計 [#ld9842fd]

- [[The Royal Statistical Society Datasets Website>http://www.blackwellpublishing.com/rss/]]
- [[UCLA Statistics Data Sets>http://www.stat.ucla.edu/data/]]
- [[CHANCE Data Sets>http://www.dartmouth.edu/~chance/teaching_aids/data.html]]
- [[Regression DataSets>http://www.liacc.up.pt/~ltorgo/Regression/DataSets.html]]
- [[Time Series Data Library>http://www-personal.buseco.monash.edu.au/~hyndman/TSDL/]]
- [[総務省統計局 匿名データの提供サービス>https://www.stat.go.jp/info/tokumei/index.html]]


* 自然言語処理 [#qb5ae2d2]

- [[The LDC (Linguistic Data Consortium) Corpus Catalog>http://www.ldc.upenn.edu/Catalog/]]
- [[TREC (Text Retrieval Conference)>http://trec.nist.gov/pubs.html]]
- [[Use of corpora in translation studies @ Lees大>http://corpus1.leeds.ac.uk/]]:多言語コーパス
- [[Web日本語Nグラム第1版>http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html]]
- [[日本語WordNet>http://nlpwww.nict.go.jp/wn-ja/index.ja.html]]
- [[CLUTO data set>http://glaros.dtc.umn.edu/gkhome/views/cluto]]:文書クラスタリングソフトのテスト用.downloadより
- [[David D. Lewis>http://www.daviddlewis.com/resources/testcollections/]]:Reuters-21758など
- [[Reuters Corpus>http://about.reuters.com/researchandstandards/corpus/index.asp]]:自然言語処理,最も有名なコーパス
- [[20 Newsgroups>http://people.csail.mit.edu/jrennie/20Newsgroups/]]
- [[Ohsumed>ftp://medir.ohsu.edu/pub/OHSUMED/]]:自然言語処理
- [[WebKB>http://www.cs.cmu.edu/afs/cs/project/theo-20/www/data/]]:自然言語処理
- [[LETOR: Benchmark Data Sets for Learning to Rank>http://research.microsoft.com/mslr]]:自然言語処理,3段階適合度評価
- [[code and data>http://www.cs.umass.edu/~mccallum/code-data.html]] @ Andrew MaCullum:SRAAデータ集合,Coraの論文関係のデータなど
- [[personalBib>http://www.it.iitb.ac.in/~sunita/data/]]:Citeseer 引用データ
- [[Multi-Label Classification>http://mlkd.csd.auth.gr/multilabel.html]]:マルチラベル文書分類

* 画像認識 [#qb5ae2d2]

- [[Database Overview>http://www.nue.tu-berlin.de/wer/goldmann/Research/Database.html]] @ ベルリン工科大
- [[Datasets for Computer Vision Research>http://www-cvr.ai.uiuc.edu/ponce_grp/data/]] @ イリノイ大
- [[Computer Vision Test Images>http://www.cs.cmu.edu/~cil/v-images.html]]:テスト画像データへのリンク集
- [[Real World Image Database>http://vision.kuee.kyoto-u.ac.jp/IUE/IMAGE_DATABASE/]]:キャリブレーション情報付の画像データ
- [[Caltech 101>http://www.vision.caltech.edu/Image_Datasets/Caltech101/Caltech101.html]]:一般画像認識のスタンダード
- [[The Berkeley Segmentation Dataset and Benchmark>http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/segbench/]]:領域分割を目的とした人物画像
- [[Large-Scale Concept Ontlogy for Multimedia (LSCOM)>http://www.lscom.org/]]
-一般画像認識・画像検索のコンペ
-- [[CLEF Cross Language Image Retrieval Track (ImageCREF)>http://ir.shef.ac.uk/imageclef/]]
-- [[The PASCAL Visual Object Classes>http://pascallin.ecs.soton.ac.uk/challenges/VOC/]]
-- [[TREC Video Retrieval Evaluation>http://www-nlpir.nist.gov/projects/trecvid/]]
- 顔画像認識
-- [[Face Recognition Database>http://cbcl.mit.edu/software-datasets/heisele/facerecognition-database.html]] @ MIT
-- [[Labeled Faces in the Wild>http://vis-www.cs.umass.edu/lfw/]]:正面以外も含む
-- [[database @ Face Recognition Homepage>http://www.face-rec.org/databases/]]

* ネットワーク [#pdc8f19e]

- [[Stanford Large Network Dataset Collection>http://snap.stanford.edu/data/index.html]]:ソーシャルネットなどのデータ
- [[Arizona State Univ. Network Data>http://socialcomputing.asu.edu/pages/datasets]]
- [[Koblenz Network Collection>http://konect.uni-koblenz.de/]]

* その他 [#ve4abe29]
- [[EMU Speech Database System>http://emu.sourceforge.net/]]:音声データにアクセスするソフト
- [[VoxForge>http://www.voxforge.org/]]:ヨーロッパ系言語の読み上げ音声データ
- [[Million Song Dataset>http://labrosa.ee.columbia.edu/millionsong/]] @ Columbia University,楽曲の波形情報とメタデータ
- [[EDGE Datasets>http://labs.edge.jp/datasets/]] Livedoor Clip のデータ (研究機関向け)
- [[Data for Evaluating Learning in Valid Experiments>http://www.cs.toronto.edu/~delve/]]:回帰分析
- [[Enron Email Dataset>http://www.cs.cmu.edu/~enron/]]
- [[ICDM2007 Data Mining Contest>http://www.cse.ust.hk/~qyang/ICDMDMC07/]]:電波強度データからの位置推定
- [[MNIST DATABASE of handwritten digits>http://yann.lecun.com/exdb/mnist/]]:手書き文字の分類
- [[Predictive Toxicology Challenge>http://www.predictive-toxicology.org/ptc/]]:化合物の毒性の予測
- [[SUSHI Preference Data Set>http://www.kamishima.net/sushi/]]:寿司の嗜好についての調査データ.順序変量や協調フィルタリング.
- [[単語感情極性対応表>http://www.lr.pi.titech.ac.jp/~takamura/pndic_ja.html]]
- [[similarity learning>http://www.andreas-maurer.eu/similarity.htm]] 文字に回転や拡大縮小変換をしたもののの類似性を学習
- [[視覚像再構成fMRIデータ>http://www.cns.atr.jp/dni/?page_id=109]]:fMRIのイメージと視覚刺激のデータ.fMRIの出力から見ているものを予測.
- [[楽天データ公開>http://rit.rakuten.co.jp/rdr/index.html]]:商品データ・利用者評価データ
- [[CAIDA Data>http://www.caida.org/data/]] @ The Cooperative Association for Internet Data Analysis
- [[EconData>http://inforumweb.umd.edu/econdata/econdata.html]]:経済時系列
- [[GeoDa>http://geodacenter.asu.edu/datalist/]]:地理空間データ
- [[DataSetRDFDumps>http://www.w3.org/wiki/DataSetRDFDumps]]:Linked Open Data へのリンク集
- [[OpenNEX>https://nex.nasa.gov/nex/static/htdocs/site/extra/opennex/]]:地球科学
- [[Peoject TYCHO>http://www.tycho.pitt.edu/]]:過去100年ぐらいの医療統計データ

* 書籍で使われていたデータ [#od97b4e3]

- [[Categorical Data Analysis>http://www.stat.ufl.edu/~aa/cda/cda.html]]
- [[The Elements of Statistical Learning>http://www-stat.stanford.edu/~tibs/ElemStatLearn/]]
- [[Pattern Recognition and Machine Learning>http://research.microsoft.com/~cmbishop/PRML/webdatasets/datasets.htm]]


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS