ラベル付けされたデータ集合に加え,ラベルのないデータ集合もある ラベルあり・なし混在データ (labeled and unlabeled data) から学習することで,ラベルありデータだけで学習した場合より,より予測精度の高いクラス分類を実現するのが目標.
クラス分類問題以外の問題にも広がっているので,特に,半教師ありクラス分類 (semi-supervised classification) と呼ぶべきとの主張もある.
semi-supervised learning の訳語は 半教師あり学習 と 準教師あり学習 に分かれています.どちらの訳語がよいと思いますか?
文献1の第1章のイントロダクションによれば,1960年代からこのアイデアは存在するらしい. また,教師なしデータを用いて予測精度を向上させる半教師あり学習の手法では,データに次のいずれかの性質が仮定されている.
-- しましま