データ解析の基本は線形モデルである. 多くの場合解が陽に解ける上,モデルがシンプルなので汎化能力も高い. 解が陽に解けるためにはモデルが線形なだけではダメで,(誤差の)確率分布が正規分布であるなどの仮定も必要となる.
--あかほ
形式的には,入力 \(x_1,\ldots,x_k\) と実数の重み \(\theta_0,\theta_1,\ldots,\theta_k\) を用いて出力 \(y\) が次式で表されるのが線形モデル: \[y=\theta_0+\sum_{i=1}^k \theta_i x_i + \epsilon\] ただし,\(\epsilon\) は平均が0で,分散が\(\sigma^2\) の正規分布に従う誤差項.
ベクトル \(\mathbf{x}=[1,x_1,\ldots,x_k]^\top\) と \(\mathbf{\theta}=[\theta_0,\theta_1,\ldots,\theta_k]^\top\) を用いた次の表記も多用される: \[y=\mathbf{\theta}^\top \mathbf{x}+\epsilon\]
-- しましま