使用线性模型的分类器
本节内容对应原书第 4 章。
判别函数
使用线性模型处理 $K$ 分类任务时,一般为每一类特征设定一个判别函数。原书中关于为何要这样做有详细的论述过程,这里暂且省略。
判别函数具有如下形式:
$y_k = \boldsymbol{w}_k^\mathsf{T}\boldsymbol{x} + b_{k}$ ,其中 $k = 1, \cdots, K$ 。
将特征 $\boldsymbol{x}$ 输入各个判别函数后,取输出值最大的判别器对应类别作为特征 $\boldsymbol{x}$ 所属类别,即:
$K$ 分类判别器
$\forall\; k \ne j$ ,若有 $y_k > y_j$ ,则判定 $\boldsymbol{x} \in \mathcal{C}_k$ 。
判别函数的交汇处构成了决策超平面(decision hyper-plane),例如,判别器 $y_k$ 与 $y_j$ 相交得到的超平面方程为:
让 $j$ 取除 $k$ 外的所有值,有解的超平面方程就形成了一系列的决策平面,这些决策平面进而构成了第 $k$ 类特征的决策区域(decision region) $\mathcal{R}_k$ 。那么,这个决策区域的形状是怎样的呢?在二维平面下,我们很容易想象到,这样的决策实际上是一个锥形的放射状区域。推广到高维情形,应该是一个凸锥。为了证明这一点,我们任取 $\boldsymbol{x}_A, \boldsymbol{x}_B \in \mathcal{R}_k$ (conic combination) $\boldsymbol{x}_C = \lambda_1\; \boldsymbol{x}_A + \lambda_2\; \boldsymbol{x}_B$ ,其中 $\lambda \in \left[0,+\infty\right)$ ,只要 $\boldsymbol{x}_C$ 也在 $\boldsymbol{R}_k$ 中,则 $\mathcal{R}_k$ 就是凸锥。
据 $y_k\left(\boldsymbol{x}_C\right) \ge y_j\left(\boldsymbol{x}_C\right)$ ,由 @def-discriminants 我们知道, $\boldsymbol{x}_C \in \mathcal{R}_k$ 。所以, $\mathcal{R}_k$ 一定是一个凸锥。