整理

Q1、线性模型有哪几类任务？需要面对哪些问题？

回归任务，线性判别分析，多分类学习

类别不平衡问题

Q2、类别不平衡问题如何表现？

Q3、再缩放与代价敏感学习的关系

Q4、ECOC编码的设计方法？

Q5、线性回归任务的求解方法？

1、最小二乘法背景知识：

对于线性方程组Ax=b ，称能使f(x)=||Ax-b||_2 达到极小的\hat x 为方程组的最小二乘解

任意线性方程组的最小二乘解总是存在的

任意\eta 是线性方程组Ax=b 的最小二乘解当且仅当\eta 是线性方程组A^TAx=A^Tb 的解

必要性证明：

令f(x)=||Ax-b||_2^2=\sum_{i=1}^m(\sum_{j=1}^na_{ij}x_j-b_i)^2 ，则\frac{\partial f}{\partial x_j^*}=0\Leftrightarrow 2\sum_{i=1}^m(\sum_{j=1}^na_{ij}x_j-b_i)a_{ij^*}=0\Leftrightarrow \sum_{j=1}^n(\sum_{i=1}^ma_{ij^*}a_{ij})x_{ij}=\sum_{i=1}^ma_{ij^*}b_i ，

联立j^*=1,2,...,n ，得到A^TAx=A^Tb

满秩分解：对于A_{m\times n} ，若rank(A)=r ，则可做分解A=FG ，其中F_{m\times r},G_{r\times n} 分别是列满秩矩阵和行满秩矩阵

直交分解（QU分解）：对于A_{m\times n} ，若rank(A)=r ，则可做分解A=FG ，其中F_{m\times r},G_{r\times n} 分别是列满秩的正交矩阵和行满秩矩阵

直交三角分解（QR分解）：对于A_{m\times n} ，rank(A)=n ，则可做分解A=FG ，其中F_{m\times n},G_{n\times n} 分别是列满秩的正交矩阵和满秩矩阵

奇异值分解：对于A_{m\times n} ，可做分解A=UDV^T ，其中U_{m\times m},V_{n\times n} 是正交矩阵，D=diag(\sigma_1,\sigma_2,...,\sigma_p),\sigma_1\ge\sigma_2\ge...\ge\sigma_p\ge0,p=\min(m,n)

三种分解给出了求出最小二乘解的一系列方法

由前三种分解可得到极小最小二乘解\hat x=G^T(GG^T)^{-1}(F^TF)^{-1}F^Tb

2、解法

目标是求得(\omega^T,b) 使均方误差最小化，(\omega^*,b^*)=\arg\min_{(\omega,b)}\sum_{i=1}^m(f(x_i)-y_i)^2=\arg\min_{(\omega,b)}\sum_{i=1}^m(\omega^Tx_i+b-y_i)^2

其中f(x)=\omega^Tx+b,\hat \omega=(\omega^T,b)^T,\hat x=(x^T,1)^T ，则f(x)=\hat\omega^T\hat x

令E(\hat\omega)=\sum_{i=1}^m(f(x_i)-y_i)^2=\sum_{i=1}^m(\sum_{j=1}^{n+1}\hat\omega_j\hat x_{ij}-y_i)^2 ，则由上知，令\frac{\partial E}{\partial\hat\omega_{j^*}}=0 ，并联立j^*=1,2,...,n+1

得到\hat X^T\hat X\hat\omega=\hat X^T Y

因此回归任务可归结为求最小二乘解，再归结为分解矩阵\hat X ，可做满秩分解，直交分解，直交三角分解和奇异值分解从而得到最小二乘解

Q6、线性判别分析的求解方法？

1、对于二分类任务

定义类间散度矩阵为S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T

类内散度矩阵为S_\omega=(\Sigma_0+\Sigma_1)=\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^T

则目标函数可变形为J=\frac{||\omega^T\mu_0-\omega^T\mu_1||_2^2}{\omega^T(\Sigma_0+\Sigma_1)\omega}=\frac{\omega^T(\mu_0-\mu_1)(\mu_0-\mu_1)^T\omega}{\omega^T(\Sigma_0+\Sigma_1)\omega}=\frac{\omega^TS_b\omega}{\omega^TS_\omega\omega}

由于目标函数大小与\omega 大小无关，只与其方向有关，所以原问题等价于约束优化问题\min -\omega^TS_b\omega,\omega^TS_\omega\omega=1

由拉格朗日乘子法，令L_\omega(\omega,\lambda)=0 ，即\frac{\partial(-\omega^TS_b\omega+\lambda(\omega^TS_\omega\omega-1))}{\partial\omega_i}=0,i=1,2,...,n

得到广义特征值问题S_b\omega=\lambda S_\omega\omega

2、对于多分类任务，希望将数据降维，得到降维矩阵W

令类内散度矩阵为S_W=\sum_{i=1}^NS_{W_i},S_{W_i}=\sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T

全局散度矩阵为S=\sum_{x\in X}(x-\mu)(x-\mu)^T

类间散度矩阵为S_b=S-S_W=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^T

其目标函数是\max J(W)=\frac{\det(W^TS_bW)}{\det(W^TS_WW)}or\frac{tr(W^TS_bW)}{tr(W^TS_WW)}

同样需要求解广义特征值问题S_bW=\lambda S_WW ，若需要降到d 维，则需要求前面最大的d 个特征值

Q7、多分类LDA降维限制？

考虑S_W^{-1}S_b ，由于S_b=\sum_{i=1}^ rank(S_b)=rank\{\mu_1-\mu,...,\mu_N-\mu\},\sum_{i=1}^Nm_i(\mu_i-\mu)=0 ，所以rank(S_b)\le N-1 ，于是d=rank(W)\le\min(S_W,S_b)\le rank(S_b)\le N-1