超限学习机(ELM)-白红宇

超限学习机(ELM)

阅读量：4094 次

发布时间：2019-05-25

本文共 1441 字，大约阅读时间需要 4 分钟。

今年毕设做的就是和极限学习机有关的东西，当时老师让我看一篇表征转换机(ACM)的英文文章，我在文中看到了一句话说是表征转换机是基于极限学习机的，所以我后来的毕设论文就是直接用极限学习机来实现了。

一、表征转换机原理

赵晓辉等将表征转换机用于图像分割，取得了不错的效果，在本文中我们将表征转换机作为一种神经网络来实现分类。

对任一个被采集目标，令 $G_{\theta _{i}}\in R^{R\times C}$ 和 $G_{\theta _{j}}\in R^{R\times C}$ 为在 $\theta _{i}$ 和 $\theta _{j}$ 条件下得到的图像。

两幅图像是对该被采集目标的不同表征，我们定义转换机 $M_{\theta _{i},\theta _{j}}$ 。

在给定采集条件为 $\theta _{i}$ 的表征时，可相应获得采集条件为 $\theta _{j}$ 时的表征，即

$G_{\theta _{j}}=M_{\theta _{i},\theta _{j}}(G_\theta _{i})$ $(5.1)$

对同一目标在不同采集条件下获得的不同表征图像，在没有获得足够信息的情况下完美地获取另外一种采集条件下的表征图像是非常困难的。如果我们允许一定误差的存在则可近似获取另一采集条件的对应表征图像。可将式 $(5.1)$ 改写为：

$M_{\theta _{i},\theta _{j}}^{min}\left \| G_{\theta _{j}}-M_{\theta _{i},\theta _{j}}(G_{\theta _{i}}) \right \|_{F}^{2}$ $(5.2)$

式 $(5.2)$ 可以理解为估计映射函数 $y=f(x)$ ，其中 $x=G_{\theta _{i}}$ ， $y=G_{\theta _{j}}$ 和 $f(*)=M_{\theta _{i},\theta _{j}}(*)$ ，这是一个回归问题并可以使用极限学习机求解，这样得到的映射函数即为表征学习机。

$G_{\theta _{j}}$ 的像素点并不均与 $G_{\theta _{i}}$ 的某一个像素点 $G_{\theta _{i}}(r,c)$ 相关。因此，如果我们要通过表征图像 $G_{\theta _{i}}$ 获得 $G_{\theta _{j}}$ 时，只需要提供表征图像 $G_{\theta _{i}}$ 中与 $G_{\theta _{j}}$ 有关的像素点。更详细地说，对表征图像 $G_{\theta _{j}}$ 中的任意像素点，都可以在误差允许的情况下基于表征图像 $G_{\theta _{i}}$ 中与此像素点相关的一组像素点来求解。至此，ACM中的一个回归问题已经转化为 $M\times N$ 个回归问题。

$M_{\theta _{i},\theta _{j}}= $$ \left[ \begin{matrix} m_{\theta _{i},\theta _{j}}^{1,1} & \cdots & m_{\theta _{i},\theta _{j}}^{1,C} \\ \vdots & m_{\theta _{i},\theta _{j}}^{r,c} & \vdots \\ m_{\theta _{i},\theta _{j}}^{R,1} & \cdots & m_{\theta _{i},\theta _{j}}^{R,C} \end{matrix} \right] $$$ $(5.3)$

$m_{\theta_{i},\theta_{j}}^{r,c}=_{m_{\theta_{i},\theta_{j}}}^{min}[p_{\theta_{i}(r,c)-_{m_{\theta_{i},\theta_{j}}}^{r,c}}(q_{\theta_{i}}(r,c))]^{2}$ $(5.4)$

其中， $p_{\theta_{j}}(r,c)$ 为表征图像 $G_{\theta_{j}}(r,c)$ 中需要估计的目标像素点， $q_{\theta_{j}}(r,c)$ 为表征图像 $G_{\theta_{j}}(r,c)$ 中与 $p_{\theta_{j}}(r,c)$ 相关的一组像素。

二、表征转换机算法的设计

由前一节的介绍，我们知道，表征转换机是一种基于极限学习机（ELM,Extreme Learning Machine）的分类学习算法。ELM算法是根据最小二乘优化来训练网络的，我们可以通过样本来拟合出非线性函数 $f$ ： $x+x^2+\cdots+x^n$ 作为映射，而误差反向传播算法每次迭代需要更新，所花费的时间远远低于所容忍的时间。经过前面的网络实验我们知道训练一个单隐藏层反馈神经网络需要耗费许多时间。

超限学习机网络模型

ELM是一种新型的快速学习算法，它最早由黄广斌教授提出并对ELM进行了总结。如图所示，ELM可以随机初始化输入权值和阈值并得到相应的隐节点输出，从神经网络的结构来看，超限学习机是一个简单的单层前向神经网络，其包含三层：输入层、隐含层和输出层，隐含层有L个神经元，L远远小于N，输出层输出的向量为m维。

一个有L个隐含层节点的单隐含层神经网络，针对加法型隐含层节点：

$\sum_{i=1}^{L}\beta _{i}g(a_{i}\cdot x_{j}+b_{i})=f_L(x_j),j=1,2,3,...,N$ $(5.5)$

其中， $g(x)$ 为激活函数， $a_{i}=(a_{i1},a_{i2},...,a_{in})^{T}$ 是第i个隐层单元的输入权值， $\beta _{i}=(\beta _{i1},a\beta _{i2},...,\beta _{im})^{T}$ 是第i个隐层单元的偏置， $f_L(x_j)$ 是第i个隐层单元的输出权值。

为了让输出误差最小：

$\sum _{j=1}^{L}\left \| f(x_{j}-t_{j})) \right \|=0$ $(5.6)$

即 $\exists a_{i}\cdot x_{j}$ 和 $b_{i}$ 使：

$\sum _{i=1}^{L}\beta _{i}g(a_{i}\cdot x_{j}+b_{i})=t_{j}$ $(5.7)$

可以矩阵表示：

$H\cdot \beta =T$ $(5.8)$

隐层节点的输出为H，输出权值为 $\beta$ ，期望输出为T，那么：

$H(a_{1},...,a_{L},b_{1},...,b_{L},x_{1},...,x_{N})= $$ \left[ \begin{matrix} g(a_{1}\cdot x_{1}+b_{1}) & \cdots & g(a_{L}\cdot x_{1}+b_{L}) \\ \vdots & \cdots & \vdots \\ g(a_{1}\cdot x_{N}+b_{1}) & \cdots & g(a_{L}\cdot x_{N}+b_{1}) \end{matrix} \right]_{N \times L} $$$ $(5.9)$

其中， $\beta = $$ \left[ \begin{matrix} \beta _{1}^{T} \\ \vdots \\ \beta _{L}^{T} \end{matrix} \right]_{L \times m} $$$ ， $T = $$ \left[ \begin{matrix} t _{1}^{T} \\ \vdots \\ t _{N}^{T} \end{matrix} \right]_{N \times m} $$$