2 ELM的基本概念和理论 在本文中,ELM将扩展为MLP。为了便于理解所采用的算法,本章简要回顾ELM的相关概念/理论,包括原始ELM和基于ELM的自动编码器的基
2 ELM的基本概念和理论
在本文中,ELM将扩展为MLP。为了便于理解所采用的算法,本章简要回顾ELM的相关概念/理论,包括原始ELM和基于ELM的自动编码器的基本思想和能力。
2.1 ELM理论
假设具有L个隐藏节点的SLFN可以由以下公式表示: 其中Gi(·)表示第i个隐藏节点激活函数,ai是连接输入层与第i个隐藏层的输入权重向量,bi是第i个隐藏层的偏置权重,βi是输出权重。对于具有激活函数g的附加节点,Gi定义如下:
并且对于具有激活函数g的径向基函数(RBF)节点,Gi被定义为
SLFN能够在具有上述随机初始化的自适应或RBF节点的任何紧凑子集X∈Rd上近似任何连续目标函数。令L2(X)是在d维欧几里得空间Rd中的紧凑子集X上的函数f的空间, | f |2 是可积分的,即 。对于u,v∈L2(X),内积u,v由下式定义
L2(X)空间中的范数表示为||·||,网络函数fn和目标函数f之间的接近度由L2(X)距离
定理2.1:给定任何有界非不变分段连续函数g:R→R,如果span {G(a,b,x):(a,b)∈Rd×R}基于任何连续采样分布随机生成的函数序列 (x)= G(aL,bL,x),如果输出权重βi由普通最小二乘确定以最小化,则概率为
上述定理[5],[16],[17]表明,当且仅当激活函数g是非恒定的分段和跨度时,输出由最小均方求解的随机生成的网络能够保持通用近似能力{G(a,b,x):(a,b)∈Rb×R}在L2中是密集的。基于该定理,可以建立用于快速学习的ELM,这将在下一部分中详细描述。
2.2 ELM学习算法
根据定理2.1,ELM可以用随机初始化的隐藏节点构建。给定训练集{(xi,ti)| xi∈Rd,ti∈Rm,i = 1,...,N},其中xi是训练数据向量,ti表示每个样本的目标,L表示隐藏节点数。
从学习的角度来看,不同于传统的学习算法(参见[7]中提到的相关工作),ELM理论旨在达到最小的训练误差,但也是输出权重的最小范数
最小化:
其中σ1> 0,σ2> 0,u,v = 0,(1/2),1,2,...,+∞,H是隐层输出矩阵T是训练数据目标矩阵
ELM训练算法可以总结如下。
1)随机地分配隐藏的节点参数,例如,用于加性隐藏节点的输入权重ai和偏置bi,i =
2)计算隐层输出矩阵H;
3)获取输出权重向量: β= H†T (9)
其中T = [t1,...,tN] T,H是矩阵H的摩尔 - 彭罗斯广义逆矩阵。
正交投影方法可以有效地用于MP倒数的计算:如果HTH是非奇异的,则H†=(HTH)-1HT; 或H† = HT(HTH)-1, 如果HHT是非奇异的。根据岭回归理论,在输出权重β的计算中,建议将正值(1 /λ)加到HTTH或HHT的对角线上。通过这样做,得到的解等价于具有σ1=σ2= u = v = 2的ELM优化解,其更稳定并且具有更好的泛化性能。也就是说,为了提高ELM的稳定性