- 有关神经网络的部分可以查看这里的
BP神经网络的部分:https://github.com/lawlite19/MachineLearning_Python
- 典型的深度学习模型就是很深层的神经网络,包含多个
隐含层,多隐层的神经网络很难直接使用BP算法进行直接训练,因为反向传播误差时往往会发散,很难收敛 CNN节省训练开销的方式是权共享weight sharing,让一组神经元使用相同的权值- 主要用于图像识别领域
-
卷积核(Convolution Kernel),也叫过滤器filter,由对应的权值W和偏置b体现 -
下图是
3x3的卷积核在5x5的图像上做卷积的过程,就是矩阵做点乘之后的和
第i个隐含单元的输入就是:,其中
就时与过滤器filter过滤到的图片
-
另外上图的步长
stride为1,就是每个filter每次移动的距离 -
卷积特征提取的原理
-
卷积特征提取利用了自然图像的统计平稳性,这一部分学习的特征也能用在另一部分上,所以对于这个图像上的所有位置,我们都能使用同样的学习特征。
-
当有多个
filter时,我们就可以学到多个特征,例如:轮廓、颜色等 -
多个过滤器
filter(卷积核) -
一张图片有
RGB三个颜色通道,则对应的filter过滤器也是三维的,图像经过每个filter做卷积运算后都会得到对应提取特征的图像,途中两个filter:W0和W1,输出的就是两个图像 -
这里的步长
stride为2(一般就取2,3) -
在原图上添加
zero-padding,它是超参数,主要用于控制输出的大小 -
同样也是做卷积操作,以下图的一步卷积操作为例:
与w0[:,:,0]卷积:0x(-1)+0x0+0x1+0x1+0x0+1x(-1)+1x0+1x(-1)+2x0=-2
与w0[:,:,1]卷积:2x1+1x(-1)+1x1=2
与w0[:,:,2]卷积:1x(-1)+1x(-1)=-2
最终结果:-2+2+(-2)+1=-1(1为偏置)
- 也叫做下采样
Pooling过程- 把提取之后的特征看做一个矩阵,并在这个矩阵上划分出几个不重合的区域,
- 然后在每个区域上计算该区域内特征的均值或最大值,然后用这些均值或最大值参与后续的训练
-下图是使用最大Pooling的方法之后的结果
Pooling的好处- 很明显就是减少参数
Pooling就有平移不变性((translation invariant) 如图feature map是12x12大小的图片,Pooling区域为6x6,所以池化后得到的feature map为2x2,假设白色像素值为1,灰色像素值为0,若采用max pooling之后,左上角窗口值为1
将图像右移一个像素,左上角窗口值仍然为1

将图像缩放之后,左上角窗口值仍然为1

Pooling的方法中average方法对背景保留更好,max对纹理提取更好- 深度学习可以进行多次卷积、池化操作
- 在每次卷积操作之后一般都会经过一个非线性层,也是激活层
- 现在一般选择是
ReLu,层次越深,相对于其他的函数效果较好,还有Sigmod,tanh函数等
sigmod和tanh都存在饱和的问题,如上图所示,当x轴上的值较大时,对应的梯度几乎为0,若是利用BP反向传播算法, 可能造成梯度消失的情况,也就学不到东西了
- 看到知乎上的一个回答还不错:https://www.zhihu.com/question/52668301
- 每个过滤器可以被看成是特征标识符
( feature identifiers) - 如下图一个曲线检测器对应的值

- 我们有一张图片,当过滤器移动到左上角时,进行卷积运算

- 当与我们的过滤器的形状很相似时,得到的值会很大

- 若是滑动到其他的部分,可以看出很不一样,对应的值就会很小,然后进行激活层的映射。

- 过滤器
filter的值怎么求到,就是我们通过BP训练得到的。
- 代码和说明放到了另外一个
Tensorflow学习的仓库里了 - 全部代码:https://github.com/lawlite19/MachineLearning_TensorFlow/blob/master/Mnist_03_CNN/mnist_cnn.py
- 说明部分(第七部分):https://github.com/lawlite19/MachineLearning_TensorFlow
- 参考论文:http://cogprints.org/5869/1/cnn_tutorial.pdf
- 或者在这里查看:https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/cnn_tutorial.pdf
- BP神经网络之前写过推导,可以查看这里的第三部分BP神经网络:https://github.com/lawlite19/MachineLearning_Python
- 我们假设CNN中每个卷积层下面都跟着一个Pooling池化层(下采样层)
- 文章的理解可能会有问题
l..................当前层..................输入maps的集合
- up()..................上采样函数
- ㅇ....................表示对应每个元素相乘
β....................下采样对应的“权重”(定义为常量)...................
中在卷积运算中逐个与
相乘的
patch- down()..................下采样函数
-
1)卷积层计算公式
-
可以对照到上面多个卷积核的例子看
-
j相当于是第几个卷积核 -
i相当于对应卷积核或是map的维度 -
2)卷积层梯度计算
-
paper中叫做使用BP计算当前层layer单元的灵敏度(sensitivity)
-
也就是误差的计算,之前我在BP神经网络中推导过,这里不再给出
-
当前层的第
j个unit的灵敏度结果就是:先对下一层的节点(连接到当前层
l的感兴趣节点的第l+1层的节点)的灵敏度求和(得到),然后乘以这些连接对应的权值(连接第
l层感兴趣节点和第l+1层节点的权值)W。再乘以当前层l的该神经元节点的输入u的激活函数f的导数值 -
下采样的“weights”可以定义为常量
β(可以查看下面Pooling层输出的表示) -
up表示上采样操作,因为我们之前假设每个卷积层之后跟着一个Pooling层,所以反向传播需要进行上采样 -
up上采样可以使用克罗内克积(Kronecker)实现,如果A是一个m x n的矩阵,而B是一个p x q的矩阵,克罗内克积则是一个mp x nq的矩阵,
-
所以偏置的梯度为:
(因为神经网络中对
b的梯度为:((δ就是误差,根据定义的代价函数E得来的),其中
u为layer的输入:)
-
所以卷积核权值的梯度为:
(其中:
为
中在卷积运算中逐个与
相乘的
patch,因为权重的系数就是对应的patch,对权重求导,就是这个系数)
-
1)子采样层计算公式
-
乘以一个常数权重
β,再加上偏置,然后再调用激活函数(这里和上面的pooling的操作有所不同,但总的来数还是下采样的过程) -
2)梯度计算
-
和上面的其实类似,就是换成下一层对应的权重
k,rot180()是旋转180度,因为卷积的时候是将卷积核旋转180度之后然后在点乘求和的 -
对偏置
b的梯度与上面的一样
- 参考论文:http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
- 或者查看[这里](https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/Understanding the difficulty of training deep feedforward neural networks.pdf),我放在github上了:https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/Understanding the difficulty of training deep feedforward neural networks.pdf
- 这是2010年的论文,当时只是讨论的
Sigmoid,tanh和Softsign激活函数,解决深层神经网络梯度消失的问题,并提出了一种初始化权重weights的方法,但是对于ReLu激活函数还是失效的,下一篇再讲。
- 论文先是指出了
Sigmoid激励函数是不适合作为深度学习的激励函数的,因为它的均值总是大于0的,导致后面隐含层hidden layer的神经元趋于饱和
- 构建了含有4个隐层的神经网络,激活函数为
Sigmoid,观察每一层的激活值的均值和标准差的岁训练次数的变化情况,layer1表示第一个隐含层,一次类推。 - 初始化权重
,即服从均匀分布
- 如下图所示,实线表示均值mean value,垂直的条表示标准差。
- 因为使用的均匀分布进行的初始化,所以前几层x的均值近似为0,所以对应
Sigmoid函数的值就是0.5 - 但是最后一层layer4的输出很快就饱和了(激活值趋于0),训练到大100的时候才慢慢恢复正常
- 作者给出当有5个隐含层的时候,最后一层始终处于饱和状态
- 标准差反应的是数值的波动,可以看出后面才有了标准差的值

- 直观解释
- 最后使用的是
softmax(b+Wh)作为预测,刚开始训练的时候不能够很好的预测y的值,因此误差梯度会迫使Wh趋于0,所以会使h的值趋于0 h就是上一层的激活输出,所以对应的激活值很快降为0tanh激活函数是关于原点对称的,趋于0是没有问题的,因为梯度能够反向传回去。




