BatchNorm的本质该怎样进行理解？传统的浅层学习是什么意思？

当前位置: 首页 >> 科技 >

来源：创视网时间：2022-12-30 10:30:36

BatchNorm的本质思想

BN的基本思想其实相当直观：因为深层神经网络在做非线性变换前的激活输入值(就是那个x=WU+B，U是输入)随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说，意味着激活输入值WU+B是大的负值或正值)，所以这导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

THAT’S IT。其实一句话就是：对于每个隐层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。因为梯度一直都能保持比较大的状态，所以很明显对神经网络的参数调整效率比较高，就是变动大，就是说向损失函数最优值迈动的步子大，也就是说收敛地快。BN说到底就是这么个机制，方法很简单，道理很深刻。

从上面几个图应该看出来BN在干什么了吧?其实就是把隐层神经元激活输入x=WU+B从变化不拘一格的正态分布通过BN操作拉回到了均值为0，方差为1的正态分布，即原始正态分布中心左移或者右移到以0为均值，拉伸或者缩减形态形成以1为方差的图形。什么意思?就是说经过BN后，目前大部分Activation的值落入非线性函数的线性区内，其对应的导数远离导数饱和区，这样来加速训练收敛过程。

但是很明显，看到这里，稍微了解神经网络的读者一般会提出一个疑问：如果都通过BN，那么不就跟把非线性函数替换成线性函数效果相同了?这意味着什么?我们知道，如果是多层的线性函数变换其实这个深层是没有意义的，因为多层线性网络跟一层线性网络是等价的。这意味着网络的表达能力下降了，这也意味着深度的意义就没有了。所以BN为了保证非线性的获得，对变换后的满足均值为0方差为1的x又进行了scale加上shift操作(y=scale*x+shift)，每个神经元增加了两个参数scale和shift参数，这两个参数是通过训练学习到的，意思是通过scale和shift把这个值从标准正态分布左移或者右移一点并长胖一点或者变瘦一点，每个实例挪动的程度不一样，这样等价于非线性函数的值从正中心周围的线性区往非线性区动了动。

核心思想应该是想找到一个线性和非线性的较好平衡点，既能享受非线性的较强表达能力的好处，又避免太靠非线性区两头使得网络收敛速度太慢。当然，这是我的理解，论文作者并未明确这样说。但是很明显这里的scale和shift操作是会有争议的，因为按照论文作者论文里写的理想状态，就会又通过scale和shift操作把变换后的x调整回未变换的状态，那不是饶了一圈又绕回去原始的“Internal Covariate Shift”问题里去了吗，感觉论文作者并未能够清楚地解释scale和shift操作的理论原因。

区别于传统的浅层学习，深度学习的不同在于：

(1)强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点;

(2)明确了特征学习的重要性。也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据丰富的内在信息。

通过设计建立适量的神经元计算节点和多层运算层次结构，选择合适的输入层和输出层，通过网络的学习和调优，建立起从输入到输出的函数关系，虽然不能100%找到输入与输出的函数关系，但是可以尽可能的逼近现实的关联关系。使用训练成功的网络模型，就可以实现我们对复杂事务处理的自动化要求。

标签： BatchNorm 本质思想传统的浅层学习浅层学习

上一篇：“Internal Covariate Shift”问题该怎样解决？深度学习的学习样本是什么意思？

下一篇：最后一页

推荐新闻 +

猜您喜欢 +

客户端开发是网络工程的必要途径吗？客户端(Client)的定义是什么？

客户端开发：主要面向大型企业，如医疗、学校、OA、邮箱、投票、金融、考试、物流、矿山等信息方面的系统。这些应用在我们生活中其实随处可

2022-12-30
接口中的请求参数和返回参数是什么意思？映射请求的定义是什么？

首先接口分为四部分：方法、uri、请求参数、返回参数1、方法:新增(post) 修改(put) 删除(delete) 获取(get)2、uri：以 a开头，如果需要

2022-12-30
avaScript中创建数组都有什么样的路径方法？数学概念字符数组是什么？

avaScript中创建数组有两种方式(一)使用 Array 构造函数：var arr1 = new Array(); 创建一个空数组var arr2 = new Array(20);

2022-12-30
分片网络攻击的工作原理是什么？开放系统互联在网络工程中如何理解？

分片炸弹我们知道数据包从一个路由器沿路径(源计算机到目的计算机的路径)到下一个路由器时，网关路由器可能需要在它们进行传递到下一个网络

2022-12-30
ICMP路由重定向炸弹是什么？网络攻击中的窃听手段是什么？

ICMP路由重定向炸弹我们知道ICMP的消息类型中的类型5是告知目标系统改变内存中的路由表以获得更短的路由，以通知主机有更多的路径可用。重

2022-12-30
ping泛洪这个概念该怎样理解？网络中的主动攻击是什么情况？

ping泛洪攻击者通过ping发送的ICMP的echo请求消息也是常见的DoS攻击方式之一，其原理是强制让系统消耗大多数时间进行无用的应答，降低系统

2022-12-30
拒绝服务攻击是什么意思？所谓的网络攻击都是攻击什么？

拒绝服务攻击拒绝服务攻击DoS(Denial of Service)：使系统过于忙碌而不能执行有用的业务并且占尽关键系统资源。它是基于这样的思想：用数

2022-12-30
GNN与CNN、RNN都是什么意思有什么区别联系？循环神经网络是什么意思？

GNN与CNN、RNN的区别那都是提取特征的神经网络，那为什么要利用图模型来提取呢?CNN的卷积和RNN的递归方式不行吗?答案还真不行，或者说十分

2022-12-30
awk命令形式是什么意思？关于文本处理工具awk的简介是什么？

awk命令形式:awk [-F|-f|-v] ‘BEGIN{} {command1; command2} END{}’ file[-F|-f|-v] 大参数，-F指定分隔符，-f调用脚

2022-12-30
图神经网络是什么意思？人工神经网络就是网络连接模型吗？

GNNGNN全称----图神经网络，它是一种直接作用于图结构上的神经网络。我们可以把图中的每一个节点 V VV 当作个体对象，而每一条边 E EE

2022-12-30

X 关闭

业界

广州市楼宇数智化应急救援体系建设启动

X 关闭