“Internal Covariate Shift”问题该怎样解决？深度学习的学习样本是什么意思？

当前位置: 首页 >> 科技 >

来源：创视网时间：2022-12-30 10:28:40

“Internal Covariate Shift”问题

从论文名字可以看出，BN是用来解决“Internal Covariate Shift”问题的，那么首先得理解什么是“Internal Covariate Shift”?

论文首先说明Mini-Batch SGD相对于One Example SGD的两个优势：梯度更新方向更准确;并行计算速度快;(为什么要说这些?因为BatchNorm是基于Mini-Batch SGD的，所以先夸下Mini-Batch SGD，当然也是大实话);然后吐槽下SGD训练的缺点：超参数调起来很麻烦。(作者隐含意思是用BN就能解决很多SGD的缺点)

接着引入covariate shift的概念：如果ML系统实例集合中的输入值X的分布老是变，这不符合IID假设，网络模型很难稳定的学规律，这不得引入迁移学习才能搞定吗，我们的ML系统还得去学习怎么迎合这种分布变化啊。对于深度学习这种包含很多隐层的网络结构，在训练过程中，因为各层参数不停在变化，所以每个隐层都会面临covariate shift的问题，也就是在训练过程中，隐层的输入分布老是变来变去，这就是所谓的“Internal Covariate Shift”，Internal指的是深层网络的隐层，是发生在网络内部的事情，而不是covariate shift问题只发生在输入层。

然后提出了BatchNorm的基本思想：能不能让每个隐层节点的激活输入分布固定下来呢?这样就避免了“Internal Covariate Shift”问题了，顺带解决反向传播中梯度消失问题。BN 其实就是在做 feature scaling，而且它的目的也是为了在训练的时候避免这种 Internal Covariate Shift 的问题，只是刚好也解决了 sigmoid 函数梯度消失的问题。

深度学习

深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

标签： “Internal Covariate Shift”问题深度学习深度学习问题学习样本

上一篇：出现了Ora-12514的原因是什么？关于服务器端的处理方法是什么？

下一篇：最后一页

推荐新闻 +

猜您喜欢 +

接口中的请求参数和返回参数是什么意思？映射请求的定义是什么？

首先接口分为四部分：方法、uri、请求参数、返回参数1、方法:新增(post) 修改(put) 删除(delete) 获取(get)2、uri：以 a开头，如果需要

2022-12-30
avaScript中创建数组都有什么样的路径方法？数学概念字符数组是什么？

avaScript中创建数组有两种方式(一)使用 Array 构造函数：var arr1 = new Array(); 创建一个空数组var arr2 = new Array(20);

2022-12-30
分片网络攻击的工作原理是什么？开放系统互联在网络工程中如何理解？

分片炸弹我们知道数据包从一个路由器沿路径(源计算机到目的计算机的路径)到下一个路由器时，网关路由器可能需要在它们进行传递到下一个网络

2022-12-30
ICMP路由重定向炸弹是什么？网络攻击中的窃听手段是什么？

ICMP路由重定向炸弹我们知道ICMP的消息类型中的类型5是告知目标系统改变内存中的路由表以获得更短的路由，以通知主机有更多的路径可用。重

2022-12-30
ping泛洪这个概念该怎样理解？网络中的主动攻击是什么情况？

ping泛洪攻击者通过ping发送的ICMP的echo请求消息也是常见的DoS攻击方式之一，其原理是强制让系统消耗大多数时间进行无用的应答，降低系统

2022-12-30
拒绝服务攻击是什么意思？所谓的网络攻击都是攻击什么？

拒绝服务攻击拒绝服务攻击DoS(Denial of Service)：使系统过于忙碌而不能执行有用的业务并且占尽关键系统资源。它是基于这样的思想：用数

2022-12-30
GNN与CNN、RNN都是什么意思有什么区别联系？循环神经网络是什么意思？

GNN与CNN、RNN的区别那都是提取特征的神经网络，那为什么要利用图模型来提取呢?CNN的卷积和RNN的递归方式不行吗?答案还真不行，或者说十分

2022-12-30
awk命令形式是什么意思？关于文本处理工具awk的简介是什么？

awk命令形式:awk [-F|-f|-v] ‘BEGIN{} {command1; command2} END{}’ file[-F|-f|-v] 大参数，-F指定分隔符，-f调用脚

2022-12-30
图神经网络是什么意思？人工神经网络就是网络连接模型吗？

GNNGNN全称----图神经网络，它是一种直接作用于图结构上的神经网络。我们可以把图中的每一个节点 V VV 当作个体对象，而每一条边 E EE

2022-12-30
虚拟机下载该怎样选择镜像版本？关于虚拟机技术你了解多少？

虚拟机下载官网：https: www vmware com cn htmlLinux镜像系统官网(Centos版本)：https: www centos org (很多朋友反应下载慢，我在下面

2022-12-30

X 关闭

业界

广州市楼宇数智化应急救援体系建设启动

X 关闭