30分钟讲清楚深度神经网络

如题所述

举报该问题

其他回答

第1个回答 2022-07-18

这两年神经网络各种火。但对很多人而言，只是听着觉得各种高大上，究其本质，还是听不懂。下面我们花三十分钟把这个事情讲清楚。

神经网络算法是最早来源于某神经生理学家和某数学家联合发表的一篇论文，他们对人类神经运行规律的提出了一个猜想，并尝试给出一个建模来模拟人类神经元的运行规律。

神经网络一开始由于求解问题的不稳定，以及范围有限被抛弃。后面又在各个大神的努力下，对遇到的问题一个个解决，加上因为游戏带来的计算能力的提升获得了一个爆发式的增长。

下面我们讲讲神经网络是啥以及遇到的问题和探索出来的解决方案，最终我们给出一个深度神经网络的默认的最优配置项。

建立M个隐藏层，按顺序建立输入层跟隐藏层的联结，最后建立隐藏层跟输出层的联结。为每个隐藏层的每个节点选择激活函数。求解每个联结的权重和每个节点自带的bias值。参见下图。

所谓激活函数就是对各个路径的输入求和之后进一步增强的函数 。
典型的有如下几个：

下面这个图里面，是已知的各个联结线的权值，求y1, y2

这个练习可以测试对神经网络的理解。

所谓神经网络问题的训练本质，就是已知 y1,y2....yn，已知x1, x2....xm，求解每个连接的权值和每个神经元上的偏差值。对单层的激活函数为RELU的神经网络而言就是， y = max(sum(w * x)+b, 0)，已知y和x，求解w和b。

对于以上求解w和b的值，科学家们发现可以通过反向传播和梯度下降相结合来求解。就是一开始用随机数初始化我们每个联结的权值，然后通过神经网络计算出来的y值跟真实的y值做比对。如果这个值相差比较大，则修改当前层的联结的权重。当发现这个值相差不大时，则修改更低一层的权重。这个步骤一直重复，逐步传递到第一层的权值。

三大问题：

针对这三个问题，大拿们开始了一场探索之旅。

神经网络的求解是通过反向传播的技术来解决的。通过梯度下降法。问题是，反向传播从输出层开始一步一步传到Layer 1时，越到低层，联结的权值变化越小，直到没变化。这种叫梯度消失。还有一些呢？则是越到第一层，变化越来越大。这种叫梯度爆炸。常见于RNN。

解决方案探索如下：

目前来说，通常用1+2 多于 3 多于 4。就是现在一般使用He initialization跟ReLU的演进版本作为作为激活函数来解决梯度消失和爆炸的问题，其次才使用Batch Normalization，最后使用Gradient Clipping。

通常来说，我们很难获得足够的标记好的训练数据。常用解决方案如下：

对于大规模数据的训练，很多时候速度很慢。除了解决梯度消失或爆炸的问题之外，还有使用AdamOptimizer替代GradientDescentOptimizer会大大加快收敛速度 。

我们后面会教大家用tensorflow构造出一个神经网络并求解。

相似回答

深度神经网络是什么意思?答：深度神经网络是机器学习(ML, Machine Learning)领域中一种技术。在监督学习中，以前的多层神经网络的问题是容易陷入局部极值点。如果训练样本足够充分覆盖未来的样本，那么学到的多层权重可以很好的用来预测新的测试样本。但是很多任务难以得到足够多的标记样本，在这种情况下，简单的模型，比如线性回归或者决策...

深度神经网络和基本神经网络区别答：网络结构复杂度不同、学习能力和表达能力不同。深度神经网络是一种具有多个隐藏层的神经网络结构，其层数较多，参数较多，网络结构复杂度较高。而基本神经网络通常指的是只有一个或少数几个隐藏层的神经网络，相对来说结构较简单。深度神经网络具有更强的学习能力和表达能力，可以通过层层抽象和逐级处理，从...

一文搞懂深度学习:神经网络基础答：首先，我们来定义神经网络：人工神经网络，或称模拟神经网络，是机器学习领域的重要组成部分，尤其在深度学习中扮演基石角色。它的设计灵感源自人脑神经元的工作方式，通过连接的节点或人工神经元组成网络，学习数据中的模式，广泛应用于图像分类、推荐系统等领域。深度学习则是训练多层神经网络，特别是那些包含...

大家正在搜

人工神经网络和深度神经网络什么是深度神经网络深度神经网络的应用 dnn深度神经网络深度神经网络技术深度神经网络原理深度神经网络是谁开发的谁开发了一个深度神经网络深度神经网络算法