Deep Learning Book

无监督学习算法

监督学习算法

随机梯度下降

随机梯度下降的核心是期望。所以可以用小规模的样本去估计梯度,这样就可以用minibatch的方式去计算梯度、更新模型。

构建机器学习算法

深度学习算法的配方:

  • 特定的数据集:
  • 代价函数:代价函数至少含有一项使学习过程进行统计估计的成分。代价函数也可能还有附加项,如正则化。
  • 优化过程:非线性模型要求选择一个迭代数据优化过程,如梯度下降。
  • 模型

促使深度学习发展

  • 维度灾难 参考
  • 局部不变性和平滑正则化
  • 流形学习

深度前馈网络

前馈网络克服了线形网络的局限,是一种高效的非线性函数近似。
现代前馈网络的思想仍然使用反向传播算法和梯度下降方法。主要的性能提升来自于

  1. 训练数据量的提升:减少了统计泛化对神经网络的挑战;
  2. 更大的网络结构:更强的算力和更好的深度学习框架基础使得神经网络能够变得更大;
  3. 少量算法的优化:包括交叉熵取代均方误差作为损失函数,使用RELU等分段线性函数作为激活函数。