无监督学习算法
监督学习算法
随机梯度下降
随机梯度下降的核心是期望。所以可以用小规模的样本去估计梯度,这样就可以用minibatch的方式去计算梯度、更新模型。
构建机器学习算法
深度学习算法的配方:
- 特定的数据集:
- 代价函数:代价函数至少含有一项使学习过程进行统计估计的成分。代价函数也可能还有附加项,如正则化。
- 优化过程:非线性模型要求选择一个迭代数据优化过程,如梯度下降。
- 模型
促使深度学习发展
- 维度灾难 参考
- 局部不变性和平滑正则化
- 流形学习
深度前馈网络
前馈网络克服了线形网络的局限,是一种高效的非线性函数近似。
现代前馈网络的思想仍然使用反向传播算法和梯度下降方法。主要的性能提升来自于
- 训练数据量的提升:减少了统计泛化对神经网络的挑战;
- 更大的网络结构:更强的算力和更好的深度学习框架基础使得神经网络能够变得更大;
- 少量算法的优化:包括交叉熵取代均方误差作为损失函数,使用RELU等分段线性函数作为激活函数。