梯度下降法中求梯度,求的是损失函数的梯度。不同的损失函数会直接影响神经网络的训练效率。损失函数是如何设计出来的?有3种主要设计思路:最小二乘法、极大似然法、|交叉熵法这一次先直观理解 最小二乘法 和 极大似然法