深度学习为何泛化的那么好?秘密也许隐藏在内核机中

在机器学习领域,人工神经网络逐年扩大规模,并取得了巨大成功,但同时它也制造了一个概念性难题。
 
当一个名为 AlexNet网络在2012年赢得年度图像识别比赛时,大约有6,000万个参数。这些参数在训练过程中进行了微调,使AlexNet能够识别出以前从未见过的图像。两年后,一个名为 VGG 的网络以超过 1.3 亿个参数赢得了全场喝彩。如今,一些人工神经网络(或ANN)甚至达到了数十亿个参数。
 
这些庞大的网络,在图像分类、语音识别和文本翻译等任务上取得了惊人的表现,已经开始主导机器学习和人工智能领域。然而,这些网络仍然是神秘的,其惊人的力量背后的原因仍然难以捉摸。
 
但一些研究人员表明,这些强大网络的理想化版本(比如无限宽)在数学上等同于更古老、更简单的机器学习模型,即内核机(kernel machines)。如果这种等价性可以扩展到理想化的神经网络之外,就可以解释实际的人工神经网络为何能取得惊人的效果。
 
人工神经网络的一部分神秘之处在于,它们似乎颠覆了传统的机器学习理论,而这些理论严重依赖统计学和概率论的观点。在通常的思维方式中,机器学习模型,包括神经网络,通过学习样本数据中的模式来预测新数据特别是当它们拥有正确数量的参数时,表现最佳。
 
如果参数太少,学习模型可能会过于简单,无法捕捉训练数据的所有细微差别。若参数太多,模型则会变得过于复杂,在训练数据中学习模式的粒度太细,以至于在要求对新数据进行分类时无法泛化,这种现象称为过拟合。“这是在以某种方式很好地拟合数据和根本不拟合之间的平衡,我们需要找到一个居中点。”加州大学圣地亚哥分校(University of California, San Diego)机器学习研究员Mikhail Belkin如是说。

dawei

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注