遇事不决,XGBoost,梯度提高比深度学习更容易赢得Kaggle竞赛

在Kaggle上参加机器学习比赛,用什么算法最容易拿奖金?
 
你可能会说:当然是深度学习。
 
还真不是,据统计获胜最多的是像XGBoost这种梯度提升算法。
这就奇了怪了,深度学习在图像、语言等领域大放异彩,怎么在机器学习比赛里还不如老前辈了。
 
一位Reddit网友把这个问题发在机器学习板块(r/MachineLearning),并给出了一个直觉上的结论:
 
提升算法在比赛中提供的表格类数据中表现最好,而深度学习适合非常大的非表格数据集(例如张量、图片、音频、文本)。
 
但这背后的原理能不能用数学原理来解释?
 
更进一步,能不能仅通过数据集的类型和规模来判断哪种算法更适用于手头的任务。
 
这能节省很多时间啊,举个极端点的例子,如果尝试用AlphaGo做Logistic回归,你就走远了。
 
问题吸引了很多人参与讨论,有人回复到:
 
这是一个十分活跃的研究领域,完全可以就这个主题做一篇博士论文了。

dawei

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注