还在学师阶段的研究生以及从业新手们,想在机器学习研究中少走弯路吗?
或许下面这篇论文可以帮到你:
《如何避免机器学习研究中的陷阱?一本给学术研究人员的指南》
作者是英国赫瑞-瓦特大学数学与计算机科学学院的副教授,同时也是爱丁堡机器人中心的成员,博士毕业已经十多年,这篇17页的论文主要介绍了机器学习学术研究中的一些常犯错误,以及如何避免。
指南共涵盖了机器学习过程的五大方面:建模前如何准备,如何建出可靠的模型,如何稳健地评估模型,如何公平地比较模型以及如何报告结果。
一位已经从业的机器学习研究员称赞该论文很有价值,因为文中提到的所有错误他在博士学习和工作期间中都遇到很多次。他准备让后面所有新入职的工程师都好好看看。
不少人则认为该指南的意见可能并不受欢迎,因为很多都是研究人员本该知道的基本常识,比如多次重复实验并报告平均值和方差进行严格比较,但他们就是为了方便或者让数据更好看而选择性忽视。
下面就详细看看作者都提了哪些常见错误。
建模前的准备
为了得到符合预期用途的模型、可以顺利发表论文的结果,建模之前你需要做好以下6点准备:
1、确保花时间研究你要用的数据集,来源可靠、质量有保证。
2、但不要查看测试数据,防止先入为主做出某些假设导致最终模型通用性差。
3、保证数据量足够大,当然保证不了也是常有的事儿,解决办法:
比如评估模型时交叉验证数据、采用数据扩充技术(数据集中某类数据不够时也可采用)。