SSDD的原论文采用了7:1:2的随机比例,将数据集划分为训练集、验证集和测试集。然而,这种随机划分机制将导致测试集中样本的极大不确定性,导致使用同一检测算法进行多次训练和测试时,产生不同的结果。这是因为SSDD中的样本数量太少,只有1160个,随机划分可能会破坏训练集和测试集之间的分布一致性。
 
后来,一些研究人员也采用了其他比例进行训练、验证和测试,但这些不同的数据集划分将导致不统一的方法比较,不利于学术交流。事实上,计算机视觉领域的两个目标检测数据集(PACAL VOC和COCO),都提供了唯一确定的训练集、验证集和测试集,这可确保对比的公平性。
 
因此,这里对SSDD的训练集和测试集的划分做出了严格的规定。文件编号最后数字为1和9的图像被确定为测试集,其余的被视为训练集。该规则还可以保持训练集和测试集分布的一致性,有利于网络特征学习。

dawei

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注