测试集为何总被玩坏斯坦福大佬的暴力解法让人直呼内行

今天来聊聊那个让无数AI研究员抓耳挠腮的老大难问题 —— 测试集究竟该咋整 ?

斯坦福大学的AI实验室主任、自然语言处理领域的大佬Christopher Manning最近在推特上对这个问题提出了他的看法,简直是 一针见血 ,让人直呼内行!

首先,Manning大佬直接开门见山: 私有测试集听起来很美,但最后往往会变成一坨屎 。为啥?原因多了去了:

被各种基准测试当成公共厕所一样随意使用

被玩出花来(比如把问答数据集SQuAD用来做开放域问答)

评估速度慢得像蜗牛爬

服务器跟男朋友一样不靠谱,动不动就挂了

那该咋办呢?Manning大佬给出了一个暴力但有效的方案:

把你的数据集分成训练集、开发集和测试集

把开发集和测试集搞大点,最好是平常的两倍 ,这样统计学上更靠谱

再把开发集和测试集各自劈成两半 ,一半当公开的官方测试集,另一半藏起来当私密验证集

这么搞有啥好处?Manning大佬解释道:

多出来的那份开发集(dev2)用途多着呢:调参、自动优化啥的,随你玩

私密验证集让数据集作者能 火眼金睛地识破那些在公开测试集上过拟合的妖艳贱货 ,或者检测出那些偷偷把测试集数据塞进训练集的小婊砸

但是,这个私密验证集 不是官方测试集 ,所以也不会有前面说的那堆烦人的问题。

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/133.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>