GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账-天天滚动
时间:2023-06-26 02:13:04来源:清一色财经

几天前,一篇名为《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的论文经历了一场舆论风波。

几天前,一篇名为《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的论文经历了一场舆论风波。


(资料图片)

论文地址:https://arxiv.org/pdf/2306.08997.pdf

最初,研究团队从 MIT 的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中,整理出了一个包含 4550 个问题和解决方案的综合数据集,并让各种大语言模型去完成这个数据集的题目,得出了「GPT-4 几乎满分通过 MIT EECS 和数学本科考试」的结论。

这一结果很快被人指出不够严谨,还给出了多项证据和详尽的分析,表示数据集本身就有问题,用 GPT-4 自动打分的评价机制也很有问题:

「我们的批评主要是针对这项研究的方法和严谨性,而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见,只是认为本文未能以科学严谨的方式证明这一点。」

面对扑面而来的质疑,研究团队在接下来的一周里却没有进行任何公开回应,没有承认,也没有道歉。

但在昨天,人们等到了来自几位教授(也是论文作者)署名的官方通报:

6 月 24 日,Armando Solar-Lezama(MIT EECS 教授和 CSAIL 首席运营官 / 副主任)、Tonio Buonassisi(MIT 机械工程教授)和 Yoon Kim(MIT EECS 和 CSAIL 助理教授)就该论文情况发表了公开声明。

声明内容如下:

6 月 15 日,Iddo Drori 在 arXiv 上发布了一篇与麻省理工学院几十门课程的考试和作业数据集相关的研究论文,他这样做没有得到其他合著者的同意,尽管已经被告知在发表前应该纠正的问题。我们中的一个人在周末旅行后,于 6 月 18 日星期天才知道这个帖子。

在处理这件事的过程中,我们发现,与 Drori 向我们和为该项目收集数据的学生所传达的信息相反,Drori 并没有得到所有导师的许可来收集构成论文主题的数据集的作业和考试题。其中一些涉及课程的导师,在论文出现在社交媒体上和 Drori 未经许可在网上发布数据样本时,才知道这个数据集的存在且其中包含了自己的课程材料。

这些都是正在通过机构渠道解决的严重问题,所以我们不愿意公开发表这样的声明,但我们觉得有必要解释为什么这篇论文不应该被发表而必须被撤回。我们已经要求 Drori 从 arXiv 撤回这篇论文,并且直接联系了 arXiv 解释了这个情况。

我们想强调的是,这篇论文中的所有学生作者都非常努力地工作,如果数据是在同意的情况下收集的,这本来是一篇非常有趣和宝贵的论文。已经发表的工作中出现的问题并不是学生的错。

而且,GPT-4 不能获得麻省理工学院的学位。

这样一份调查声明,真的足够了吗?回想一周前三位质疑者提交的分析,数据集被污染、手动检查的结果与论文所说的「几乎满分通过」相差甚远,这至少意味着论文内容应该被重新审查。

显然,并不是所有人都对调查结果满意,有人表示这是避重就轻的说法,只是关注他们不应该使用这些数据的事实,而不提捏造结果的错误。

「所以这三位麻省理工学院的教授认为,未经同意使用数据是论文的唯一问题。」

针对「这本来是一篇非常有趣和宝贵的论文」的说法,更多人点了反对:「让 GPT-4 给自己生成的答案打分,这就是有趣和宝贵吗?」

另外,有人发现 Iddo Drori 的个人主页已经更新,删掉了「MIT 客座教授」的 title。而且根据领英主页的信息,他将在这个月结束自己的 MIT 访问之旅。

「一些教授决定让一位客座讲师成为替罪羊,并试图将每个人的注意力从方法论转移到数据隐私问题上,却没有批评这篇论文。这是多么典型的学术政治问题。」

正如三位质疑者在博客中所写的那样:「这篇论文道出了最近人工智能领域研究的一个更大趋势。随着该领域的进展越来越快,新发现的时间节奏似乎在缩短,这往往伴随着捷径。一个特别令人担忧的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。」

对于此事,你怎么看?

标签:

  • 上一篇文章: 一载春秋,郑渝高铁书写亮眼成绩单
  • 下一篇文章: 最后一页
  • 最新
  • GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账-天天滚动

    几天前,一篇名为《ExploringtheMITMathematicsandEECSCurriculumUsing

  • 一载春秋,郑渝高铁书写亮眼成绩单

    6月20日,郑渝高铁全线贯通运营满一周年。截至19日,郑渝高铁重庆段累

  • 每日看点!中国电信10元星空卡是什么卡?

    中国电信10元星空卡是什么卡啊欢迎您使用中国电信,电信星卡是电信推出

  • 每日热文:西溪湿地大过“我们的端午”,这个味道很杭州

    西溪湿地大过“我们的端午”,这个味道很杭州

  • 特利迦奥特曼空中型SHF手办实物完美还原剧中剑悟快乐型的气质-天天快看点

    特利迦奥特曼作为评价非常高的天空形态,涉及到的具体周边,也就是SHF

  • 中国四大行分别是哪几家银行?四大银行哪个是老大?

    中国四大银行包括中国农业银行、中国银行、中国工商银行和中国建设

  • 腹部赘肉怎么减 更年期腹部赘肉怎么减|观点

    1、刺激腰背穴位。用拇指、食指,或二三指按揉、点捏、掐压这些穴位及

  • 世界速递!高考出分戳内娱痛点!姚景元三战才考400分,男团均分300多

    又到了紧张刺激的高考出分环节!娱乐圈里每年也有很多艺人是高考大军的

  • 北京交管部门提醒:6月26日机动车尾号限行4和9

    2023年初中学业水平考试于6月24日(周六)至6月26日(周一)进行,预计

  • 今日热议:小小“板凳会” 解决民生“大问题”

    “咱院子啥时候也能进行老旧小区改造?”“什么时候在咱院里放场电影?

  • 国茂控股(08428)附属拟租赁香港办公室物业

    智通财经APP讯国茂控股08428发布公告集团间接全资附属公司金荣辉作为租

  • 环球头条:win10怎么进入RE模式,windows10进入WinRE模式的方法介绍 windows10如何进入win re

    WinRE模式是windows10系统的一个恢复环境,在win10系统遇到严重启动故

  • 收不到短信验证码怎么办vivo_收不到短信验证码

    1、手机无法接收验证码,可能是由于以下原因导致: 你的手机如果不是

  • 广西合浦县闸口镇:浓情端午 粽香闸口-热点

    老奶奶们正在包粽子。陈奎摄又是一年端午节。在节日临近之际,为大力弘

  • 热门:今日沪铅期货价格查询(2023年6月21日)

    金投期货频道提供今日查询_沪铅期货价格走势(2023年6月21日)今日沪铅

  • 江苏无锡:一城山水一城景_天天短讯

    多年来,无锡滨湖区坚守生态底色谋发展,坚持城与山水相依、城与绿色相

  • 旅游
    • 世界通讯!苏轼诗句椰树之上采琼浆捧来一碗白玉香指的是哪种夏季美食

    • 北大、清华审核通过!赣州30名学子入选!|世界观速讯

    • 环球热点!2020珠海担杆岛简介+介绍 珠海市担杆镇

    • 抗衰神器?8年医美经验姐妹们必备吗? 全球速看料