梁文锋论文登权威期刊《自然》封面,DeepSeek梁文锋登上《自然》封面

梁文锋论文登权威期刊《自然》封面

9月18日上观新闻发表文章“梁文锋捅破‘黑箱’登上《自然》封面,首次回应质疑”。9月17日深夜,今年1月引发全球轰动的开源AI大模型DeepSeek-R1,在经过8个多月严格的同行评审之后,登上国际顶尖学术期刊《自然》杂志封面,成为全球首个经过同行评审的大语言模型。

这篇由梁文锋担任通讯作者的论文披露了DeepSeek-R1更多训练细节,包括29.4万美元的超低训练成本,并正面回应了模型发布之初的蒸馏质疑。实际上,这篇关于DeepSeek-R1的论文早今年1月就以预印本形式发表在arXiv平台上。此次论文正式发表前,经历了8名同行评审,并在他们的反馈下作了许多修改、完善和补充。自今年1月在全球最大开源AI社区Hugging Face发布以来,DeepSeek-R1模型已成为该平台上下载量最高的复杂问题解决类模型。截至9月18日,R1模型的预印本论文也在短短8个多月中,获得约3600次引用——在大模型领域,这是一个很高的引用数据。

在众多业内人士看来,这次R1模型登上《自然》,除了肯定其学术价值,还标志着AI基础模型正从一个靠技术博客和“打榜”为主要评价标准的领域,迈向以方法论的科学性、可复现性和严谨验证为核心的成熟科学。上海科技大学信息学院助理院长屠可伟教授告诉记者,期刊发表周期至少6-12个月,会议论文则需3-6个月,这样的发表速度对AI来说太慢了。不过,在“谁都能往上发”的预印本平台arXiv上,论文质量也的确良莠不齐。屠可伟认为,R1模型通过同行评审登上《自然》,更大的意义在于,让AI获得了更广泛科学群体的关注。

《自然》杂志在同步发表的社论中表示,当前,那些正迅速改变人类知识获取方式的主流大语言模型中,尚无任何一个经过研究期刊的独立同行评审。严格的同行评审有助于清晰呈现大型语言模型的工作原理,并帮助评估其是否能实现宣称的功能,有利于遏制人工智能行业的炒作现象。此次DeepSeek-R1打破行业惯例,让大模型朝着提升透明度的方向迈出了可喜一步。同时,同行评审还能增强研究的可信度,在不同群体中获得更高认可度。此外,评审还会对模型的安全性、防护机制作出要求,将推动改善目前颇受关注的数据污染、固有偏见等问题。屠可伟坦言,人工智能需要在更大范围与其他学科领域加速融合,而实践中面临的最大挑战就是学科隔阂,增进科学家与AI专家之间的交流极为必要。“此次R1模型登上《自然》,有助于让AI融入更大的‘科学群聊’。”

【胡盛行评论】评论这个新闻,坦率地说,主持者有些纠结,毕竟最近密集“吹捧”DeepSeek和梁文锋,读者或许会产生“审美疲劳”,甚至反感。但是,DeepSeek论文登上顶刊《自然》杂志的封面,意义实在非同一般,超出了普通技术创新的范畴。

今年1月DeepSeek横空出世以来,质疑和否定的声音从未停止,一说DeepSeek在技术上并没有什么实质性的突破,无非就是模仿ChatGPT等,评测结果上接近于最顶尖大模型的水平;一说是DeepSeek走了捷径,通过蒸馏技术,“窃取”了别人已有的成果。这一次,论文通过了全球8位业内专家长达8个多月的严格评审,成为首个经过同行评审的大语言模型。《自然》杂志登于封面,且同步发表专题社论,赞赏DeepSeek,强调同行评审重要性的同时,字里行间,似乎也暗示大语言模型存在着对功能的夸大和炒作的嫌疑。现在,压力反而来到了质疑者一边,比如我们曾点评过的Anthropic和它的Claude系列。面对质疑,DeepSeek没有急于正面应对,而是发表论文,并耐心接受同行评审,不厌其烦地按照意见修改论文,也坦诚披露了更多的研发细节,这种态度值得西贝贾老板们借鉴。

印象中上一次人工智能领域的技术突破,登上《自然》封面的是AlphaGo和AlphaZero的两次了。众所周知,从Alpha系列中,走出了后来的诺贝尔物理学奖。主持者倒不是说梁文锋将来也会染指诺奖,而是想说,这说明提交论文的一方,把自己所做的事当做基础性的科学研究多于商业性的技术产品,而接受论文的一方,也认可这一研究成果属于科学、学术的范畴。换句话说,人工智能大语言模型正在逐渐被传统的基础、自然科学界、学术界关注和接纳,未来或许也能走出诺贝尔奖,而这其中,DeepSeek功不可没。“成功学”常说“格局决定高度”,主持者觉得至少从这一点,DeepSeek的“格局”超过了其他的大模型厂商。

此次DeepSeek论文或许是一个重要的标志,是我国科技企业对知识产权重视的集中体现。从几年前开始,以华为、阿里等为代表的我国科技企业就越来越多地采用论文、专利、标准等多种知识产权形式一方面来保护自身的创新成果,另一方面也更好地参与国际科技交流。这也是上一期《特供信息》提到的,我国创新指数快速上升的重要原因。过去,我们总被诟病对知识产权保护的意识薄弱,盗版、侵权、技术盗窃等事件频发。对知识产权的保护是一个国家软实力的重要体现,直接关系到营商环境、人才吸引、创新氛围等诸多方面。主持者以前也多次提到,谷歌当年就是凭借三篇论文,开启云计算、大数据时代,也奠定了其在上一个十年的业界技术领导地位。如今,越来越多的中国科技技术企业开始与国际接轨,用这些通行的规范形式发布自己的成果,融入整个世界的研发创新体系。可以说,正是在这样的大趋势和大基数之下,才产生了DeepSeek这一次“登顶”的论文。这里再补充一点,其实DeepSeek一直坚持的开源也是有完备且成熟的标准规范体系的,某种程度上,也属于知识产权保护的形式。

最后作为总结,主持者想说,我们经常说中国欠缺从0到1的创新能力和成果,也许现状正在悄然发生转变,DeepSeek此次受到同行和科学界的高度认可,也已经并正在产生巨大的影响,它的这一创新,称得上是大语言模型领域除了ChatGPT诞生以外最重要的里程碑,即使不算从0到1,也达到了1.5的水准。

更多好文↓↓↓

版权声明:本站内容由互联网用户投稿自发贡献或转载于互联网,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至2024tuiguang@gmail.com举报,一经查实,本站将立刻删除。

合作:2024tuiguang@gmail.com