梁文锋论文登权威期刊《自然》封面,DeepSeek梁文锋登上《自然》封面

梁文锋论文登权威期刊《自然》封面

9月18日上观新闻发表文章“梁文锋捅破‘黑箱’登上《自然》封面，首次回应质疑”。9月17日深夜，今年1月引发全球轰动的开源AI大模型DeepSeek-R1，在经过8个多月严格的同行评审之后，登上国际顶尖学术期刊《自然》杂志封面，成为全球首个经过同行评审的大语言模型。

这篇由梁文锋担任通讯作者的论文披露了DeepSeek-R1更多训练细节，包括29.4万美元的超低训练成本，并正面回应了模型发布之初的蒸馏质疑。实际上，这篇关于DeepSeek-R1的论文早今年1月就以预印本形式发表在arXiv平台上。此次论文正式发表前，经历了8名同行评审，并在他们的反馈下作了许多修改、完善和补充。自今年1月在全球最大开源AI社区Hugging Face发布以来，DeepSeek-R1模型已成为该平台上下载量最高的复杂问题解决类模型。截至9月18日，R1模型的预印本论文也在短短8个多月中，获得约3600次引用——在大模型领域，这是一个很高的引用数据。

在众多业内人士看来，这次R1模型登上《自然》，除了肯定其学术价值，还标志着AI基础模型正从一个靠技术博客和“打榜”为主要评价标准的领域，迈向以方法论的科学性、可复现性和严谨验证为核心的成熟科学。上海科技大学信息学院助理院长屠可伟教授告诉记者，期刊发表周期至少6-12个月，会议论文则需3-6个月，这样的发表速度对AI来说太慢了。不过，在“谁都能往上发”的预印本平台arXiv上，论文质量也的确良莠不齐。屠可伟认为，R1模型通过同行评审登上《自然》，更大的意义在于，让AI获得了更广泛科学群体的关注。

《自然》杂志在同步发表的社论中表示，当前，那些正迅速改变人类知识获取方式的主流大语言模型中，尚无任何一个经过研究期刊的独立同行评审。严格的同行评审有助于清晰呈现大型语言模型的工作原理，并帮助评估其是否能实现宣称的功能，有利于遏制人工智能行业的炒作现象。此次DeepSeek-R1打破行业惯例，让大模型朝着提升透明度的方向迈出了可喜一步。同时，同行评审还能增强研究的可信度，在不同群体中获得更高认可度。此外，评审还会对模型的安全性、防护机制作出要求，将推动改善目前颇受关注的数据污染、固有偏见等问题。屠可伟坦言，人工智能需要在更大范围与其他学科领域加速融合，而实践中面临的最大挑战就是学科隔阂，增进科学家与AI专家之间的交流极为必要。“此次R1模型登上《自然》，有助于让AI融入更大的‘科学群聊’。”

【胡盛行评论】评论这个新闻，坦率地说，主持者有些纠结，毕竟最近密集“吹捧”DeepSeek和梁文锋，读者或许会产生“审美疲劳”，甚至反感。但是，DeepSeek论文登上顶刊《自然》杂志的封面，意义实在非同一般，超出了普通技术创新的范畴。

今年1月DeepSeek横空出世以来，质疑和否定的声音从未停止，一说DeepSeek在技术上并没有什么实质性的突破，无非就是模仿ChatGPT等，评测结果上接近于最顶尖大模型的水平；一说是DeepSeek走了捷径，通过蒸馏技术，“窃取”了别人已有的成果。这一次，论文通过了全球8位业内专家长达8个多月的严格评审，成为首个经过同行评审的大语言模型。《自然》杂志登于封面，且同步发表专题社论，赞赏DeepSeek，强调同行评审重要性的同时，字里行间，似乎也暗示大语言模型存在着对功能的夸大和炒作的嫌疑。现在，压力反而来到了质疑者一边，比如我们曾点评过的Anthropic和它的Claude系列。面对质疑，DeepSeek没有急于正面应对，而是发表论文，并耐心接受同行评审，不厌其烦地按照意见修改论文，也坦诚披露了更多的研发细节，这种态度值得西贝贾老板们借鉴。

印象中上一次人工智能领域的技术突破，登上《自然》封面的是AlphaGo和AlphaZero的两次了。众所周知，从Alpha系列中，走出了后来的诺贝尔物理学奖。主持者倒不是说梁文锋将来也会染指诺奖，而是想说，这说明提交论文的一方，把自己所做的事当做基础性的科学研究多于商业性的技术产品，而接受论文的一方，也认可这一研究成果属于科学、学术的范畴。换句话说，人工智能大语言模型正在逐渐被传统的基础、自然科学界、学术界关注和接纳，未来或许也能走出诺贝尔奖，而这其中，DeepSeek功不可没。“成功学”常说“格局决定高度”，主持者觉得至少从这一点，DeepSeek的“格局”超过了其他的大模型厂商。

此次DeepSeek论文或许是一个重要的标志，是我国科技企业对知识产权重视的集中体现。从几年前开始，以华为、阿里等为代表的我国科技企业就越来越多地采用论文、专利、标准等多种知识产权形式一方面来保护自身的创新成果，另一方面也更好地参与国际科技交流。这也是上一期《特供信息》提到的，我国创新指数快速上升的重要原因。过去，我们总被诟病对知识产权保护的意识薄弱，盗版、侵权、技术盗窃等事件频发。对知识产权的保护是一个国家软实力的重要体现，直接关系到营商环境、人才吸引、创新氛围等诸多方面。主持者以前也多次提到，谷歌当年就是凭借三篇论文，开启云计算、大数据时代，也奠定了其在上一个十年的业界技术领导地位。如今，越来越多的中国科技技术企业开始与国际接轨，用这些通行的规范形式发布自己的成果，融入整个世界的研发创新体系。可以说，正是在这样的大趋势和大基数之下，才产生了DeepSeek这一次“登顶”的论文。这里再补充一点，其实DeepSeek一直坚持的开源也是有完备且成熟的标准规范体系的，某种程度上，也属于知识产权保护的形式。

最后作为总结，主持者想说，我们经常说中国欠缺从0到1的创新能力和成果，也许现状正在悄然发生转变，DeepSeek此次受到同行和科学界的高度认可，也已经并正在产生巨大的影响，它的这一创新，称得上是大语言模型领域除了ChatGPT诞生以外最重要的里程碑，即使不算从0到1，也达到了1.5的水准。

更多好文↓↓↓