“东方秘要力量” 爆火国产AI大模子背后的年青东谈主

发布日期：2025-01-24 16:58 点击次数：155

DeepSeek大模子发布之后，便如归拢头年青的野兽，冲入公众视线，搅拌总共这个词AI圈

▲图/视觉中国

2024年齿末，DeepSeek-V3大模子发布，飞速成为全球东谈主工智能（AI）界限的焦点，刷屏科技圈，好多东谈主化身“自来水”，在各大顶住媒体、科技论坛上发帖盘问，不惜溢好意思之词。

在全球范围内的行业基准测试中，DeepSeek-V3达到与Llama 3（开源大模子标杆，由扎克伯格的Meta公司开拓）、GPT-4o（OpenAI大模子）颠倒的水平，闯入了多个AI大模子排名榜单前哨。聊天机器东谈主竞技场（Chatbot Arena）最新数据高傲，DeepSeek-V3位列开源模子榜第一，在全模子榜单里排名第七，亦然中国模子中排名最高的。更令东谈主愕然的是，DeepSeek-V3模子覆按所消费的算力，唯一Llama的1/11。

DeepSeek-V3颤动AI圈，背后的中国公司深度求索（DeepSeek）也“浮出水面”。硅谷同业称其为“东方秘要力量”，对DeepSeek团队发扬出浓厚的意思。而在国内，“雷军千万年薪挖角DeepSeek酌量员罗福莉”的话题也上了顶住平台热搜。

不论是AI圈，如故“吃瓜民众”，齐介意思，DeepSeek-V3大模子的背后，到底是一支什么样的团队？

走出校园不久的年青东谈主

2024年12月底，有媒体报谈，雷军以千万年薪给与别称“天才AI仙女”来教悔小米的AI大模子团队。这位95后“仙女”名叫罗福莉，往日两年供职于DeepSeek团队，曾参与DeepSeek大模子的要害研发。

罗福莉在北京大学读估量谈话学硕士期间，曾因在ACL（海外估量谈话学协会）学术会议上发表多篇论文而受到热心。毕业后，她干预阿里巴巴达摩院，从事预覆按谈话模子有关的使命。2022年加入深度求索母公司幻方量化，之后成为DeepSeek大模子方式成员。

DeepSeek-v3的出现，让好多东谈主以为，DeepSeek团队势必有“大牛”镇守。但罗福莉走红却让外界发现，确凿的“大牛”是那些像她一样的年青东谈主。

▲罗福莉图/罗福莉个东谈主公众号

2023年5月，DeepSeek-V2发布，比拟于国表里主流大模子，大幅减少了估量量和推理显存，一问世就备受热心。作念出这一打破性鼎新的，是年青的高华佐和曾旺丁等东谈主。

两东谈主齐刚从学校出来没几年。高华佐来自广东，2012年在华南师范大学附庸中学就读时，曾获第29届宇宙中学生物理竞赛一等奖，并于次年保送至北京大学物理学院学习。曾旺丁来自湖南省新化县，2017年至2023年就读于北京邮电大学东谈主工智能学院，硕士期间主要学习东谈主工智能标的，导师为张洪刚，2018年曾获宇宙大学生数学竞赛（非数学类）二等奖。

DeepSeek大模子的另一大打破，是通过一种名为GRPO的算法，鼎新覆按方法，大大缩短了资本。其中的主角，依然是这些看似衰退教养的年青东谈主。

中枢成员之一邵智宏此前是清华大学交互式东谈主工智能（CoAI）课题组博士生，主要酌量天然谈话处理、深度学习，对构建肃肃且可延长的AI系统有着专有想法。他曾职业于微软酌量院，加入DeepSeek团队之后，参与了多个病笃方式的研发，包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。

GRPO算法鼎新的另一病笃孝敬者是朱琪豪。这位北京大学估量机学院2024届的博士毕业生，专注于深度代码学习酌量。在校期间，他展现了惊东谈主的学术能力，发表CCF（中国估量机学会）-A类论文16篇，获取了软件工程界限顶级会议（ESEC/FSE）特出论文奖。他的博士论文《谈话界说感知的深度代码学习时刻及应用》入选了2024CCF软件工程专科委员会博士学位论文引发狡计。他在DeepSeek团队最病笃的使命，恰是基于我方的博士论文，主导开拓DeepSeek大模子的一个要害方式。

他的同学代达劢则在更早的时候加入这个团队，参与了DeepSeek大模子从V1到V3每一代的研发，照旧是元老级研发东谈主员，也在学生时期获取多项论文奖。

▲朱琪豪图/北京大学估量机学院公众号

▲代达劢图/北京大学估量机学院公众号

负责DeepSeek大模子覆按及推理基础架构的，是相通刚毕业的工程师赵成钢。加入DeepSeek之前，他曾在英伟达公司实习。赵成钢在学生时期就取得过令东谈主瞻仰的成绩。在河北衡水中学就读时，他是信息学竞赛班成员，2016年获取宇宙青少年信息学奥林匹克竞赛银牌。在清华大学读大二时，他成为学生超算团队认真成员，三次获取世界大学生超算竞赛冠军。

DeepSeek团队限制并不大，不到140东谈主，工程师和研发东谈主员确切齐来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校，鲜有“海归”，而况使命时分齐不长，不少如故在读博士。即就是团队的处置者，也颠倒年青。

吴俣是DeepSeek后覆按团队的负责东谈主，在干预深度求索之前，唯一4年使命教养。他曾在微软亚洲酌量院使命，参与了小冰（AI聊天机器东谈主）和必应百科方式。他是北京航空航天大学估量机学院2019届博士。

“咱们的中枢时刻岗亭，基本以应届和毕业一两年的东谈主为主。”深度求索创举东谈主梁文锋此前向媒体暗示，作念一件历久的事，教养其实没那么病笃，比拟之下基础能力、创造性和深爱等更病笃。因此，在组建DeepSeek团队时，他招东谈主的原则是“看能力，而不是看教养”。他认为，大致当今世界排名前50的顶尖AI东谈主才还不在中国，“但咱们能我方打造这么的东谈主。”

而这些一边搞研发一边写论文的年青东谈主，也一次又一次带给他惊喜。

低廉的大模子

DeepSeek大模子发布之后，便如归拢头年青的野兽，冲入公众视线，搅拌总共这个词AI圈。

2024年5月，Deepseek-V2推出后，不仅一鸣惊东谈主，还掀翻了一场AI大模子价钱战。这款开源模子的推理资本仅为每百万Token（词元，谈话模子顶用数字来暗示单词的最小语义单元，一个汉字约等于两个词元）1元东谈主民币，唯一Llama 3的1/7，GPT-4 Turbo（OpenAI最新的谈话模子）的1/70。

濒临如斯重大的资本差，国内主流大模子不得不“忍痛”降价，包括腾讯、百度、阿里巴巴、字节跳跃等公司接踵更新了价钱。只是半年之后，p2p理财Deepseek-V3模子发布，输入价钱降至0.5元/百万Token，又鼓吹了新一轮的国产大模子降价潮。2024年12月，字节跳跃下调旗下豆包视觉知晓模子输入价钱，比拟行业平均水平缩短85%。

DeepSeek因此有“价钱屠户”之称，也有东谈主称之为“AI界的拼多多”，致使DeepSeek聊天机器东谈主也用这一称号刻画我方。

然则，与一些厂商依靠“烧钱”补贴看守廉价不同，DeepSeek大模子天然更低廉，但依然故意润。“咱们只是按照我方的方法来作念事，然后核算资本订价。”梁文锋称，DeepSeek不戒备成了一条“鲶鱼”。

Deepseek大模子的“低廉”源于时刻的打破。深度求索公布的信息高傲，DeepSeek-V3模子全程覆按只用了不到280万个GPU小时（图形处理器使用时分），而Meta公司的Llama 3 405B模子覆按时长是3080万GPU小时。

覆按效果的大幅普及，来自于DeepSeek团队在模子架构和覆按方法上的鼎新。

2024年，高华佐和曾旺丁等东谈主在Transformer架构（一种采用“注眼力机制”的深度学习模子，2017年由谷歌推出后，成为各种AI大模子的首选架构）的基础上，用新的MLA（多头潜在注眼力机制）替代了传统的多头注眼力机制，压缩数据，把推理显存降至此前常用MHA架构的5%-13%；还借助自研的DeepSeekMoE结构，在保执性能的前提下，极大减少了估量量。这种架构层面的鼎新，在国内大模子公司中极为萧疏。

与此同期，DeepSeek应用算法，把数据进行回来和分类，历程采用性处理之后，运送给大模子，提高了覆按效果。而此前如OpenAI的覆按方轨则是“洪流漫灌式”，拿海量数据喂，需消费更多资源。这种覆按方法的鼎新，也缩短了DeepSeek的资本。

深度求索官方信息高傲，DeepSeek-V3大模子覆按仅耗时不到两个月，破耗了557.6万好意思元和2048块GPU（图形处理器）。而斯坦福大学HAI酌量院发布的《2024年东谈主工智能指数敷陈》预估，OpenAI的GPT-4模子覆按资本约为7800万好意思元，GPT-4o则为1亿好意思元；谷歌Gemini Ultra的估量资本为1.91亿好意思元。Meta于2024年7月发布的开源模子Llama3.1-405B，则消费了1.6万块GPU用于覆按。

DeepSeek-V3的出现，已矣了高性能与低资本的均衡，给大模子发展提供了新的可能性。“未来大致不需要超大限制的GPU集群了。”OpenAI创举成员Andrej Karpathy暗示。

也有学术民众认为不宜过高评价DeepSeek-V3的鼎新，因为其得胜更多收货于整合前东谈主已有的时刻，贫寒底层旨趣的鼎新。

站在“巨东谈主”的肩膀上，DeepSeek团队也乐意将我方的鼎新分享给更多东谈主。DeepSeek-V3上线时，深度求索也同步灵通源代码，并发布了53页论文，将模子的要害时刻和覆按细节全部分享给外界。

在新时刻波澜中成为鼎新孝敬者

2023年5月，梁文锋建树了新公司“深度求索”。他对外文告，要作念“确凿东谈主类级别的东谈主工智能”。在此之前，他是私募基金“幻方量化”的创举东谈主。

当时候，网上已有传说称，中国执有高性能GPU最多的机构不是东谈主工智能公司，而是一家量化私募。据《财经》报谈，2023年，中国领有1万张以上GPU的企业不卓越5家，唯一幻方量化不是科技“大厂”。

这颠覆了好多东谈主的目的。跟钱打交谈的基金司理，为什么如斯执着于东谈主工智能？

1980年代，梁文锋出身于广东一座五线城市。他的父亲是一位小学安分，阿谁时候，常有家长跑到他家，暗示“读书没用”，不想让孩子持续读书，因为合计广东充满了赢利的契机。但受父亲的影响，梁文锋对学问一直充满渴慕。

在浙江大学攻读信息与电子工程学本科和硕士时，他对东谈主工智能产生了浓厚的意思，笃信“东谈主工智能一定会改换世界”。2008年毕业之后，他和一又友一齐作念量化投资，尝试通过数学模子，用估量机才能进行来往。

执续多年在量化投资界限的探索，让他对时刻驱动型鼎新越发有了信心。2015年，他与学友徐进建树“幻方量化”。后者是浙江大学信号与信息处理博士，曾任职于华为时刻有限公司上海酌量所。他们买了不少GPU，打造酌量室，启动尝试借助AI时刻构建投资战略。这匡助幻方量化在4年时分里成长为一家处置资金限制过百亿的私募公司。

2019年，他们建树了AI公司，投资卓越10亿元，先后研发了AI超等估量机“萤火一号”和“萤火二号”。其中，“萤火二号”搭载了约1万张英伟达A100显卡，算力卓越72万台个东谈主电脑。借助AI超等估量机，幻方量化处置的钞票在2021年打破1000亿元。

2022年底，ChatGPT的横空出世让照旧积聚多年的梁文峰下定决心作念通用东谈主工智能。“咱们建了一个名为深度求索的新公司，从谈话大模子启动，后边也会有视觉等。”本体上，OpenAI公开论文和代码后，国表里出现了许多大模子公司。梁文峰认为，在未来20年，大厂和创业公司齐有契机。

不外，直到第三代大模子发布，DeepSeek团队依然莫得上线相应的应用，尚未全面计议贸易化，而况与大批国产大模子不同，他们采用了开源道路。

梁文峰向媒体知道，他和团队的运筹帷幄并不是作念一个应用，而是进行基础酌量，只负责基础模子和前沿的鼎新。

在互联网时期，好多东谈主齐会有一种惯性想维，认为西洋科技圈擅长从0到1的时刻鼎新，而中国东谈主更民俗从1到N，在应用层面发力。“好多中国公司民俗follow（随从）而不是鼎新。”梁文峰认为，往日30年，这些企业更强调赢利，疏远了鼎新。

他服气中国AI不会“恒久处于随从的位置”，但愿深度求索以鼎新孝敬者的身份加入新的时刻波澜之中。“鼎新最初需要自信。”他说。

上一篇：隔夜泰西·1月11日

下一篇：蚁集科技(01729)字据股份筹谋刊行8000股

股票杠杆

“东方秘要力量” 爆火国产AI大模子背后的年青东谈主