当前位置：首页 > 知识

DeepSeek下载火爆一周超过谷歌Gemini两年

　　图：目前，下载DeepSeek下载量持续攀升，火爆据估计，周超一周内DeepSeek网站用户数量就超过了谷歌的过谷歌Gemini聊天AI。

　　近期，下载国产AI大模型DeepSeek横空出世，火爆永久伊园甸氶久伊园甸仅以几十分之一的周超成本，就达到与全球领先的过谷歌ChatGPT最新o1版本推理模型相当的实力。目前，下载DeepSeek下载量持续攀升，火爆据研究公司SimilarWeb估计，周超在短短一周内，过谷歌DeepSeek网站的下载用户数量就超过了谷歌的Gemini聊天AI，而后者已经存在了近两年。火爆一时间，周超各界众说纷纭：DeepSeek为什么这么牛？何以如此？是创新还是蒸馏？……诸如此类的疑问频出。

　　人工智能专家高飞长期跟踪研究ChatGPT与DeepSeek的发展轨迹，他在接受大公报独家专访时，从技术肌理与论文研究原点出发，破译“深度求索”成功的基因密码，揭密DeepSeek低成本、高性能的原因。他还表示，DeepSeek-R1“出圈”，得益于高性能、低成本、强开放三个因素，这与美国闭源、我的徒弟都是大反派笔趣阁收费、高成本的ChatGPT形成鲜明对比。

DeepSeek下载火爆一周超过谷歌Gemini两年

　　三大创新凝炼DeepSeek “东方神秘力量”

DeepSeek下载火爆一周超过谷歌Gemini两年

　　大公报：DeepSeek是如何实现低成本的？

　　高飞：DeepSeek的低成本得益于其创新性，它打破了“只有靠最先进硬件才能训练出前沿模型”的传统观念。DeepSeek团队利用有限的资源，通过创新的方式，训练出了以“测试时间计算”方式运行的推理模型，并对标OpenAI最先进的o系列模型，实现了看似“不可能”的“低成本+高性能”极限组合，并提供开源代码，让企业、个人可以在本地算力设施上部署免费使用。所以，它的低成本不是“因”，而是“果”，且是“果”之一。

　　大模型的“大”，其实是大算力、大参数、大数据。每一个大，都意味着高成本。DeepSeek在约束条件下，做了极限创新，减少算力需求、减少参数数量、降低数据规模。这是在资源上做减法，但却不对性能有任何妥协。所以，DeepSeek不仅“低成本”，还有“高性能”，以及开源模式的“强开放”。

　　这次OpenAI跟随DeepSeek-R1发布o3 Mini模型，CEO山姆．奥特曼承认其对于开源的判断有误，站在了“历史错误的一边”。言外之意，OpenAI可能也会在未来考虑对其模型全部或者部分开源。因此，DeepSeek-R1模型的成功，不仅是技术创新的成功，更是技术开放的成功。

　　实现强化学习法让用家看到“内心戏”

　　大公报：DeepSeek-R1兼具低成本和超高性能，更在低成本的前提下实现对标OpenAI o系列模型，这究竟是怎么做到的呢？

　　高飞：DeepSeek-R1模型代表了高性能、新思维的突破。大家知道，OpenAI的o系列模型是一种测试时间计算（Test-Time Computation）模型，模型在推理阶段（Inference Phase）会执行计算的方式。表现在使用上，就是模型不会立刻回答用户的问题，而是根据问题难度，经过一番思考（通常是几十秒），给出高质量答案。

　　DeepSeek R1使用了一种创新的强化学习（RL）方法，实现了该种模型的训练。最终实现的效果是，当你提问DeepSeek-R1，它看似是最终给你一个答案，但其实模型有大量的“内心戏”，是经过反复推敲、多步思考，最终给出一个相对完美的答案。在学术上，这个过程叫思维链（Chain of thought）。

　　大公报：可否从技术肌理层面为我们解读，DeepSeek的高性能主要源于何种技术创新呢？

　　减少消耗分工明确“餐厅模式”

　　高飞：DeepSeek所拥有的“东方神秘力量”─高性能，主要来自混合专家模型（MoE）、多标记预测（MTP）和多头潜在注意力机制（MLA）等三大技术的创新。其中，MoE技术实现了DeepSeek在参数上的精简。例如，去年底发布的DeepSeek-V3，就是DeepSeek团队采取混合专家模型的模式，将大模型分成多个“专家”子模型，将DeepSeek-V3的671B参数进行拆解，每个子模型的参数量大约只有37B（总参数的1/20），且擅长不同领域的知识。这样，针对不同的输入数据，模型会动态地选择最合适的部分专家来参与计算，自然就减少了资源消耗。

　　大公报：可以举一个形象的例子，解释一下MoE技术是如何运行的吗？

　　高飞：训练大模型就像点菜，美国的主流大模型就像一个有100个档口的大牌档，用户点一份披萨，所有厨师、服务生都要动起来。而MoE技术就相当于组织分类，用户同样点一份披萨，西餐档口只调动相应的西餐厨师和服务生，其他档口并不受到扰动，因此忙而不乱，井然有序。从粗放式管理到精细化模式，即专家模式，其实就是提升模型的组织创新力。

　　同步炮制后厨“预判式做饭”

　　高飞：如果说，MoE技术让模型尽可能用更少的参数工作，是空间上的优化，那么MTP技术就是时间上的优化，它让模型用同样的资源做更长期的工作。MTP技术可以让模型不是每次预测生成一个Token（文本拆分的最小单元），而可以在每个位置预测多个未来Token，这就更大程度利用了计算资源，增加了训练信号密度，提高了训练效率。就像让餐厅档口做第一道菜时，就同步准备第二、三道菜，用一份算力做更多工作，将资源利用到极致。

　　化繁为简 “例汤白饭式”归类

　　高飞：多头潜在注意力机制（MLA）技术，就是将原始高维特征压缩到一个较低维度的潜在空间（潜在向量），再通过上投影矩阵恢复的技术。打个比方，就是将一段高清视频压缩成较小的文件，却能在播放时基本保持画质。还以餐厅档口为例，过去档口在和顾客交互中要记录每一道菜，而现在把菜单中的菜品抽象汇总分类，计为十碗“例汤”、十碗“白饭”，要记录的信息一下子就少了很多。

　　DeepSeek团队在训练V3版模型时，还使用了对数据资源节省技术，即“FP8混合精度训练”。FP8是一种比常规大模型训练使用的FP16和FP32更低精度的数据格式，每个数字占用的比特数更少，这使得模型在训练和使用过程中，所需的存储空间和计算量大大减少，效率也就更高。之前大家也不是没想过这种方式，但只有DeepSeek团队真正实现了这一点。

　　专家剖析DeepSeek技术

　　谬误1

　　DeepSeek是在ChatGPT大模型上通过“蒸馏”产生的，这涉及“偷取”知识产权，且任何人都可以以低成本蒸馏出“精华”。

　　高飞：否。模型蒸馏并不是一项新技术，目前没有任何公司利用蒸馏方法，训练出超过其他模型性能的产品。这两年，拥有高端芯片、强大算力、在ChatGPT上蒸馏数据的模型，不下几十个，没有一个能“跑”出类似的效果，都达不到DeepSeekR1强大的性能。而且，DeepSeek的技术秘密是公开的，它既模型开源，又在原始技术论文中公开了细节。

　　谬误2

　　DeepSeek背后是接近50000台英伟达最先进A100芯片在支撑，不可能只用2000块GPU就训练出这么高性能的模型。

　　高飞：否。DeepSeek的技术论文中清楚地写明了训练模型所需要的GPU数量，DeepSeek团队没有必要在这个数字上作假。目前所有声称“DeepSeek靠五万卡训练模型”的说法，都是坊间猜测，无任何权威出处。

　　谬误3

　　DeepSeek模型只受国人追捧，美国有OpenAI、Meta等前沿模型，没有必要用DeepSeek的产品。

　　高飞：否。近期全球众多大厂纷纷宣布支持DeepSeek的模型，包括亚马逊、英特尔、微软、Perplexity、NVIDIA等。DeepSeek的APP也登顶多个国家的App Store下载排行榜。可以说，DeepSeek在全球范围内都是一个现象级的产品。

　　强化学习博采众长

　　图：人工智能发展一日千里。图为2016年3月9日至15日，人工智能程序“阿尔法围棋”在韩国首尔进行的五番棋比赛中，以4比1的总比分击败韩国九段棋手李世石。\新华社

　　大公报：我们现在知道，DeepSeek的高性能根本上来自于新算法，即强化学习方法，这似乎和当年Alpha Zero与人类棋手博弈相似，是吗?

　　高飞：是的。DeepSeek的强化学习，不是新理论。大家最耳熟能详的强化学习模型，应该是谷歌DeepMind的围棋模型Alpha Zero。它之所以叫Zero，是指模型是从零数据开始，通过与自身进行数百万次对弈，积累数据，提升性能。

　　DeepSeek R1也是这样，通俗地说，它就是人工智能界的“Alpha Zero棋手”，用AI和AI对弈的强化学习方式(而不是学习人类知识行为数据)，提高性能。需要说明的是，DeepSeek R1并非单一地运用强化学习方法，而是新老方法并用，博采众长。例如，DeepSeek团队发现模型出现中英文双语混用、答案不易被人理解的现象，所以也使用了传统的监督式学习(SFT)，即人类数据辅助优化，让内容输出更友好。

　　大公报：但谷歌DeepMind八年前就已推出围棋模型Alpha Zero，强化学习法早已有之。在这方面，DeepSeek是否算抄袭了谷歌的技术呢?

　　高飞：这就是科学、技术、工程的区别了。强化学习技术早有公开论文，大家都可学习借鉴。但科学原理如何在技术和工程上实现，是另一回事。

　　此外，属于封闭性问题(即有标准答案、可判断胜负)的围棋问题，与处理开放性问题的语言大模型是不同的。这种强化学习技术，并不容易在大语言模型的训练中使用，从去年开始涌现的千百个大模型，都没能取得这方面突破，没能走通这条技术路径。

　　专家介绍 | 高飞

　　科技观察家，至顶科技CEO兼总编辑，PEC China(提示工程峰会联合发起人)，长期研究人工智能等技术生态的发展规律，并参与了中国云计算产业发展白皮书、中国科协学术场景AI技术应用评测报告等多个产业学术研究的立项编写工作。

上一篇

美媒爆：特朗普透露他已与普京通话，俄方暂无回应
下一篇

领军人才/邀顶尖学者参与研究

DeepSeek下载火爆一周超过谷歌Gemini两年

相关推荐

倚天不出，谁与争锋——2024

不满判罚+情绪激动！方硕遭驱逐下轮自动停赛

福建盼盼豹发力，你的球迷一直都在

非洲国家杯阿尔及利亚与突尼斯跻身半决赛

一个时代的落幕！万科身后马拉松的那些事

前瞻：拉塞尔率队战旧主湖人小托马斯重回波士顿

DeepSeek下载火爆 一周超过谷歌Gemini两年

相关推荐

倚天不出，谁与争锋——2024

不满判罚+情绪激动！方硕遭驱逐 下轮自动停赛

福建盼盼豹发力，你的球迷一直都在

非洲国家杯阿尔及利亚与突尼斯跻身半决赛

一个时代的落幕！万科身后马拉松的那些事

前瞻：拉塞尔率队战旧主湖人 小托马斯重回波士顿

DeepSeek下载火爆一周超过谷歌Gemini两年

不满判罚+情绪激动！方硕遭驱逐下轮自动停赛

前瞻：拉塞尔率队战旧主湖人小托马斯重回波士顿