DeepSeek下载火爆 一周超过谷歌Gemini两年
图:目前,下载DeepSeek下载量持续攀升,火爆据估计,周超一周内DeepSeek网站用户数量就超过了谷歌的过谷歌Gemini聊天AI。 近期,下载国产AI大模型DeepSeek横空出世,火爆永久伊园甸氶久伊园甸仅以几十分之一的周超成本,就达到与全球领先的过谷歌ChatGPT最新o1版本推理模型相当的实力。目前,下载DeepSeek下载量持续攀升,火爆据研究公司SimilarWeb估计,周超在短短一周内,过谷歌DeepSeek网站的下载用户数量就超过了谷歌的Gemini聊天AI,而后者已经存在了近两年。火爆一时间,周超各界众说纷纭:DeepSeek为什么这么牛?何以如此?是创新还是蒸馏?……诸如此类的疑问频出。 人工智能专家高飞长期跟踪研究ChatGPT与DeepSeek的发展轨迹,他在接受大公报独家专访时,从技术肌理与论文研究原点出发,破译“深度求索”成功的基因密码,揭密DeepSeek低成本、高性能的原因。他还表示,DeepSeek-R1“出圈”,得益于高性能、低成本、强开放三个因素,这与美国闭源、我的徒弟都是大反派笔趣阁收费、高成本的ChatGPT形成鲜明对比。 三大创新凝炼DeepSeek “东方神秘力量” 大公报:DeepSeek是如何实现低成本的? 高飞:DeepSeek的低成本得益于其创新性,它打破了“只有靠最先进硬件才能训练出前沿模型”的传统观念。DeepSeek团队利用有限的资源,通过创新的方式,训练出了以“测试时间计算”方式运行的推理模型,并对标OpenAI最先进的o系列模型,实现了看似“不可能”的“低成本+高性能”极限组合,并提供开源代码,让企业、个人可以在本地算力设施上部署免费使用。所以,它的低成本不是“因”,而是“果”,且是“果”之一。 大模型的“大”,其实是大算力、大参数、大数据。每一个大,都意味着高成本。DeepSeek在约束条件下,做了极限创新,减少算力需求、减少参数数量、降低数据规模。这是在资源上做减法,但却不对性能有任何妥协。所以,DeepSeek不仅“低成本”,还有“高性能”,以及开源模式的“强开放”。 这次OpenAI跟随DeepSeek-R1发布o3 Mini模型,CEO山姆.奥特曼承认其对于开源的判断有误,站在了“历史错误的一边”。言外之意,OpenAI可能也会在未来考虑对其模型全部或者部分开源。因此,DeepSeek-R1模型的成功,不仅是技术创新的成功,更是技术开放的成功。 实现强化学习法 让用家看到“内心戏” 大公报:DeepSeek-R1兼具低成本和超高性能,更在低成本的前提下实现对标OpenAI o系列模型,这究竟是怎么做到的呢? 高飞:DeepSeek-R1模型代表了高性能、新思维的突破。大家知道,OpenAI的o系列模型是一种测试时间计算(Test-Time Computation)模型,模型在推理阶段(Inference Phase)会执行计算的方式。表现在使用上,就是模型不会立刻回答用户的问题,而是根据问题难度,经过一番思考(通常是几十秒),给出高质量答案。 DeepSeek R1使用了一种创新的强化学习(RL)方法,实现了该种模型的训练。最终实现的效果是,当你提问DeepSeek-R1,它看似是最终给你一个答案,但其实模型有大量的“内心戏”,是经过反复推敲、多步思考,最终给出一个相对完美的答案。在学术上,这个过程叫思维链(Chain of thought)。 大公报:可否从技术肌理层面为我们解读,DeepSeek的高性能主要源于何种技术创新呢? 减少消耗分工明确“餐厅模式” 高飞:DeepSeek所拥有的“东方神秘力量”─高性能,主要来自混合专家模型(MoE)、多标记预测(MTP)和多头潜在注意力机制(MLA)等三大技术的创新。其中,MoE技术实现了DeepSeek在参数上的精简。例如,去年底发布的DeepSeek-V3,就是DeepSeek团队采取混合专家模型的模式,将大模型分成多个“专家”子模型,将DeepSeek-V3的671B参数进行拆解,每个子模型的参数量大约只有37B(总参数的1/20),且擅长不同领域的知识。这样,针对不同的输入数据,模型会动态地选择最合适的部分专家来参与计算,自然就减少了资源消耗。 大公报:可以举一个形象的例子,解释一下MoE技术是如何运行的吗? 高飞:训练大模型就像点菜,美国的主流大模型就像一个有100个档口的大牌档,用户点一份披萨,所有厨师、服务生都要动起来。而MoE技术就相当于组织分类,用户同样点一份披萨,西餐档口只调动相应的西餐厨师和服务生,其他档口并不受到扰动,因此忙而不乱,井然有序。从粗放式管理到精细化模式,即专家模式,其实就是提升模型的组织创新力。 同步炮制 后厨“预判式做饭” 高飞:如果说,MoE技术让模型尽可能用更少的参数工作,是空间上的优化,那么MTP技术就是时间上的优化,它让模型用同样的资源做更长期的工作。MTP技术可以让模型不是每次预测生成一个Token(文本拆分的最小单元),而可以在每个位置预测多个未来Token,这就更大程度利用了计算资源,增加了训练信号密度,提高了训练效率。就像让餐厅档口做第一道菜时,就同步准备第二、三道菜,用一份算力做更多工作,将资源利用到极致。 化繁为简 “例汤白饭式”归类 高飞:多头潜在注意力机制(MLA)技术,就是将原始高维特征压缩到一个较低维度的潜在空间(潜在向量),再通过上投影矩阵恢复的技术。打个比方,就是将一段高清视频压缩成较小的文件,却能在播放时基本保持画质。还以餐厅档口为例,过去档口在和顾客交互中要记录每一道菜,而现在把菜单中的菜品抽象汇总分类,计为十碗“例汤”、十碗“白饭”,要记录的信息一下子就少了很多。 DeepSeek团队在训练V3版模型时,还使用了对数据资源节省技术,即“FP8混合精度训练”。FP8是一种比常规大模型训练使用的FP16和FP32更低精度的数据格式,每个数字占用的比特数更少,这使得模型在训练和使用过程中,所需的存储空间和计算量大大减少,效率也就更高。之前大家也不是没想过这种方式,但只有DeepSeek团队真正实现了这一点。 专家剖析DeepSeek技术 谬误1 DeepSeek是在ChatGPT大模型上通过“蒸馏”产生的,这涉及“偷取”知识产权,且任何人都可以以低成本蒸馏出“精华”。 高飞:否。模型蒸馏并不是一项新技术,目前没有任何公司利用蒸馏方法,训练出超过其他模型性能的产品。这两年,拥有高端芯片、强大算力、在ChatGPT上蒸馏数据的模型,不下几十个,没有一个能“跑”出类似的效果,都达不到DeepSeekR1强大的性能。而且,DeepSeek的技术秘密是公开的,它既模型开源,又在原始技术论文中公开了细节。 谬误2 DeepSeek背后是接近50000台英伟达最先进A100芯片在支撑,不可能只用2000块GPU就训练出这么高性能的模型。 高飞:否。DeepSeek的技术论文中清楚地写明了训练模型所需要的GPU数量,DeepSeek团队没有必要在这个数字上作假。目前所有声称“DeepSeek靠五万卡训练模型”的说法,都是坊间猜测,无任何权威出处。 谬误3 DeepSeek模型只受国人追捧,美国有OpenAI、Meta等前沿模型,没有必要用DeepSeek的产品。 高飞:否。近期全球众多大厂纷纷宣布支持DeepSeek的模型,包括亚马逊、英特尔、微软、Perplexity、NVIDIA等。DeepSeek的APP也登顶多个国家的App Store下载排行榜。可以说,DeepSeek在全球范围内都是一个现象级的产品。 强化学习 博采众长 图:人工智能发展一日千里。图为2016年3月9日至15日,人工智能程序“阿尔法围棋”在韩国首尔进行的五番棋比赛中,以4比1的总比分击败韩国九段棋手李世石。\新华社 大公报:我们现在知道,DeepSeek的高性能根本上来自于新算法,即强化学习方法,这似乎和当年Alpha Zero与人类棋手博弈相似,是吗? 高飞:是的。DeepSeek的强化学习,不是新理论。大家最耳熟能详的强化学习模型,应该是谷歌DeepMind的围棋模型Alpha Zero。它之所以叫Zero,是指模型是从零数据开始,通过与自身进行数百万次对弈,积累数据,提升性能。 DeepSeek R1也是这样,通俗地说,它就是人工智能界的“Alpha Zero棋手”,用AI和AI对弈的强化学习方式(而不是学习人类知识行为数据),提高性能。需要说明的是,DeepSeek R1并非单一地运用强化学习方法,而是新老方法并用,博采众长。例如,DeepSeek团队发现模型出现中英文双语混用、答案不易被人理解的现象,所以也使用了传统的监督式学习(SFT),即人类数据辅助优化,让内容输出更友好。 大公报:但谷歌DeepMind八年前就已推出围棋模型Alpha Zero,强化学习法早已有之。在这方面,DeepSeek是否算抄袭了谷歌的技术呢? 高飞:这就是科学、技术、工程的区别了。强化学习技术早有公开论文,大家都可学习借鉴。但科学原理如何在技术和工程上实现,是另一回事。 此外,属于封闭性问题(即有标准答案、可判断胜负)的围棋问题,与处理开放性问题的语言大模型是不同的。这种强化学习技术,并不容易在大语言模型的训练中使用,从去年开始涌现的千百个大模型,都没能取得这方面突破,没能走通这条技术路径。 专家介绍 | 高飞 科技观察家,至顶科技CEO兼总编辑,PEC China(提示工程峰会联合发起人),长期研究人工智能等技术生态的发展规律,并参与了中国云计算产业发展白皮书、中国科协学术场景AI技术应用评测报告等多个产业学术研究的立项编写工作。
- 最近发表
- 随机阅读
-
- 匡琦执教排超两俱乐部,陈方临场水平高!两人谁会成中国女排主帅
- 不满判罚+情绪激动!方硕遭驱逐 下轮自动停赛
- NBA 湖人vs掘金 NBA篮球世界殿堂
- 世界大运会综合:中国射击团体金牌“来之不易” 跳水“梦之队”包揽三金
- 斯诺克最新战报!吴安仪创纪录晋级,8强对手确定,白雨露不打!
- 朗多复出送7助!詹姆斯19+11,库兹马连中2记关键三分拯救湖人!
- CBA历史绝杀!盼盼豹发力见证绝境能量
- 世界大运会综合:中国射击团体金牌“来之不易” 跳水“梦之队”包揽三金
- 张伟丽再度卫冕金腰带!终结对手不败纪录
- 不能只盯着雄鹿!若NBA复赛,篮网有机会战胜雄鹿打进总决赛
- 《态度》之江宁经济技术开发区
- 网游监管较弱 消费需要谨慎
- 范可新:这是我最后一届亚冬会 希望团队在米兰冬奥会取得好成绩
- 世界大运会综合:中国射击团体金牌“来之不易” 跳水“梦之队”包揽三金
- 海皇体育hhb:官方体育APP,海皇帮您玩转球场
- 非洲国家杯阿尔及利亚与突尼斯跻身半决赛
- 新春走基层丨胡集书会“曲山艺海”闹新春
- 花滑名将闫涵微博宣布退役又秒删:有不甘和无奈
- 巴西战胜秘鲁 第九次获美洲杯冠军
- 火箭、雷霆重磅交易 保罗、威少互换东家
- 搜索
-
- 友情链接
-
- 91丨九色丨偷拍老熟女
- 91PORNY
- 91丨PORNY丨东北熟女
- 热门事件黑料不打烊吃
- 黑料门-今日黑料-每日大赛
- 国产91人妻精品一区二区
- 今日吃瓜热门大瓜每日更新
- 九色91POPNY🔥蝌蚪
- 老熟妇-x88AV
- 91啦丨九色丨蚪窝人妻
- 黑料门-今日黑料-最新反差免费
- 91♥️丨PORNY丨成人
- www.91Pron.com
- 91熟女丨老女人丨高潮丰满
- 91丨九色丨农村老熟女按摩
- 91丨国产丨白浆㊙️洗澡吊死
- 黑料吃瓜资源
- 午夜福利吃瓜黑料泄密爆料
- 91熟女丨老女人丨高潮丰满
- 91丨PORNY丨闷骚
- 老熟女91丨PORNY丨露脸
- 吃瓜爆料入口51CG吃瓜
- 吃瓜视频最全观看
- 熟女 - Porn视频
- 91丨露脸丨熟女
- 91丨九色丨海角社区
- 91PORNY九色91肥臀
- 九色91POPNY丨偷拍
- 91蝌蚪91💃👅九色白浆
- 51热门大瓜今日大瓜