江苏宝运莱官方网站机械有限公司
您当前的位置 : 宝运莱官方网站 > 机械自动化 >


DeepSeek 绕过 CUDA。。。

2025-04-03 16:29

  DeepSeek 利用配备 2048 块 英伟达 H800 GPU 的 集群,正在 短短 大约两个月的时间里锻炼出了含 有 6710 亿个参数的夹杂专家( MoE )言语模子, 其效率比 Meta 等 AI 行业领先者超出跨越 10 倍 ,从而 正在 AI 行业 掀起了一阵 惊动。Jukanlosreve 援用的韩国将来资产证券公司(Mirae Asset Securities Korea)的一份阐发演讲称,这一冲破是通过实施大量细粒度优化和利用英伟达雷同汇编言语的 PTX(并行线程施行)编程架构,PTX 介于更高级的 GPU 编程言语(好比 CUDA C/C++或其他言语前端)和初级机械码(流汇编或SASS)之间。PTX 是一种接近裸机的 ISA,它将 GPU 为一种数据并行计较设备,因而答应细粒度优化,好比寄放器分派和线程/线程束级别调整,这是 CUDA C/C++ 及其他言语无法实现的。好比说,正在锻炼 V3 模子时,DeepSeek 从头设置装备摆设了英伟达的 H800 GPU:正在 132 个流多处置器中,它分派了 20 个用于办事器到办事器的通信,可能用于压缩息争压缩数据,以降服处置器的毗连,为了最大限度地提拔机能,可能通过进行更精细的线程/线程束级别调整来实现。全球 GPU 欠缺加上美国像 DeepSeek 如许的公司采用立异的处理方案,而 DeepSeek 如愿取得了冲破。这一严沉冲破了市场,新的 AI 模子对高机能硬件的需求将随之下降,从而会损害英伟达等公司的发卖额。英特尔前首席施行官 Pat Gelsinger 等业内资深人士认为,AI 等使用能够充实操纵它们所能获得的所有计较能力。至于 DeepSeek 的冲破,Gelsinger 认为,这是将 AI 引入到公共市场上一多量廉价设备的一种体例。




建湖宝运莱官方网站科技有限公司

2025-04-03 16:29


标签

本文网址:

近期浏览:本新闻您曾浏览过!

相关产品

相关新闻



0515-68783888

免费服务热线


扫码进入手机站


网站地图 |  | XML |       © 2022 Copyright 江苏宝运莱官方网站机械有限公司 All rights reserved.  d25f324a-5149-4fe5-b916-0dbe332c8bd0.png

  • 网站首页
  • 咨询电话
  • 返回顶部