Linuxcat周刊(第27期) DeepSeek 使用了比 CUDA 更底层的 Nvidia PTX 进行编程

封面图

美国华盛顿空难已打捞出28具遇难者遗体，其中客机上27具，直升机上1具。当局推测已无人生还，现场工作重心将转至遗体打捞。
美国航空CEO罗伯特·艾索姆表示“不知道军机为何会进入PSA航班的航道”。
via

正文

1 DeepSeek 使用了比 CUDA 更底层的 Nvidia PTX 进行编程

DeepSeek 高效突破是通过实施大量细粒度优化和使用 Nvidia 的汇编式语言 PTX (并行线程执行) 编程而不是标准的 CUDA 实现的。PTX 是 Nvidia 为其 GPU 设计的中间指令集架构，位于高级 GPU 编程语言 (如 CUDA C/C++ 或其他语言前端) 和低级机器代码 (流式汇编或 SASS) 之间。它将 GPU 公开为数据并行计算设备，因此允许细粒度优化，例如寄存器分配和线程/warp 级别调整，这是 CUDA C/C++ 和其他语言前端无法实现的。
在训练其 V3 模型时，DeepSeek 重新配置了 H800 GPU：在 132 个流式多处理器中，它分配了 20 个用于服务器间通信，可能用于压缩和解压数据，以克服处理器的连接限制并加快速度。为了最大限度地提高性能，DeepSeek 还实现了高级管道算法，可能是通过进行超精细的线程/warp 级别调整。这些修改远远超出了标准 CUDA 级开发，维护起来非常困难，这种级别的优化反映了 DeepSeek 工程师的卓越技能。

消息来源: Tom’s Hardware | 风向旗参考快讯

2 “人类终极考试”基准测试发布：顶级AI系统表现惨淡，准确率均未超10%

非营利组织“人工智能安全中心”（CAIS）与Scale AI联合推出名为“人类终极考试”的新型基准测试，旨在评估前沿AI系统的综合能力。该测试由来自50个国家500多个机构的近1000名学科专家出题，涵盖数学、人文学科和自然科学等领域，题目形式多样，包括结合图表和图像的复杂题型。
初步研究显示，所有公开可用的旗舰AI系统在该测试中的回答准确率均未超过10%，表明当前AI技术在应对复杂、综合性问题时仍存在明显短板。CAIS和Scale AI计划向研究社区开放该测试，以帮助评估新开发的AI模型。

消息来源: HLE | 科技圈🎗在花频道

3 RTX 5090D 性能分析功耗+30%，性能+30%

多个跑分软件如Time Spy ，Fire Strike Extreme等较4090提升约36%。Port Royal光追性能测试较上代提升44%。跑分时功耗较上代提升约35%左右，峰值功耗约577W。
游戏光追方面，在DLSS 4加持下游戏帧数暴涨约2倍，开启DLSS 4画质并无明显变化，延迟略微增加。关闭DLSS部分游戏（2077，黑神话·悟空）性能较上代提升约40%，其余游戏提升约20%-30%。
AI大模型方面，通义千问2.5模型下 3B 7B 14B均较上代提升约40%。
多媒体软件如达芬奇等导出时间略微快于苹果M2 Ultra。

消息来源: 笔吧评测室 | 影视飓风 | | 科技圈🎗在花频道

4 DeepSeekV3训练成本不及Meta高管薪资，DeepSeek使行业质疑千亿美元支出效用

1月24号，一条发布在匿名平台teamblind上的帖子疯传。一名Meta员工称，现在Meta内部因为DeepSeek的模型，已经进入恐慌模式。
这位Meta员工写道：“一切源于DeepSeek-V3的出现，它在基准测试中已经让Llama 4相形见绌。更让人难堪的是，一家‘仅用550万美元训练预算的中国公司’就做到了这一点。工程师们正在争分夺秒地分析DeepSeek，试图复制其中的一切可能技术。这绝非夸张。管理层正为GenAI研发部门的巨额投入而发愁。当部门里数10位高管其中之一的薪资就超过训练整个DeepSeek V3的成本。

消息来源: 新浪科技 | 华尔街日报 | 宝玉 | 科技圈🎗在花频道

5 中国人工智能实验室 DeepSeek 拥有 50000 个 H100 GPU

Scale AI 创始人兼首席执行官 Alexandr Wang 分享了该公司名为“人类的最后考试”的最新 AI 测试的细节，该测试使用“数学、物理、生物、化学教授”提供的与最新研究相关的“最难的问题”。中国人工智能实验室 DeepSeek 的模型 R1 在 Scale AI 公司最具挑战性的人工智能测试中达到或击败了所有表现最佳的模型，或大致与美国最好的模型 o1 相当。
Alexandr 表示，对于中国是否能获得先进 GPU 这个问题，“现实情况是既可以又不能。中国实验室拥有的 H100 数量比人们想象的要多。”他补充说，据他了解，“DeepSeek 拥有大约 50,000 个 H100。”他补充道，“他们显然不能谈论这个问题，因为这违反了美国实施的出口管制。”然而，该公司可能会发现很难采购更多芯片，“从长远来看，他们将受到芯片管制和出口管制的限制。”

消息来源: wccftech | 科技圈🎗在花频道

6 Meta Llama框架漏洞致AI系统面临远程代码执行风险

Meta Llama大型语言模型框架存在高危漏洞（CVE-2024-50050），攻击者可通过反序列化恶意数据远程执行代码，影响使用ZeroMQ网络接口的推理服务器。
Meta于2024年10月发布0.0.41版本修复该问题，将序列化格式从pickle切换为JSON，消除潜在风险。同期OpenAI ChatGPT爬虫也被曝出可被滥用于发起DDoS攻击的漏洞。
研究显示，AI框架安全威胁持续升级，此前TensorFlow Keras因marshal模块漏洞暴露类似风险，LLM技术正被用于增强网络攻击全生命周期。

消息来源: The Hacker News | 科技圈🎗在花频道

7 阿里Qwen 2.5-Max超大规模MoE模型发布

1月29日凌晨，阿里云公布了其全新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型，该模型预训练数据超过20万亿 tokens。目前开发者可在 Qwen Chat 平台免费体验模型，企业和机构也可通过阿里云百炼平台直接调用新模型 API 服务。在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中，Qwen2.5-Max 表现超越了 DeepSeek V3，同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。阿里云的基座模型在大多数基准测试中都展现出了显著的优势。阿里云称随着后训练技术的进步，下一个版本 Qwen2.5-Max 将会达到更高水平。

消息来源: 通义千问 | 风向旗参考快讯

8 谷歌利用 AI 为用户拨打本地商家电话

谷歌正在测试一款新工具，让 AI 代替用户致电商家询问问题。这项名为“Ask for Me”功能可收集有关服务价格和可用性的信息，但目前仅适用于美甲沙龙和汽车修理店。
在谷歌搜索实验室启用实验后，在搜索中寻找本地美甲沙龙或汽车修理店时，用户可能会看到“Ask for Me”提示。选择该选项后，谷歌将会提出一系列问题，比如是否需要换油或更换轮胎、车是什么类型，以及希望何时预约。用户需要输入电子邮件地址或电话号码用于接收更新信息。商家可以在Google商家资料设置中选择不接收 AI 电话。

消息来源: The Verge | 风向旗参考快讯

Linuxcat周刊

#AI #Nvidia

Linuxcat周刊(第27期) DeepSeek 使用了比 CUDA 更底层的 Nvidia PTX 进行编程

https://mmeiblog.cn/weekly/2025-3/index.html

作者

mei

发布于

2025年1月31日

许可协议

2024年度总结上一篇

Linuxcat周刊(第27期) DeepSeek 使用了比 CUDA 更底层的 Nvidia PTX 进行编程

封面图

正文

1 DeepSeek 使用了比 CUDA 更底层的 Nvidia PTX 进行编程

2 “人类终极考试”基准测试发布：顶级AI系统表现惨淡，准确率均未超10%

3 RTX 5090D 性能分析 功耗+30%，性能+30%

4 DeepSeekV3训练成本不及Meta高管薪资，DeepSeek使行业质疑千亿美元支出效用

5 中国人工智能实验室 DeepSeek 拥有 50000 个 H100 GPU

6 Meta Llama框架漏洞致AI系统面临远程代码执行风险

7 阿里Qwen 2.5-Max超大规模MoE模型发布

8 谷歌利用 AI 为用户拨打本地商家电话

3 RTX 5090D 性能分析功耗+30%，性能+30%