专题中心

海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大

海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大:Pro幻觉率为94%、V4-Flash幻觉率为96%,意味着模型在未知问题场景下,几乎都会强行生成答案。 DeepSeek-V4的运行成本低于顶级闭源模型,高于主流开源模型,较前代大幅上涨。完成全套人工分析智能指数测评,V4-Pro触手play 3D里番 无码全集的运行成本为1071美元,

图表:海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大的核心数据分布

每经编辑|兰素英 4月24日, DeepSeek-V4预览版正式发布并同步开源,号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。 DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。 两个版本均大幅降低了对计算和显存的需求,将每个标记的推理FLOP降低 73%,并将KV缓存内存占用降低90%。 4月24日,全球最大AI模型应用程序编程接口聚合平台OpenRouter的数据显示,V4-Flash的调用量达270亿Token,V4-Pro为47.9亿Token,但没有登上排行榜。 DeepSeek-V4发布后,主流评测平台进行了能力测试和排名。 Artificial Analysis对DeepSeek-V4进行了推理能力专项测评。结果显示,V4-Pro在人工分析智能指数中斩获52分,相较V3.2版本的42分实现10分跃升,成为仅次于Kimi K2.6的全球第二大开源推理模型。 V4-Flash得分47分,性能弱于V4-Pro,但显著超越DeepSeek-V3.2,综合智能水平对标Claude Sonnet 4.6(全力版),介于顶尖闭源模型与主流中端模型之间。 在智能体任务表现方面,V4-Pro在真实场景智能体工作任务中,性能位居所有开源权重模型首位,得分1554,超越Kimi K2.6(1484)、GLM-5.1(1535)、GLM-5(1402)以及MiniMax-M2.7(1514)。 DeepSeek-V4知识储备升级,但幻觉发生率上升。V4-Pro在全知综合评测指标(AA-Omniscience)中得分为-10,较V3.2推理版提升11分,核心得益于知识回答准确率的显著优化。V4-Flash得分为-23,整体水平与V3.2基本持平。 相较于V3.2的幻觉率(82%),V4两款模型的幻觉问题突出:V4-Pro幻觉率为94%、V4-Flash幻觉率为96%,意味着模型在未知问题场景下,几乎都会强行生成答案。 DeepSeek-V4的运行成本低于顶级闭源模型,高于主流开源模型,较前代大幅上涨。完成全套人工分析智能指数测评,V4-Pro的运行成本为1071美元,仅不到Claude Opus 4.7(4811 美元)的四分之一;但对比同类开源模型仍偏高,高于Kimi K2.6(948 美元)、GLM-5.1(544美元)、DeepSeek-V3.2(71美元)、gpt-oss-120B(67 美元)。DeepSeek-V4-Flash运行成本仅约113美元,成本优势显著。 完成标准测评流程,V4-Pro输出Token消耗量达1.9亿,属于本次测评中Token消耗最高的模型之一;V4-Flash消耗进一步攀升至2.4亿Token。即便定价偏低,高额的Token消耗仍是V4-Pro综合使用成本高于其他开源模型的核心原因。 在其他评测中,大模型竞技场Arena.ai将DeepSeek-V4-Pro定性为“相较DeepSeek-V3.2的重大飞跃”,在其代码竞技场中位列开源模型第3位、综合第14位。DeepSeek-V4-Pro在智能体网页开发任务中与GPT-5.4-high和Gemini-3.1-Pro处于同一水平。在其文本竞技场中,DeepSeek-V4-Pro位列开源模型排名第2、综合第14,与Kimi-2.6持平。DeepSeek-V4-Flash位列开源模型排名第10、综合第14。 另一家测评方Vals AI称,DeepSeek-V4在其Vibe Code Benchmark(氛围代码基准)中以“压倒性优势”拿下开源权重模型榜首,较上代V3.2实现约10倍性能跃升,甚至击败了像Gemini 3.1 Pro这样的顶尖闭源模型。DeepSeek-V4也是唯一一个在Vibe Code Benchmar上突破40%的开源权重模型。 相较于DeepSeek-V4的能力,海外更加关注DeepSeek与华为的合作。 在DeepSeek-V4公布API价格信息的最下方,官方特别标注指出:“受限于高端算力,目前Pro的服务吞吐量十分有限,预计下半年昇腾(Ascend)950超节点批量上市后,Pro的价格会大幅下调。” DeepSeek在技术报告中称,V4已在NVIDIA GPU和华为昇腾NPUs平台上验证了精细粒度的EP(专家并行)方案,相较于强大的非融合基线,其在通用推理任务上可实现1.50~1.73倍的加速效果,而在对时延敏感的场景(如RL推演和高速代理服务)中则可达到1.96倍的加速效果。 而在V4发布后,华为昇腾也同步宣布“超节点全系列产品支持DeepSeek-V4系列模型”。据悉,昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek-V4模型推理部署。 对于DeepSeek此次与华为合作,市场研究机构Omdia半导体研究主管何辉表示:“这对中国人工智能行业而言意义重大。” 他进一步说道:“华为昇腾芯片是中国自研水平最高、可替代英伟达的产品。DeepSeek-V4大模型适配搭载华为芯片,标志着中国顶级大模型如今已能够实现国产化硬件落地运行。” 高盛分析师Christ触手play 3D里番 无码全集opher Moniz点评称,DeepSeek-V4预览版发布后,GPU及国产芯片板块应声走强。核心关注点之一是支撑V4模型的芯片底层架构:包括模型训练所使用的芯片,以及推理阶段搭载的硬件设备。华为搭载昇腾AI处理器的新一代人工智能计算集群,可适配运行DeepSeek-V4模型。这也意味着,中国自研AI硬件生态,正在为DeepSeek持续迭代前沿大模型提供算力支撑。 DeepSeek此次技术

综上所述,在2026-05-20 07:48:41的发展中起到了关键作用。

深度专题

印度信实公司顾问因涉嫌无人机进口贿赂案在印度被捕

2026-05-20 07:14:41 阅读量 {随机数字}

实时快讯

内容矩阵

足坛名宿彭伟国出任广西恒宸俱乐部总经理 摩根士丹利财报表现强劲后再度发债 摩根大通拟发债融资至少70亿美元 酒价内参4月24日价格发布:五粮液普五八代下跌3元 (经济观察)万商云集广交会 折射中国外贸新气象 长春国企改革提质增效 为城市高质量发展注入新动能 国内首艘万吨级纯电动智能船从宁波舟山港首航 泰国央行下调2026年经济增长预期 称若战争持续最坏情况将没有下限 马斯克加快筹备Terafab半导体项目,特斯拉官方正为其招揽人才 自然资源部海啸预警中心:日本地震不会对我国沿岸造成影响 4倍牛股广生堂定增方案两轮问询后大调整:募资额缩减超2.5亿元,中药项目被剔除 《全球滨海湿地大科学计划》倡议在广州发布 利剑斩“幽灵” 铁拳护民生 ——市场监管总局依法查处7家电商平台“幽灵外卖”系列案纪实