海外评测DeepSeek-V4：智能体任务排名开源第一，幻觉率上升，Token消耗大

海外评测DeepSeek-V4：智能体任务排名开源第一，幻觉率上升，Token消耗大：Pro幻觉率为94%、V4-Flash幻觉率为96%，意味着模型在未知问题场景下，几乎都会强行生成答案。 DeepSeek-V4的运行成本低于顶级闭源模型，高于主流开源模型，较前代大幅上涨。完成全套人工分析智能指数测评，V4-Pro触手play 3D里番无码全集的运行成本为1071美元，

图表：海外评测DeepSeek-V4：智能体任务排名开源第一，幻觉率上升，Token消耗大的核心数据分布

每经编辑｜兰素英 4月24日， DeepSeek-V4预览版正式发布并同步开源，号称在Agent能力、世界知识与推理性能三大维度达到国内及开源领域领先水平。 DeepSeek-V4分为Pro与Flash两个版本，均支持百万（1M）token超长上下文。两个版本均大幅降低了对计算和显存的需求，将每个标记的推理FLOP降低 73%，并将KV缓存内存占用降低90%。 4月24日，全球最大AI模型应用程序编程接口聚合平台OpenRouter的数据显示，V4-Flash的调用量达270亿Token，V4-Pro为47.9亿Token，但没有登上排行榜。 DeepSeek-V4发布后，主流评测平台进行了能力测试和排名。 Artificial Analysis对DeepSeek-V4进行了推理能力专项测评。结果显示，V4-Pro在人工分析智能指数中斩获52分，相较V3.2版本的42分实现10分跃升，成为仅次于Kimi K2.6的全球第二大开源推理模型。 V4-Flash得分47分，性能弱于V4-Pro，但显著超越DeepSeek-V3.2，综合智能水平对标Claude Sonnet 4.6（全力版），介于顶尖闭源模型与主流中端模型之间。在智能体任务表现方面，V4-Pro在真实场景智能体工作任务中，性能位居所有开源权重模型首位，得分1554，超越Kimi K2.6（1484）、GLM-5.1（1535）、GLM-5（1402）以及MiniMax-M2.7（1514）。 DeepSeek-V4知识储备升级，但幻觉发生率上升。V4-Pro在全知综合评测指标（AA-Omniscience）中得分为-10，较V3.2推理版提升11分，核心得益于知识回答准确率的显著优化。V4-Flash得分为-23，整体水平与V3.2基本持平。相较于V3.2的幻觉率（82%），V4两款模型的幻觉问题突出：V4-Pro幻觉率为94%、V4-Flash幻觉率为96%，意味着模型在未知问题场景下，几乎都会强行生成答案。 DeepSeek-V4的运行成本低于顶级闭源模型，高于主流开源模型，较前代大幅上涨。完成全套人工分析智能指数测评，V4-Pro的运行成本为1071美元，仅不到Claude Opus 4.7（4811 美元）的四分之一；但对比同类开源模型仍偏高，高于Kimi K2.6（948 美元）、GLM-5.1（544美元）、DeepSeek-V3.2（71美元）、gpt-oss-120B（67 美元）。DeepSeek-V4-Flash运行成本仅约113美元，成本优势显著。完成标准测评流程，V4-Pro输出Token消耗量达1.9亿，属于本次测评中Token消耗最高的模型之一；V4-Flash消耗进一步攀升至2.4亿Token。即便定价偏低，高额的Token消耗仍是V4-Pro综合使用成本高于其他开源模型的核心原因。在其他评测中，大模型竞技场Arena.ai将DeepSeek-V4-Pro定性为“相较DeepSeek-V3.2的重大飞跃”，在其代码竞技场中位列开源模型第3位、综合第14位。DeepSeek-V4-Pro在智能体网页开发任务中与GPT-5.4-high和Gemini-3.1-Pro处于同一水平。在其文本竞技场中，DeepSeek-V4-Pro位列开源模型排名第2、综合第14，与Kimi-2.6持平。DeepSeek-V4-Flash位列开源模型排名第10、综合第14。另一家测评方Vals AI称，DeepSeek-V4在其Vibe Code Benchmark（氛围代码基准）中以“压倒性优势”拿下开源权重模型榜首，较上代V3.2实现约10倍性能跃升，甚至击败了像Gemini 3.1 Pro这样的顶尖闭源模型。DeepSeek-V4也是唯一一个在Vibe Code Benchmar上突破40%的开源权重模型。相较于DeepSeek-V4的能力，海外更加关注DeepSeek与华为的合作。在DeepSeek-V4公布API价格信息的最下方，官方特别标注指出：“受限于高端算力，目前Pro的服务吞吐量十分有限，预计下半年昇腾（Ascend）950超节点批量上市后，Pro的价格会大幅下调。” DeepSeek在技术报告中称，V4已在NVIDIA GPU和华为昇腾NPUs平台上验证了精细粒度的EP（专家并行）方案，相较于强大的非融合基线，其在通用推理任务上可实现1.50~1.73倍的加速效果，而在对时延敏感的场景（如RL推演和高速代理服务）中则可达到1.96倍的加速效果。而在V4发布后，华为昇腾也同步宣布“超节点全系列产品支持DeepSeek-V4系列模型”。据悉，昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销，大幅提升推理性能，结合多种量化算法，实现了高吞吐、低时延的DeepSeek-V4模型推理部署。对于DeepSeek此次与华为合作，市场研究机构Omdia半导体研究主管何辉表示：“这对中国人工智能行业而言意义重大。” 他进一步说道：“华为昇腾芯片是中国自研水平最高、可替代英伟达的产品。DeepSeek-V4大模型适配搭载华为芯片，标志着中国顶级大模型如今已能够实现国产化硬件落地运行。” 高盛分析师Christ触手play 3D里番无码全集opher Moniz点评称，DeepSeek-V4预览版发布后，GPU及国产芯片板块应声走强。核心关注点之一是支撑V4模型的芯片底层架构：包括模型训练所使用的芯片，以及推理阶段搭载的硬件设备。华为搭载昇腾AI处理器的新一代人工智能计算集群，可适配运行DeepSeek-V4模型。这也意味着，中国自研AI硬件生态，正在为DeepSeek持续迭代前沿大模型提供算力支撑。 DeepSeek此次技术

综上所述，在2026-05-20 07:48:41的发展中起到了关键作用。

海外评测DeepSeek-V4：智能体任务排名开源第一，幻觉率上升，Token消耗大

深度专题

印度信实公司顾问因涉嫌无人机进口贿赂案在印度被捕

实时快讯

沪市公司挖掘消费“新动能” 引领行业新趋势

四环医药：安奈拉唑钠新适应症获批开展III期临床试验

内容矩阵