尤其值得一提的是，马斯克Grok 4逆天跑分泄露性能碾压对手引发热议

发表评论

A+

所属分类：军事

摘要

马斯克Grok 4逆天跑分泄露性能碾压对手引发热议。马斯克熬夜开发的 Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称，Grok 4 在 HLE（人类最后考试）上的标准得分是 35%，使用推理技术后提高到 45%；在 GPQA 上的得分是 87-88%；而 Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

马斯克Grok 4逆天跑分泄露性能碾压对手引发热议。马斯克熬夜开发的 Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称，Grok 4 在 HLE（人类最后考试）上的标准得分是 35%，利用推理技术后提高到 45%；在 GPQA 上的得分是 87-88%；而 Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

概括一下，

这个跑分结果引起了不少关注。有网友将其与 OpenAI o3 和 Claude Opus 4 等竞争模型进行了对比 EX外汇代理。Grok 4 在 HLE 上的标准得分约为 35%，利用推理技术后提升至 45%，这一成绩比 OpenAI o3 的公开得分高出一倍，是 Claude 4 Opus 的四倍多。HLE 是一个自由回答测试，随机猜测准确率仅约 5%，因此每个百分点的提升都非常困难。

但实际上，

在 GPQA（研究生级物理和天文学难点）上，Grok 4 得分 87-88%，与 OpenAI o3 的顶级表现相当，并明显超过 Claude 4 Opus 的 79.6%。在 AIME '25（2025 年美国数学奥赛）上，Grok 4 得分 95%，远超 Claude 4 Opus 的 75.5%，并略优于 OpenAI o3 的 80-90%（取决于思维模式）。Grok 4 Code 在 SWEBench 的得分与 Claude 4 Opus 的 72.5% 相差不大，略高于 OpenAI o3。而在 Terminal-Bench 上，Claude 4 Opus 领先，得分为 43.2%，xAI 尚未发布 Grok-4 的相关数据。

EC外汇专家观点：

网友讨论最多的是 Grok 4 在 HLE 上达到了惊人的 45%，几乎是 Gemini 2.5 Pro 成绩的两倍。如果泄露的测试结果属实，那么意味着 Grok 4 通过了 AI 基准测试中最艰难的一关。还有网友建议关注「标准」得分，认为这是公开模型的基准，推理得分可能涉及实验性配置。不过，也有网友质疑 Grok 4 的 HLE 分数是否真的这么高，怀疑其中存在难点。@legit_api 回复称，这些数字是真实的，但不清楚具体配置。

目前 Grok 4 泄露的所有基准成绩中，除了 HLE 以外，其他看起来还算合理。HLE 能跑到这么高分确实令人惊讶，毕竟这个基准中包含很多晦涩难懂的信息检索。或许一切都要等待模型正式发布才能有答案。

早在 7 月 1 日，外媒 TestingCatalog 报道，Grok 4 系列模型的相关信息在 xAI 开发者中控台网站上泄露，包括旗舰模型 Grok 4 和编程模型 Grok 4 Code。截图显示，Grok 4 仅承认文本模式，视觉、图像生成及其他作用即将推出。Grok 4 承认约 13 万 tokens 上下文窗口，较许多竞争对手的前沿模型要小，这可能表明 xAI 在优化推理速度和实时可用性方面下了功夫。从作用上 TMGM外汇开户看，Grok 4 将包括函数调用、结构化输出和推理能力。

尤其值得一提的是，马斯克Grok 4逆天跑分泄露性能碾压对手引发热议

有网友还扒出了 xAI 开发者中控台的源代码，这些代码显示，Grok 4 是一个在自然语言、数学和推理方面「拥有无可匹敌的能力」的通才模型，并在当地时间 6 月 29 日完成了训练，其标语为「Think Bigger and Smarter」。Grok 4 Code 则是一款专为编程设计的模型，访客可用直接向它提问代码难点，也可用直接嵌入代码编辑器中。

EC外汇报导：

上个星期，马斯克在推文中表示，他正「通宵达旦地开发 Grok 4」，模型开发「进展良好」但仍需进行「最后一次大规模训练」，特别是在专门代码模型方面。为了这一目标，从上月底进行，马斯克带头在办公室内支起帐篷睡觉，以全身心投入工作。X 的工程师也出面回应了帐篷的难点。

令人惊讶的是，

泄露的分数不仅刺激了广大网友的好奇心，也在刺激着众多 AI 科技公司。虽然马斯克今天没有如之前预测的那样「官宣」Grok 4 开源，但他表示推特上的 Grok 作用有了明显的提升。有网友为此专门去问了 Grok，它认为 7 月更新是 Grok 4，但不完整。再加上 Benchmark 成绩已经曝光，或许 Grok 4 过几天就要正式发布了。如果成绩属实，不管是架构的创新还是规模的扩展，Grok 都将推动一波 AI 大模型的发展，让咱们拭目以待。

有分析指出，

网上不良信息举报电话：010-56177181 军事频道商务合作热线：13581877125 执行主编：杨靖

EC外汇消息：

大家常常忽略的是，

发表评论取消回复