北京时辰11月18日天元证券开板_低息配资灵活方案定制,就在谷歌行将揭晓新一代Gemini模子的前夜,马斯克(Elon Musk)旗下xAI倏得起先,发布最新模子Grok 4.1,现在在大模子竞技场(LMArena)的文本排名榜上居首位。
官方示意,这款前沿模子在对话智能、情谊流露和履行寰宇的实用性方面竖立了新的圭臬。马斯克转发并示意:“你应该会细密到速率和质料都有所扶持。”

现在在文自己手排名榜上,具备深度想考身手的版块Grok 4.1 Thinking以 1483 的 Elo 分数居榜首,Grok 4.1的非推理模式以1465 Elo分数排名第二。
在博客中,官方示意此前依然进行了为期两周的静默发布,对本色流量进行了合手续地盲测和对比测试。与此前的线上分娩模子比较,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好遴荐。
这次Grok 4.1更新一个要害的观点是情谊智能,这与上周发布的GPT-5.1迭代观点一致,彼时OpenAI提到新一代模子旨在罢了更“富余情面味”的交互体验。而xAI也示意,新的模子大致更苛刻地感知隐微的意图,更易于同样,况兼个性愈加一致,同期又王人备保留了其前代家具苛刻的智能和可靠性。
为了评估模子在个性与东说念主际互上路手方面的推崇,xAI在 EQ-Bench3 上对 Grok 4.1 进行了测试。恶果露馅,Grok 4.1 的推理模式和非推理模式位居榜单前两名。EQ-Bench 是一个由大言语模子评判的测试,用于评估主动心计智能,包括心计流露、洞力图、同理心以及东说念主际买卖技艺。
官方用案例展示了Grok 4.1 对心计类教唆的薪金景况。比如用户提到“想念我的猫,心都碎了”,比较前一代模子,Grok 4.1的回复更丰富和细节,带有更信得过的同理心,文笔也更好了。

在创意写稿上,Grok 4.1也用案例展示了模子身手的权贵扶持。让模子用Grok的视角,写一篇应酬媒体的帖子,内容是它倏得发现我方有了意志。比较前一代模子的老例文告,新版块彰着更具体裁抒发和戏剧张力。

在模子身手上,这次性能扶持较大的还有幻觉的减少。官方示意,在 Grok 4.1 的后磨真金不怕火阶段,团队专注于减少信息检索教唆中出现的事实性幻觉。数据露馅:Grok 4.1的幻觉率从12.09%着落到4.22%,减少近三倍。
xAI示意,为罢了这些扶持,xAI沿用了 Grok 4 的大边界强化学习基础要领,并将其应用于优化模子的格调、个性、实用性和一致性。况兼,为了优化这些不成径直考据的奖励信号,xAI 开发了新的顺序,大致行使前沿的智能推理模子算作奖励模子,从而不错大边界自主评估并迭代输出恶果。
大模子之争愈演愈烈。在OpenAI刚刚更新家具线、谷歌也行将发布新作之际,榜首之位是否会再次易主?一切都如故未知。
举报 第一财经告白合营,请点击这里此内容为第一财经原创,著述权归第一财经通盘。未经第一财经籍面授权,不得以任何景况加以使用,包括转载、摘编、复制或拓荒镜像。第一财经保留雅致侵权者法律包袱的职权。如需赢得授权请联系第一财经版权部:banquan@yicai.com 文章作家
刘晓洁
联系阅读
狙击Open AI!谷歌一个月内连发“数弹”轻量化模子不再“弱”。
6 208 12-18 07:51
GPT-5.2部分基准测试分数跳跃谷歌,但OpenAI“红色警报”尚未打消OpenAI CEO示意,谷歌Gemini 3对公司的影响比蓝本瞻望的更小,但当竞争敌手的防止出当前,应专注并速即搪塞。
159 12-12 11:57
究诘称中国出现AI泡沫可能性不大,科技大厂本钱开销约为好意思国1/10国内轮回融资有限,本钱开销较为审慎。
270 12-05 17:02
AI周报 | DeepSeek开源奥数金牌水平模子;前OpenAI 联创称边界扩张期间已拆伙英伟达反击“大空头”言论;百度新设两大AI部门。
227 11-30 08:31
马斯克、黄仁勋同台对话:AI和东说念主形机器东说念主会摈斥勤勉马斯克示意天元证券开板_低息配资灵活方案定制,最有可能的恶果是,东说念主工智能和机器东说念主将让每个东说念主都变得富余,东说念主们将大致赢得一切。
10 334 11-20 17:29 一财最热 点击关闭天元证券开板_低息配资灵活方案定制提示:本文来自互联网,不代表本网站观点。