当前位置：首页 > 今日话题

增强版Claude3.5正式上线，一句话操控电脑的时期真的要来了。最先新模子升级版Claude3.5Sonnet

最先新模子升级版Claude3.5Sonnet 。增强e正

Claude的式上时期模子一直分为三个尺寸，离别是线句Opus 、Sonnet、话操Haiku 。控电从大到小。增强e正

3月的式上时期时刻，Claude正式推出Claude3代的线句全系模子，从Opus到Haiku都有。话操

嗣后6月的控电时刻推出了Claude3.5Sonnet，只推了这一个，增强e正没有3.5Opus和Haiku ，式上时期参见这篇文章:我体验完刚宣布的线句Claude3.5，发现最强的话操是这个新性能。

事先刻Claude3.5Sonnet的控电威力就吊打了旧的最大参数的模子。

而昨天，推送的是升级版的Claude3.5Sonnet ，另有新的Claude3.5Haiku。

有味的是，Claude3.5Haiku照样后训的，学问停止时刻是7月，而升级版Claude3.5Sonnet学问时刻并没有变，也就是加了更多的增强学习的剖析数据以及“算计机掌握”的训练。

而Claude3.5Sonnet的总体性能上，基础睥睨群雄。

不论是推理、日本招聘照样本科的学问、照样编程威力啥的，都是No.1 ，而且Claude的跑分不像许多模子那种刷榜，他的跑分是真的可信的。

我置信6月Claude3.5Sonnet上线后，直接一波科技跃迁，带着cursor之类的A编程一波仙游，就不会有一切人会疑心Claude的代码威力了吧。

最尤其的评测基准实际上是谁人第七行的SWE-bench Verified，也许就是尝试写代码解决问题的真正威力，这个评测基准是8月份OpenAI提的，嗣后这波Claude3.5直接把这个基准加在自身的跑分里。

GPT4o在这项的跑分是33.2%，o1不知晓。

然则按Claude的话说，o1是个甚么脏用具，意外识。

而新版的Claude3.5Sonnet ，暂时也在Claude官网上上线了。

能够看到有了new的标签。

我直接发了最简朴的一句话:给我天生一个异常优美的俄罗斯方块游戏。

嗣后，升级版Claude3.5Sonnet，日本劳务就最先嘟嘟嘟的天生。

直接一次性天生了280行代码，而且这个游戏，是真的能够直接玩的。。

也能够直接让它天生一个随时可调可互动的动效师法器，完全转变学习形式。

就，异常的酷。

其次是Claude3.5Haiku。

这个实在就没太多可说的了，通例升级，然则是暂时最快、性价比最高的模子。

在跟Claude3Haiku的相同利润和速率下，直接击败了参数目最大的Claude3Opus 。

在编码恣意上，居然能直接战胜没升级前的Claude3.5Sonnet，这个是最离谱的。

只能说，Anthropic的增强学习范式走的照样太超前了，剖析数据的质量真实是太高太高了。

那最终，也是最重磅的一点，Claude的“computer use”，也就是新性能，算计机掌握。

这个点就异常的科幻，能够适时候析用户算计机屏幕上的运动，并自主执行在线恣意，譬如阅读、点击和输入。

我直接放一个民间case吧。

Anthropic是这样形容这个“算计机掌握”的性能的:“Claude3.5Sonnet能够遵循用户的下令在算计机屏幕上移动光标，点击有关位子，并通过虚拟键盘输入信息，师法人们与自身算计机的互动形式。”

这，就是一个能明白用户用意，并帮他自主完成的真正的Agent 。

之前的Agent ，说真话，看下来更像一个RPA ，就是依据预设好的职责流，一步一步的执行下去，然则真正的Agent应该是甚么样?

在我眼里，他就应该跟人一致，能明白你的庞杂语义，把这个庞杂语义具象成可执行的方法，就像我说现在“早晨3点半了我太困了，然则文章尚无写完，你帮我看看左近有无咖啡买，有的话帮我买一杯，没有的话就算了。”

要是是小我私家，那一定是会关上美团外卖也许饿了么，看看左近有无咖啡店开着，要是有开着的，看看我最喜欢喝的冰美式有无的，没有冰美式的话问我一句要换甚么口胃?嗣后下单，守候投递。

要是3点半左近都关门了，那也应该通知我，左近没卖的了，哥们你自身撑一撑吧，一会就能够睡了。

这才是AI，这才是咱们身旁，能退出到著绅士生涯中的，最酷的AI助手。

而这种AI助手，它一定，需要学会支配手机也许电脑。

咱们不只要让AI学会写文章，学会绘图，也要让他学会支配。

这样，能力有很强的，自主钻研、解决问题的泛化威力。

而升级版Claude3.5 ，只是在一些简朴软件长停止了训练，就有了支配一些不庞杂软件的威力，以至还会自我纠错，一直重试，这又未尝不是一种增强学习、自我博弈呢?

Anthropic ，真的吧Self-Play玩出花了。

暂时，在尝试开辟者让模子运用算计机的一个基准评价（OSWorld）中，Claude 暂时得分为14.9%。

而人类水准一般是70-75% ，纵使差异很大，另有一些路要走，但已经远高于暂时其余最佳AI模子的7.7%这个分数了。

只是现在这特性能著名用户还用不到，只对开辟者停止绽放，有API接入，Anthropic的良心是还在前期尝试阶段，怕有危险，因而闪开辟先助手尝试一下。

咱们也花了N久时刻，把API接入进来，做了一些简朴的尝试。

先装了一个相似于师法系统的用具，一切言论都邑在这个师法系统里运转，Anthropic照样怕对你的系统会有一个不心爱化的损伤作用。

我测了许多个case，然则说真话，一是速天真实太磨叽了...二是顺利率，真实另有点低下。

譬如这个案例:“关上淘宝网站页面，找到小米手机民间旗舰店，找一个2000左右的手机，加到购物车。”

实在不算难，说真话。

然则Claude翻车了，翻车的点也很搞笑，是在输入店名上，人明显叫小米民间旗舰店，它非要写“方店”，前面又试了一次，这次连两个字都不写了，直接写了一个字“舰” ，这能搜到才有鬼了...

而且，这个视频我已经两倍速了，你们能够体验一下它有多慢。。

只是，让他玩2048，它玩的倒长短常的快乐。这一次，是三倍速。

玩的还挺好，我觉得在这放着，他一小我私家能玩到天荒地老。

这倒也是挺有味的。

自然，也能做一些很现实的事务，譬如给我的阅读器装一个能够屏障广告的插件。

他居然把插件所在背下来了，直接输入，给我搜寻+装置一步到位。

腾飞。

纵使总体恣意的顺利率还较为正常，然则还好，终于Claude自身也说了，顺利率没那末高。

而且，这只是第一代。

他们深信，使模子顺应工具，这是一定，而模子也能够融入咱们天天运用的情况里，成为咱们生涯的各个方面。

他们的宗旨是让Claude运用现有的算计机软件，就像人一致。

就像人一致。

真好。

指望这个愿景，能在不远的未来完毕。

我真的，很想拥有一个自身的。

贾维斯。

以上，既然看到这里了，要是以为不错，随手点个赞、在看、转发三连吧，要是想第一时刻收到推送，也能够给我个星标⭐～谢谢你看我的文章，咱们，下次再见。

>/ 作者:卡兹克、东毅

增强版Claude3.5正式上线，一句话操控电脑的时期真的要来了。最先新模子升级版Claude3.5Sonnet

相关推荐

广州中考政策，定了

海信宣布电视行业自研星海大模子

外国专家：欧盟关税“高墙”剥夺消费者选择，阻碍绿色转型｜世界观

烏克蘭議會批准延長戰時狀態和總動員令90天

伊朗港口爆炸死亡人数升至40人

30cm的诱惑：北证A股超两成公司15天股价翻倍，10倍牛股巨震一日蒸发42亿元

增强版Claude3.5正式上线 ，一句话操控电脑的时期真的要来了。 最先新模子升级版Claude3.5Sonnet

相关推荐

广州中考政策，定了

海信宣布电视行业自研星海大模子

外国专家：欧盟关税“高墙”剥夺消费者选择 ，阻碍绿色转型｜世界观

烏克蘭議會批准延長戰時狀態和總動員令90天

伊朗港口爆炸死亡人数升至40人

30cm的诱惑  ：北证A股超两成公司15天股价翻倍 ，10倍牛股巨震一日蒸发42亿元

增强版Claude3.5正式上线，一句话操控电脑的时期真的要来了。最先新模子升级版Claude3.5Sonnet

广州中考政策，定了

外国专家：欧盟关税“高墙”剥夺消费者选择，阻碍绿色转型｜世界观

30cm的诱惑：北证A股超两成公司15天股价翻倍，10倍牛股巨震一日蒸发42亿元