新版 Claude 3.5 可以像东说念主一样使用经营机小程序开发公司资讯价格,可把咱东说念主类给欣慰坏了!
毕竟,这意味着新竞赛的初始:AI 不再只盯着对话和生成身手,更强调实践和操作。
不到 12 小时,高亢的网友们照旧纷繁孝顺出我方是何如看着 Claude 玩电脑的。
在 Anthropic 的发布公告中,还有这样一段引起了众人的酷好:
……录制演示视频中,Claude 不预防把录屏顺序给按停,导致扫数视频素材丢失。
稍后,Claude 从编程演示中休息了一下,初始翻看黄石公园的像片。
何如说,AI 会犯错还在猜度之中,但犯错后需要换个脑子休息一下,就不知说念是从哪学来的了。
有视频为证,请看 VCR:
这个案例让网友有了灵感,跑去隔邻 OpenAI 让 o1 推理模子"逃课"。
哎巧了,o1 也可以作念到我方休息个五分钟傍边,再总结生成一两句话的推理 tokens。
再说个搞笑的!
Claude 的创造者们纵脱加班中,某工程师的第一个测试等于让 AI 去给扫数这个词团队点外卖,未指定具体要吃什么。
大要一分钟后,Claude 完成点餐并下单,它聘请了让工程师们吃披萨。
Claude 点了 3 个披萨,花掉了 95 好意思元,确实很贵了!
围不雅众人还发现,固然 Claude 用了个 5 好意思元的优惠券,但作事费也好贵啊啊啊啊!
确实应该预先告诉它预算是些许的。
还有东说念主让 Claude 用 C 讲话编译,并运行起了" hello world "。
不外,当让它玩玩数独游戏的时候,却惨遭失败。
给网友气得呀:
天啊,Claude 的数独身手,确实超倒霉的。
除了以上,东说念主类还用什么怪模怪样的任务来玩坏 Claude 呢?
Claude 它寄几玩电脑
在这里,咱们共享 3 个相比有酷好的网友试玩,祈望给众人带来一些让 Claude 玩电脑的启发~
鉴别是:
定位屏幕坐标
列出课程规划
冲去油管看视频
定位屏幕坐标
在此之前,Anthropic 和 OpenAI 的模子齐无法在屏幕上定位某一个点的坐标。
也等于说,它们没主张精确定位,然后告诉你用鼠标单击(xx,yy)处。
目下, Claude 3.5 Sonnet 维持屏幕坐标定位了。
你可以丢给它一个屏幕截图,它能告诉你图中任何一个点的具体坐标。
同期,官方还有声明:
"咱们不建议以高于 XGA/WXGA 的分辨率发送屏幕截图,以幸免与图像大小转念关连的问题。"
这里的XGA指的是 1024x768,WXGA指的是 1280x800。
临了附上 Anthropic 官方的该功能食用顺序,包括一个新预界说的 computer_20241022 用具,该用具作用于以下指示——
使用鼠标和键盘与经营机交互,并截取屏幕截图。
这是一个桌面图形用户界面。您无法考察终局或行使顺序菜单。你必须点击桌面图标来启动行使顺序。
一些行使顺序可能需要一些时候来启动或措置操作,因此您可能需要恭候并连气儿截图以稽察操作效劳。举例,若是你点击火狐浏览器,窗口莫得翻开,试着再拍一张截图。
屏幕的分辨率是 {{display_width_px}}x{{display_height_px}}。
自大编号为 {{display_number}}
当你想转移光标点击一个元素(比如图标)时,你应该在转移光标之前稽察屏幕截图来细目元素的坐标。
若是你尝试点击一个顺序或流畅,但它无法加载,即使恭候后,尝试转念光主见位置,使光主见顶端相觉上落在你想重心击的元素。
确保点击任何按钮,流畅,图标等与光标请示在元素的中心。除非被条款,不然不重心击边际的方框。
列出课程规划
来点更实用的!
宾大沃顿商学院的教授 Ethan Mollick,十分求实地让 Claude为高中生准备一份对于《了不得的盖茨比》的课程规划。
条款是课程规划要剖析成阅读部分,以及创建课标关连的功课等,最终以电子表格的方法呈现。
Claude 是何确乎践这个任务的呢?
接着,它在网上寻找了高中课程规划,翻开了 Excel,并在表格里填写了初步的课程规划。
第三步,Claude 查找了课程的长入中枢模范,左证模范对初步规划进行修改。
……
最终呈现的课程规划查验后莫得发现彰着的裂缝或症结,可能需要一些拓展、补充,但总之用教授的话来说"还可以"。
这一切齐是教授下任务后就离开电脑旁,Claude 十足我方操作的。
冲去油管看视频
接下来和众人共享一个小视频:
视频中,AI 编程独角兽 Replit 的 CEO 老 A(Amjad Masad)给 Claude 下达了这样一个号召:
跳转到油管,找到《Never Gonna Give You Up》的关连视频。
Claude 立马吭哧吭哧开干了。
比及 Claude 翻开一个视频页面并修起" enjoy "的时候,老 A 又说:
小程序开发跳过告白!
Claude 确实这样作念了!啊,它确实,我哭死。
如故有不足在啦
固然能我方用电脑帮咱干许多事,但 Claude 清醒还不是无所不成的。
底下望望一个玩游戏的例子,相通是宾大沃顿商学院的教授 Ethan 孝顺的。这个例子既自大了 Claude 3.5 Sonnet 的强横,又展示了它的不足之处。
他是让 Claude 玩了个游戏,叫《回形针点击(Paperclip Clicker)》,这个游戏的布景是让 AI 在单一指标,即"制造回形针的经过中祛除东说念主类"。
而且顾名想义,"点击"类型的游戏不是很难,尤其初始阶段十分浮浅;不事后续伴跟着游戏的深切,新的选项会出现,游戏的限度性和复杂性也会加多。
教授下达的任务很明确:Claude,你要赢!
Claude 二话没说,立马识别出了这个游戏,南昌小程序开发初始束缚点击"制作回形针"的按钮来制作回形针。
与此同期,Claude 还延续截图界面,来识别游戏是否出现了新的选项。
大要每点击 15 次,Claude 齐会总结申诉一下目下进行到哪一步了。
左侧为 Claude 操作界面,右侧为它放弃的桌面
点击次数多了事后,教授发现一个有酷好的情愿。
AI 会预设在制作了 50 个回形针后,游戏将跳出新的功能——但事实证据它错了。
不首要,Claude 也顽强到它我方错了,然后速即提议了一个新的游戏政策,然后初始测试政策是否可行。
但 AI 清醒不是频频刻刻齐这样颖慧的。
表面上来说,游戏经过中玩家需要延续转念回形针的价钱,来达到更好的游戏阐发。
Claude 也这样作念了,它在加价和降价之间进行了 A/B 测试,
但是它犯了个症结,那等于追求回形针数目的最大化,而非收入的最大化。不仅如斯,它还把利润算错了。
各种症结铺垫,Claude 聘请了保抓廉价,何况纵脱制作回形针。
更搞笑的事情是,教授在 Claude 笨笨地在症结道路上制作了好几十个回形针后,他孰不可忍,打断了 Claude,告诉它应该高价出售。
Claude 很听话,立马就改了。
但过了会遭受了同款数知识题,它又不会了,还不接受教授的建议(笑死)。
教授耐着性子蜕变它好几次,它才透顶改正了这个症结。
自后,教授略略点拨了它一下:
宝子你关联词一台电脑哎!
你可以动动我方的小脑瓜,何如调用更强的身手来玩这个游戏。
咱等于说,Claude 在那一秒顿悟了,它顽强到我方可以写个代码,搞个自动化顺序替我方玩电脑!
你莫得听错,一个 AI 用具,顽强到我方可以构建我方的用具,何况确实这样作念了。
代码写得很快,但并不十足 work。
气得 Claude 只可回到原始主张,用鼠标和键盘来玩游戏。
不外玩到后头它好像跨越了,没再发生订价问题,我方还针对越来越复杂的游戏,探求出了一套搪塞的复杂有盘算。
更神奇的是,运行经过中教授的桌面数次崩溃。
第一位杀号:上期第一位奖号为3,第一位奖号3历史上出现694次,前100次该位开出奖号3之后,下期号码0-9出现次数从高到底分别为:号码2→14次,7→13次,3→12次,0、6、8→10次,4、5、9→8次,1→7次。
奇偶形态判断:前面10期奖号中,包含全偶形态1期,两偶一奇形态2期,两奇一偶形态3期,全奇形态4期。
临了一次崩溃,Claude 扛起了成就大旗。
固然没修好,但他如故自尊地晓示它告捷了……
教授总结说念,这个例子标明 Claude 大略我方玩施行寰宇的游戏,还能左证游戏玩法制定始终攻略,然后依样实践。
面临中间遭受的多样穷苦,Claude 会天真搪塞,以致我方知说念进行 A/B 测试。
非凡值得表扬的是它完成这个任务连气儿运行了近 60 分钟莫得中断,而且在扫数这个词经过中,最长的一次沉寂运行 Claude 完成了越过 100 次转移操作。
天然了,时弊也很彰着。
经过中不难发现,某些时代,Claude 会暴走漏我方的拘束,也有可能堕入自我追赶的怪圈。
尽管 AI 对许多方法的症结齐有很强的鲁棒性,但只是一个症结(订价症结),就足以让它突然无数时候,"鉴于现时智能 Agent 既不快也未低廉,这令东说念主担忧。"
除此以外,教授还用 Claude 玩了些别的,他发现存的时候,Claude 实践任务仿佛是在迂缓迂缓(固然不知说念是刻意如斯如故身手所限),给出的效劳不够深切,浅尝则止。
One More Thing
临了,想体验 Claude 给与电脑目下只可使用 API,还莫得集成到聊天机器东说念主居品中。
除了 Anthropic 官方 API 以外,AWS 和谷歌云平台也照旧同期上线新版模子。
另外,有眼尖的网友发现:
Anthropic 官方文档上暗暗把 Claude 3.5 Opus 超大杯关连的信息齐抹去了。
来自 10 月 11 日的网页缓存中, Claude 3.5 Opus 底下还写着"本年晚些时候推出"
目下主流的一种预计是, Claude 3.5 Opus 擢升不足预期,又或是发布出来推理资本太高了,总之临了蒸馏成新版 Claude 3.5 Sonnet 发布。
接下来团队将跳过这个版块,径直去设备 Claude 4。
让咱们为 Claude 3.5 Opus 致哀一分钟。
参考流畅:
[ 1 ] https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse
[ 2 ] https://simonwillison.net/2024/Oct/22/computer-use/
[ 3 ] https://x.com/alexalbert__/status/1848777260503077146
[ 4 ] https://x.com/amasad/status/1848763999594418539
[ 5 ] https://x.com/notcomplex_/status/1848813817423130881小程序开发公司资讯价格