当AI学会“点击鼠标”:Anthropic发布Sonnet 4.6,电脑操作能力逼近人类
人工智能公司Anthropic发布了其Claude模型系列的最新版本——Claude 3.5 Sonnet 4.6,这次更新最引人注目的突破,莫过于其新获得的“电脑操作能力”,该模型现在能够通过API直接控制计算机光标、点击图标、输入文字、导航菜单,其流畅程度已堪比人类操作者。

这一能力的实现,标志着AI从“对话伙伴”向“数字劳动力”的深刻转变,Sonnet 4.6不再仅仅分析屏幕内容或提供操作建议,而是能实际执行任务,无论是整理文件夹、填写在线表格、预订行程,还是操作专业软件,它都能通过模拟人类鼠标与键盘交互的方式自主完成,早期测试显示,它在执行多步骤办公任务时,效率已接近熟练人类员工。
技术层面,这一突破源于多模态理解的飞跃,模型不仅能“看懂”屏幕上的复杂界面布局、图标含义和文本信息,更能“理解”各元素的功能逻辑,并规划出合理的操作序列,它懂得“先点击这里,再在那里输入,然后下拉选择”,这种对图形用户界面的语义化理解,曾是AI与真实世界交互的关键壁垒。
行业影响立竿见影,自动化流程(RPA)领域将首当其冲,传统基于固定规则的机器人将被能理解、适应甚至决策的AI助手取代,普通用户的日常电脑使用也将被重新定义——繁琐重复的操作可交由Sonnet 4.6代劳,人们得以更专注于创造与决策。
能力越大,责任与风险也越凸显,AI直接操控设备引发了新的安全担忧:权限边界如何设定?如何防止恶意指令?操作失误的责任归属如何划分?Anthropic表示,已为该功能设置了严格的安全层和用户确认机制,确保操作全程处于人类监督之下。
Anthropic此次的发布,不仅是一次技术升级,更是一个强烈的信号:通用人工智能(AGI)的发展,正从“思考”走向“行动”,从数字世界走向与物理世界的交互前沿,当AI学会了“点击鼠标”,我们迎来的或许是一个生产力解放的新纪元,但也必须开始认真思考,如何为这个新“同事”划定清晰、安全且有益的行动疆界。
版权声明
本文系作者授权妙妙经验网发表,未经许可,不得转载。
