题材相关新闻
10月25日,在中国计算机大会(CNCC)上,北京大模型公司智谱研制的大模型智能交互智能体AutoGLM首次亮相并宣布开启内测,这个智能体不仅能动嘴皮子,还能真正帮人类做事——它可以通过语音指令理解用户意图并模拟人的操作,实现网页阅读、电商产品购买、点外卖、订酒店、评论和点赞朋友圈、发微信等行为。
题材相关介绍
1、背景:今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。10月25日,智谱AI推出相似产品——自主智能体AutoGLM,智谱将其称为是一个可模拟用户点击屏幕的手机操作助手,以及点击网页的浏览器助手。同时,智谱AI还推出了端到端情感语音模型GLM-4-Voice 。此外,苹果宣布Apple Intelligence的正式公开版本将于下周在iOS 18.1中上线。
2、AutoGLM基于OCR理解UI组件信息,通过链式思维训练理解组件功能。根据清华大学发布的《AutoWebGLM: A Large Language Model-based Web Navigating Agent》,AutoWebGLM通过OCR模块解析页面截图并将其转化为易于LLM理解的HTML,帮助LLM理解UI功能及所处页面位置。通过GPT-4的链式思维推理,生成UI与执行动作对应意图的QA问答数据集,并对AutoGLM进行训练,使其可根据用户指令,确定用户意图所需UI组件,并自动完成相应操作。
3、自动驾驶仍需明确指令,个性化场景需与手机厂商合作,跨应用操作待改善。根据数字生命卡兹克发布的实测视频,AutoGLM自动驾驶需要用户下达明确的指令信息,如预订酒店,需要用户给出时间、地点、预算及相应房型。我们认为AutoGLM执行如“帮我订回家的机票”等更个性化指令,仍需与手机厂商进行合作,获取用户个人信息使用权限方可实现。目前AutoGLM已可自动执行微信、淘宝、美团、小红书等App中用户常用操作,更多个性化操作尚未实现,并且未适配滴滴、京东、微信读书等App,未来需要更多第三方厂商以及更全面的UI训练数据集支持。
4、与荣耀等手机厂商深度合作,加速手机Agent落地,驱动AI手机渗透率提升。根据智谱,其在2024年9月与荣耀共同成立AI大模型技术联合实验室,与荣耀进行深度合作。2024年10月23日荣耀Magic 9.0发布会展示具备自动驾驶功能的AI Agent YOYO。具备自动驾驶功能的AI Agent可帮助用户摆脱繁琐的App操作,仅需语音指令即可满足用户需求,真正实现AI个人助理,有望驱动AI手机渗透率加速提升。