OpenAI把它放到了机器人上,在GPT-4诞生1年后!

seekdeep2年前AI资讯890

ChatGPT拥有了身体,机器人也有了灵魂。


从OpenAI在去年3月14日拿出GPT-4后,已经过了整整一年。显然,在GPT-4诞生之后的这一年,一切都迭代得太快了,从GPT-4展现多模态能力,到千行百业都在谈论AI,再到Sora引爆AI生成视频的市场。


资深机器人专家Eric Jang在不久之前还预言,“ChatGPT曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。”


他或许没错,在一年后的今天,一家名为Figure的公司在X上上传了一段人形机器人的视频。



在视频中,Figure的人形机器人Figure 01,能够完全与人类流畅对话,理解人类的想法,同时根据理解进行抓取和放置的操作,并解释自己这么做的原因。而这只是OpenAI宣布和Figure共同合作推进人形机器人领域前沿的第十三天。



这段Demo迅速吸引了广大网友的眼球,有人感叹,AGI的曙光似乎就在眼前了。



没弄虚未作假,这些都是机器人自学的


视频发布之后,Figure AI的掌门人Brett Adock,在X上来了一番精彩解读。


视频中Figure展示了端到端神经网络(end-to-end neural networks)框架下与人类对话的应用。在此过程中没有任何远程操作。并且机器人的速度也有了显著的提升,开始接近人类的速度。



那具体是怎么做到的呢?


首先,Figure AI会将机器人摄像头拍摄到的图像和通过板载麦克风记录到的语言转录成文本输入到一个由OpenAI训练的大模型中,这是一个能够同时处理图像和文本信息的模型。


然后,这个模型会处理整个对话的历史记录,包括以往的图像,然后通过文本到语音的方式,生成语音进行响应,向人类回话。



这个模型还同时负责决定执行哪种已学习的闭环行为来响应给定的命令,它将特定的神经网络权重加载到GPU上,并执行相应的策略。


这样做之后,Figure 01就有了很多有趣的新功能。例如描述它周围的环境、在做决定的时候运用常识进行推理,并且会理解一些含糊的高级指令,例如当人类说“我饿了”的时候,它会将桌面上唯一的食物——苹果,递给人类,并用简单的英语说明它为什么这么做。


而关于Figure 01通过学习掌握的精细双手操作技能,这些所有的行为都是由神经网络的视觉-运动转换器策略驱动,能将像素直接映射到动作。这些网络以每秒10帧的速率接收机载图像,并以200hz的频率生成24-DOF动作,包括手腕姿势和手指关节角度。


简单来说,预训练模型会首先对图像和文本进行常识推理,然后给出动作计划;接着,机器人再基于已学习的视觉-动作执行策略,做出快速的反应行动。同时通过全身控制器确保动作的安全性和稳定性,保持机器人的平衡。



Figure,众人看好的具身智能公司


人工智能的后半场,以机器人为代表的具身智能将成为新的智能增长点。


英伟达CEO黄仁勋曾说,“具身智能将引领下一波人工智能浪潮”。这样的观点正在被越来越多的公司所赞同。当前,生成式AI的竞争已经从连续对话走向长文本以及多模态,各家科技公司和机构也开始投资具身智能。


而这家名为Figure的具身智能公司,除了被OpenAI看好,还拿到了多方的投资,成为了硅谷备受关注的新星。



公开资料显示,Figure成立于2022年,成立之初就瞄准了通用人形机器人领域。在3月1日,它宣布完成了惊人的6.75亿美元B轮融资,公司估值达到了26亿美元。而它的投资方,几乎占据了硅谷的半壁江山。除了OpenAI,微软、英特尔、英伟达、亚马逊创始人贝索斯以及“木头姐”等,都是它的投资方。



而在获得融资之后,Figure也没有让人失望。在今年1月,它们的产品Figure就通过端到端神经网络,仅用10小时就掌握了制作咖啡的技能。1个月后,它又展示了把箱子搬运到传送带的新技能,而现在,它又学会了理解人类的意图。



当然,在商业化的道路上,Figure也在积极探索。目前,Figure已经和宝马制造公司签订了商业协议,Figure 01已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试。



从ChatGPT到Figure 01,OpenAI想的依旧是AGI


尽管OpenAI在2021年夏天悄悄关闭了其机器人团队,但显然,OpenAI对于机器人领域的关注并未减少。


除了Figure,OpenAI在一年之前就投资了挪威一家名为1X Technologies的机器人制造商。与此同时,OpenAI还被爆料,说它投资了一家新成立的机器人AI公司Physical Intelligence,他们的创始团队分别来自谷歌研究团队、加州大学伯克利分校以及斯坦福大学教授等。而这家公司也是研究未来能够成为通用机器人系统的人工智能。


显然,将OpenAI大模型融入Figure 01是OpenAI有意的战略布局。



对于计算机视觉、机器人等领域来说,具身智能是一个很有挑战的目标:如果AI智能体(机器人)不仅能够接收来自数据集的静态图像,还能够在三维的世界中,无论是虚拟还是真实的,四处移动并与环境进行交互,那么我们将能迎来一次重大的突破,即从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。


而当机器人能够执行类人任务后,通过数据的迭代升级,将会越来越像人。而到了那个时候,也许AGI能够取得突破,这也是OpenAI一直以来的目标。


一年之前,OpenAI发布了GPT-4,向世界证明了大模型的威力,而在一年后的今天,Figure 01的表现,也许会是机器人领域的GPT-4时刻。不过,正与OpenAI争得不可开交的马斯克,他的Optimus也是机器人领域的佼佼者,这两者之间还会有什么样的故事,我们拭目以待。


相关文章

Meta等让LLM分饰三角自评自进化:4轮暴训,Llama 7B击败GPT-4!

Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DP...

这个工业“GPT”有何不同:向“新”发力!

当工业互联网遇到人工智能,会产生怎样的化学反应?“过去我们的生产线发生故障时,处理流程是人员接到设备报警信息后赶到现场,查找是哪台设备发生了故障,然后出维修方案,整个处理周期基本在四小时以上。应用我们...

 LNM-DecisionGPTG决策超脑™通过中央网信办审核!

LNM-DecisionGPTG决策超脑™通过中央网信办审核!

2024年11月1日,中央网信办经过严格审核,正式通过并发布了未来地图100%自主知识产权LNM-DecisionGPTG决策超脑™大数值模型算法备案,者意味着完整的LNM底座模型之母被国家认可,而且...

周鸿祎:中国垂直领域AI大模型超过GPT-4完全有可能(两会访谈)

从去年初ChatGPT掀起人工智能(AI)大模型热潮,到今年初Sora以文生视频技术惊艳世界,国际尖端人工智能技术迭代迅速。中国该怎么走好自己的AI之路?“我觉得中国还是有优势的。”全国政协委员、36...

六大趋势重塑未来生活,智能体崛起引领潮流,2025年AI大变革!

近年来,人工智能(AI)技术发展迅猛,逐步渗透到我们生活的方方面面。从自动驾驶到智能家居,从医学辅助到金融投资,AI的影响力无处不在,且正逐步改变着传统行业的运作模式。随着2025年的临近,AI技术正...

将发布针对日语进行优化的GPT-4模型,OpenAI官宣在东京开设首个亚洲办事处!

每经AI快讯,OpenAI 4月15日宣布在日本东京设立该公司在亚洲的首个办事处,将业务扩展到亚洲,并将发布针对日语进行优化的GPT-4定制模型。OpenAI称,将致力于与日本政府、当地企业和研究机构...