2010 年rio柚木提娜,一家叫作念 Vicarious 的公司在硅谷配置,它的早期投资东谈主包括伊隆 · 马斯克,马克 · 扎克伯格和杰夫 · 贝索斯等东谈主。在 2014 年它认真启动更大界限招聘时,对外公开宣告的公司职责是:
实现 AGI。
今天扛着 AGI 大旗的 OpenAI 要到一年后的 2015 年底才配置,在其时的 AI 圈,当红炸子鸡即是英国的 DeepMind 和好意思国的 Vicarious。
其时在好意思国杜克大学拿到博士学位的连文昭,毕业莫得像大多同学那样进入 Facebook 等硅谷大厂,而是径直加入了 Vicarious。他之后成为该公司的机器东谈主团队负责东谈主,作念的技俩包括用类脑神经集结去替代卷积神经集结,用更接近东谈主类的阵势去考研机器东谈主,让机器东谈主不错低成本以致零成本部署实现新任务——简直即是今天具身智能波浪里每一家拿下多数融资的公司声称在作念的事情。
在 Vicarious 待了几年后,连文昭仍是不知足于机器东谈主实现智能的阵势,他加入了 Google 其时如日中天的 Google X、两年后公开名为 Intrinsic,有了一个更大的贪念,他们但愿作念一个联合的算法操作系统来罢休统统形态的机器东谈主,以实现更通用的智能。
之后在 2022 年,Figure 的独创东谈主 Brett Adcock 找到连文昭,把他招到了刚刚配置的 Figure,负责创造机器东谈主的「大脑」,他也成为这家今天已估值 400 亿好意思元的公司里第一个 AI 主义负责东谈主。
连文昭
2023 年,当够了「前排看球的不雅众」,连文昭决定我方创办一家机器东谈主公司,实现他一直想要实现的机器东谈主梦。他归国创办了源络科技,并拉来了曾担任优必选 Walker 东谈主形机器东谈主产品线负责东谈主的谢铮一皆创业。
这样的资历,在今天这个具身智能创业的黄金期间,是能让每个投资东谈主都目前一亮的存在。但连文昭却极度的低调鲜少出头。据硅星东谈主了解,源络科技近日刚刚完成了最新一轮融资,累计金额达数亿元。本轮融资由阿里巴巴集团领投,其他投资机构包括北京市东谈主工智能基金、元禾原点、戈壁创投、坚果老本、峰瑞老本等。此前,源络科技已赢得峰瑞老本、水木创投等投资。
濒临行业热度的霎时爆发,连文昭但愿保持客不雅镇静。作为一个资历过多家明星公司转念的创业者,他对今天的好多热点的「共鸣」也有不同的想法,比如今天最为火热的「具身智能」这个词,却让他有些警惕。
「我一直不太可爱具身智能这个词。」他在最近和咱们的一次对话中说。「径直拿谣言语模子上的告捷套到机器东谈主,我以为是个有点危境的事。」
而他信托的机器东谈主的将来,以及源络这家公司要作念的事情,是「器具身实现智能」。他认为这才是阿谁更永久和更稠密的,值得和志同谈合的东谈主一皆去作念的事情。
「机器东谈主是个永久的事情。今天的老本热度会转念,而机器东谈主本人的发展相似会有周期,但最终机器东谈主一定会终了它的后劲。」
以下为对话实录,经浮浅剪辑。
小标题 1: 源络的出生
硅星东谈主:这是你第一次以源络这家公司独创东谈主的身份出来濒临媒体,先讲讲源络吧。
连文昭:源络是 2023 年我从硅谷转头配置的。名字一方面来自交大校训「酌水知源」,络是想集结一群但愿原原委委作念事情、有信仰,但愿能用 robotics(机器东谈主)来惩办一些事情的小伙伴。另一层则是「以 AI 为起源,机器东谈主为眉目,去研究数字跟物理天下」。
咱们深信但愿能作念一个锚定物理天下的通用东谈主工智能。但这是一条很远的路,是飞向月球(moonshot),那短期咱们需要有个梯子,知谈先往哪儿爬。
是以第一阶段,咱们但愿有一个相对细目、看得见摸得着的方针来牵引研发。咱们但愿把咱们的机器东谈主形态、硬件联想上等都有一些督察,这需要有确切场景来给咱们输入。
以前我作念过的行业中,物流和工场好多,但客不雅镇静评估一下,是不是这一波用多模态、大模子的新时间就能比之前的时间有筹商作念得更好,其实当今也很难讲。那么念念考哪些场合更能阐发咱们的上风,目前咱们也在探索一些其他场景,像生物医药和大健康领域、农业等等。我以为这些场景是比较敬爱和罕见念念的,因为或者进步它的上限。
硅星东谈主:你的机器东谈主长什么样?
连文昭:咱们通过遴荐场景,来牵引目前的研发,把数据回流作念好,把机器东谈主的通用罢休模子作念好。目前咱们机器东谈主实验的联想是轮式双臂贤达手,在这种联想上,咱们莫得过分的给定单一场景,将来咱们但愿它会去作念更通用的任务。
硅星东谈主:你认为机器东谈主将来会都是东谈主形的么?
连文昭:我认为它需如若一个联合的载体,可是不是东谈主形不一定。
我信托联合的载体会好好多。可能一个,可能两个,但不可能是无限多个,这样的话你身手分享好多数据、模子和算法,成本也能下来,界限化更容易。包括咱们当今轮式的亦然,上半身不错作念各式万般的事情。咱们研发奋发的主义亦然朝此在走。
源络的机器东谈主产品 Monte02
硅星东谈主:你们目前在时间上的干线是什么?
连文昭:咱们我方照实有一套干线,中枢是若何或者从噪声很高、很原始的物理天下中,索要出来最灵验的信息,来喂给我的罢休模子去输转移作。
咱们当今但愿能在一些半结构化的场景里边索要一些中间层结构化的表征阵势。它就像一个信息瓶颈一样,原始高噪声的信息,过程漏斗把噪声剔除出去,或者索要出来比如说物体的景况、物体之间的关系,然后以相对结构化的示意阵势再去输入给罢休模子。这样它就不错输出比较精确的动作,在跨物体、跨任务的环境里都能输出。
咱们但愿引入这样一个信息瓶颈来作念这件事。这是一个结构化的表征阵势,亦然保证可靠性,同期有契机进步泛化性的蹊径。
比如说咱们通过大模子,通过多模态模子,不错把中间的物体景况表征得越来越好,或者学到一些泛化的物体表征阵势模子。这是有但愿进步它的上限的。
诚然将来跟着数据量的蓄积,模子才略的进步,有可能中间层会越来越非结构化,有可能自后会生息出来一些,Latent embedding(隐式抒发)等,可能即是机器东谈主我方能相连的,而非当今东谈主类相连的一些表征阵势。
硅星东谈主:只专注作念医疗和大健康么,仍是目前的政策是这样。
连文昭:目前配合的客户好多是在这个场景。但其他的产业需求评估下来rio柚木提娜,咱们也在作念些不同主义的尝试。
从 Vicarious,Google 再到 Figure,从「前排看球」到我方创业
硅星东谈主:你过往的资历也很罕见念念,归国之前,你在硅谷多个不同阶段的机器东谈主公司待过。
连文昭:对。我 2011 年从上海交大毕业,然后在杜克读博士,2015 年毕业去硅谷,待了八年。三段业绩资历,先是在 Vacarious,一个 AGI 的公司,后去 Google 待了三四年,然后去 Figure 待了小半年。
硅星东谈主:你去读的是什么专科?若何那时期就想去机器东谈主公司。
连文昭:在杜克作念的是机器学习,当今统称 AI。其时更火的是大数据,作念推选、酬酢集结等,毕业时期我不想去这些公司,更想作念通过我方作念算法作念模子改革一些事情的业绩。
博士临了一两年碰巧在跟一个作念机器东谈主的淳厚,作念一些强化学习领域的东西,嗅觉这个领域很罕见念念。其时就以为机器东谈主这个行业到处都是坑,到处都是契机,作念一丝东西就能改革一些性能,也跟物理天下相关,比较直不雅,是以更罕见念念一丝。
然后 2015 年底毕业就去这个叫 Vicarious 的公司,作念通用东谈主工智能。马斯克、贝索斯和扎克伯格都是早期投资东谈主。你想想马斯克那时期就搞 AGI。
硅星东谈主:有 OpenAI 那味儿了。
连文昭:那会儿 OpenAI 还没配置,如果搜其时新闻的话,英国那边是 DeepMind,好意思国即是 Vicarious,然后去了以后不久,DeepMind 就被 Google 收购了。
它 2014 年启动招东谈主,我去的时期有 10 个东谈主傍边。咱们作念机器东谈主作念的是类脑神经集结,视觉相连上模拟东谈主脑, V1 到 V6 ,六层神经集结若何去用更小的数据量去学习。咱们其时跟卷积神经集结去比,说只好用 1/ 100 的数据能达到更好的识别恶果就不错。咱们想把它用到机器东谈主上,部署了几十台百台量级的机器东谈主。跟包括 USPS 供应商在内的多家物流公司配合了一些机器东谈主,作念分拣装箱、执取、打包等。用 3D、2D 感知,考研模子,作念机械臂领路计较。
硅星东谈主:作念的即是今天说的"大脑"。
连文昭:对,其时即是作念大脑,并莫得作念任何硬件,即是作念视觉、旅途计较、决策这些部分。当今这些蹊径还有好多公司在用,跟其时莫得太领悟分裂。
其时作念的比较浮浅,但跟当今的逻辑一摸一样。那会儿的渲染是用上一代的渲染器,但逻辑即是让它我方去尝试。然后作念确切的物理仿真,我方去建模让它尝试不同角度、不同阵势去执这些螺丝螺母。咱们在仿真内部会建模,建各式万般的物体模子。然后去作念一些放大消弱,失真(distortion),加各式扰动产生不同场景,让机器东谈主我方尝试,是不是能完成卑劣的任务,执起来是不是还能拧进去。能的话就纪录出来一个正样本,弗成的话即是负样本,靠这个自动采集多量数据。
这样训完以后至少能懂一个类别,然后让客户能零成本部署。这个仍是挺锋利的,可靠性能作念得比较高,可能到 98%,一个 9 到两个 9 之间。
硅星东谈主:自后去了 Google。
连文昭:对。在那儿待了三年半。我以为如果只是如斯,智能用得太有限——我看一眼,然后计较完就闭上眼睛去践诺了。我仍是但愿能作念得更智能一些,证据感知信号能及时决定下一时刻若何动,完成更复杂的任务。
是以就去 Google 了。Google 其时有一个技俩,当今叫 Intrinsic,其时属于 Google X 实验室,它就作念好多前沿科技探索,作念一些跟主业搜索告白不庞杂的。其中紧迫的一个即是操作系统,手机内部有安卓,那机器东谈主内部是不是也得有个操作系统,能适配各式万般的硬件?即是联合到软件,不错适配统统的硬件,诱导者只好写一遍 APP,就不需要给什么 ABB 之类的不同机器东谈主品牌再作念兼容,就写一套就行。
你既然要搞操作系统,就得证实注解用这个操作系统颖悟以前干不了的事。是以把我招畴昔,这个组即是干机器东谈主学习,比如运用效法学习,还有仿真学习的一些有筹商,来证实注解咱们不错作念更复杂的东西。
其时跟家居品牌企业配合用一个多模态的力觉、视觉和会去作念居品拼接。咱们能让机器东谈主我方去学会若何去拼一个小书橱等。其实其时作念了好多 POC,证实注解了咱们的系统处理复杂柔性任务的可行性。
硅星东谈主:想要证实注解的命题很大,但具体作念法仍是遴荐一些场景。
连文昭:对,这个政策就像 Google 作念 Pixel 手机一样。它要作念个样机,打个样,其时选了好多典型场景。背后两个念念路,一个作念更难的、以前作念不了的事儿,另一个是把以前很良友的事儿的部署成本降下来,即是咱们机器东谈主学习这个组来作念的。
硅星东谈主:借这两点来蛊惑统统东谈主都用你归拢套操作系统。
连文昭:这个技俩当今 Google 还在作念,况兼从 Google X 孵化了出来。
硅星东谈主:是以 Google X 还没散失。
连文昭:对,当今声息比拟以前可能小一些了。像是之前的气球技俩 Loon 关掉了,咱们的 Intrinsic 零丁拆分了,Waymo 是很早零丁在我方跑。Intrinsic 走的是制造业这种高可靠性的蹊径。然后 Vicarious 在 2022 年底,被 Google 收购,合并进了 Intrinsic。
硅星东谈主:再自后你从 Google 去了 Figure。
连文昭:那时期碰巧 2022 年下半年 Figure 刚配置,跟 CEO Brett 真切地接洽了几次。嗅觉他很特有,他其时正在计议这个公司,邀请了 Jerry Pratt 作念 CTO,也从波士顿能源、苹果、特斯拉招募到了顶尖的硬件和罢休工程师。
我以为这个团队很罕见念念然后就畴昔了。
我极端于 Figure 第一个作念 AI 的东谈主。其时作念软件的东谈主很少,团队很偏重硬件实验。我也跟硬件团队学习了好多。诚然其中一丝是硬件这个迭代周期照实很长,你犯一个伪善,或者要调个东西一两个月就出去了,但软件改起来很容易。
总之在 Figure 参与到了最前沿的事情中。
硅星东谈主:今天 Figure 估值这样高,如日中天,有东谈主会说你错过了几个亿吧。
连文昭:是的。包括最近 Figure 出来一些新闻都会有东谈主来问,后不后悔。我以为深信不后悔。东谈主不会为我方作念过的事情尔后悔,只会为我方没作念过的事情后悔。
要说毁灭竟然毁灭了好多,但在那边留住,每天即是晒晒加州的太阳。可是转头以后更有挑战性,因为这个事情很永久,当今终于能按照我方的念念路去实现它。以前极端于是买了一个前排 VIP 的票,坐在场边去看比赛。包括在 Vicarious 和 Figure,我去的时期都很早期,会不自发的想这些事,从一个初创公司维度去想事情,但偶然期公司会有我方的蹊径。
当今不错「坐言起行」了,若何想就能若何付诸实践,或者放大一些影响力。以前在公司里的时期,会以为有些时期受到不停,可能实现不了想法,当今我会奋发给人人提供这样的契机,有什么想法就不错去实践。很喜跃能给人人营造这样的环境。颖悟这件事是很敬爱的,敬爱很紧迫。
不可爱「具身智能」这个词,应该「靠具身来作念智能」
硅星东谈主:是以来说,Figure 反而是一家硬件团队很强,只不外因为今天统统话题和估值都来自 AI 软件,是以它恨不得不跟 OpenAI 配合也要把这个扮装占住。但你在这段资历里,反而加多了好多硬件视角的念念考。
连文昭:像具身智能这个词,我我方其实一直不太招供。
它其实有两个层面,一是你不错狭义相连为,具身智能即是智能机器东谈主,Intelligent Robot,机器东谈主不错我方去感知决策计较。
但另外一层我以为更罕见念念,不错泛化的讲,即是「靠具身来作念智能」。它临了是一个智能体,这个智能体在不在物理天下没相相关——它不错学完后仍是个数字天下的智能体,可是这个智能要锚定到物理天下。
它相连的一些主见,比如 12345,它看到 5 个手机,它是知谈 5 的,而不是靠大模子去背出来的,不是说我看到了 1 + 2 = 3,我是靠 「1 + 2」 推算得到三,而是说我是往往刻刻相连什么叫「一个东西」,即是锚定到物理天下,它是有物理感知的。比如说什么东西千里,什么东西摩擦力大,什么东西光滑,它时刻或者把这些笔墨和实验的感知勾通。比如说我稀有据传感器,有视觉的信号,这些信号是或者跟这个笔墨耦合起来的。
我是但愿或者靠具躯壳验、靠主动感知,去作念真确的具身智能体。这个是具身智能更稠密的一个事情。
淫乱电影机器东谈主通过我方跟环境的交互来相连这些常识,这是真确的智能,而不单是是语义上的相连。话语是其次的,有莫得话语都 OK,可是机器东谈主一定要先具备跟环境交互的才略。
硅星东谈主:「靠具身来作念智能」这个说法很罕见念念,咱们之前在硅谷作念的对话里,也提到,东谈主们把硬件比如机器东谈主的动作和所谓「大脑」分开看待。咱们看小一又友,他好多智能是通过手去感知学到的,比如提起东西放下。所谓硬件和具身不单是载体。
连文昭:你刚才说的这一丝,我以为机器东谈主如果分派系的话,应该分红养孩子派和不养孩子派。(笑)
有孩子的话,你会看着他从啥都不会,通过很极少的交互就不错学到一些很通用的主见。这个对我的冲击是很大的,而且偶然期一发热,烧完毕以后极端理智。
硅星东谈主:想起来七龙珠里的吃仙豆。
连文昭:对。即是他会把一些体验存到一个很乱的景况,可是到一定量霎时就能串起来,把一些主见给抽取出来。这个事情我以为很神奇。
这亦然咱们在作念的事,但愿去或者给它一个环境,极端于给小孩儿一个安全的环境,能我方去探索,然后或者用最极少的数据交互来获取我方所需的一些主见。而这个是有先后法例,要先索要出来这些主见,再去加这些话语。
这跟咱们当今靠多量采集数据去考研大模子的法子有所不同。咱们当今也逐渐看到 scaling law 的一些问题,是以我以为仍是要先从法子论上去探索,能弗成有一个更像东谈主的阵势去获取和运用数据。
硅星东谈主:是以今天人人都在用 AI 的念念路聊机器东谈主,但其实如果说谣言语模子本质上是 predict next token,它的前提是 token 不错穷尽,但如果只拿这后半句话套在机器东谈主这边,其实是不一样的,它的前提都是压根不同的。
连文昭:径直拿谣言语模子上的告捷套过来,我以为是一个有点危境的事。
它和谣言语模子有好多不同之处。一是空间是破碎仍是连气儿,数据多仍是少。另外一个没被平庸说起的是,比如 DeepSeek 用 RL(强化学习)去考研,我不错去训,可是 RL 频繁是未知天下模子、未知奖励模子。
天下模子包括两块,一个是它的景况,什么样的景况空间,不雅测量是什么,另一个是景况转移,即是面前这个景况下施加什么动作,导致下一个时刻景况出现,即是 transition model(景况转移模子)。它在话语里很友好,是细目性的。
比如用户问谣言语模子,「硅星东谈主谁最帅」。它回答「兆洋」。然后用户回答,「快乐」。
硅星东谈主:这用户揣摸是我我方。
连文昭:你就不错去对皆,你在 RL 里问和答,它的下一个时刻的景况就变成了把问答拼接起来,这个 transition model 是细目的。
但在机器东谈主里,景况空间是——它看到了一个场景,比如桌子上的杯子在这,笔在这。我的动作是,比如要把笔放到杯子里,但能弗成放进去我是不知谈的,有可能拿不起来,有可能滑了,这是灵通的,形成它考研起来难度是很大的。
当有不细目性,复杂度就大了好多,就变成概率问题了。是以从这个层面,谣言语模子是相对浮浅的,但在物理天下去训强化学习,去建模天下模子,都是更难的事。
硅星东谈主:你这个「器具身作念智能」的说法,让我更相连了你们当今网站上写的这句话,「以 AI 为起源,机器东谈主为眉目,研究数字与物理天下」,那源络这些想法都是来自那处,看起来有过往各家资历的影子。
连文昭:我以为举座这几段资历,带给我的角度都是不太一样的。
Vicarious 走的是落地 driven,什么能用就走什么的蹊径;Google 给的是,我要探索才略界限,要作念一些通过算法或者实现很通用的智能;到 Figure 就更像在实践一下,而且克己在于跟好多很出色的硬件同事同事,看到硬件的立异是什么样,如何软硬勾通。 统统这个词皆备汇总起来敛迹到今天对创业相连的话,可能即是「求实当下,乐不雅将来」。
另一丝感受是,组织一定要有很强的凝华力,人人都是安常守分会死磕,我方憋一语气儿,一定要把机器东谈主作念得有用。不是追风口,而是用永久主义来作念这个事儿。机器东谈主这个行业深信是马拉松,不是百米冲刺,它极有可能是一个跨周期的事情,这个周期有可能莫得达到它的 promise(承诺),莫得达到人人的生机。可是下一个周期有可能就能达到。
是以源络一定有这个耐性散漫作念永久陪跑,在这个行业深耕下去。咱们几个合鼓吹谈主都是在这个行业作念了十多年的,之前莫得火的时期一直作念,当今火了仍是镇静地作念这件事,将来也会赓续作念下去,一直作念到让机器东谈主真确变得有用。
硅星东谈主:今天机器东谈主前所未有的火热,高估值融资不停出现,你若何看?这种得意对你们融资等方面的影响是若何的?
连文昭:我其时归国的时期是 2023 年,其实疫情刚落幕,其时行业也莫得极端火,以致是行业一个低谷期。但我十分看好这个行业——一定要作念机器东谈主。同期大模子带来的这些克己,比如推理才略还有泛化才略,刚好跟我以前蓄积的那些劝诫和才略是互补的。以前咱们作念的都是若何去把物理天下这些多模态的信号数字化,然后让它去作念一些小的闭环,大模子其实是在数字天下去推理,它变强就能放大咱们之前蓄积的这些才略。
到了目前这个行业变得这样火,咱们仍是一个永久念念路来看这个事儿。它一定是一个跨周期的东西,不火也要作念,火了反而更要镇静一些。
我以为作为行业从业者,咱们也有些义务给这个行业作念些客不雅输出,把人人的生机值退换得更合理一些,不要大起大落。以前 AI 就出现过好多冬天,即是因为人人对行业预期太高,然后发现莫得达到。这会对行业有些伤害。
我更但愿说人人能有一些合理的预期,然后徐徐陪这个行业起来。它 100% 会起来,只好有耐性,散漫渐渐的去过问,将来它一定或者健康的、很肃穆的去增长起来。
是以咱们仍是作念好我方。非论从公司界限,仍是诱导上rio柚木提娜,按咱们我方的节律去走,安常守分、宽心性专注作念我方的事儿,这最关节也最本质。