谷歌将“大模型”装进手机里

作者:金旺
2023-10-26

买手机送大模型。

2023年上半年,科技领域最热不过大模型;

2023年下半年,大模型开始集体“上山下乡”,进入行业、深入硬件。

端侧大模型,就是在这时开始成为一个重要研究方向。

这其中,谷歌在今年2月发布对标ChatGPT的Bard后,在前不久"made by Google"的硬件发布会上,正式将大模型相关技术下沉到了Pixel 8 Pro上。

“买手机送大模型”,也成了业界送给谷歌Pixel 8系列手机最好的推广文案。

Bard下沉到端侧

2016年,谷歌CEO Sundar Pichai在made by Google大会上正式宣布,谷歌从“Mobile First”转向“AI First”,AI由此成为了谷歌的主旋律。

仅仅一年后,谷歌就对外发布了为大模型埋下伏笔的Transformer架构,造就了后来OpenAI的崛起,以及如今大模型时代的到来。

同样是基于Transformer架构的Bard在今年2月正式发布后,行业内开始高度关注这一模型。

一是关注这一模型是否能够迎头赶上风头正盛的ChatGPT,二是关注谷歌将如何应用这一模型。

毕竟,谷歌有着世界上最优秀的工程师团队和工程师文化,曾在过往互联网热潮中,研发出了几乎统治了搜索引擎江湖的Google搜索引擎,在移动互联网时代,又凭借Android承载了移动互联网生态的半壁江山。

今年9月,就在谷歌这场硬件发布会之前,Bard产品总监Yury Pinsky在官方博客中透露,Bard已经可以连接到用户的Google应用服务,以实现针对用户本人的定制化AI服务。

在这篇博文中,他指出,Bard可以从用户每天使用的诸如Gmail、YouTube、谷歌云盘、谷歌地图等服务中获取信息,甚至可以跨应用获取信息,来提供千人千面的个人AI助手的能力。

例如,如果你和你的朋友正在筹备一场去大峡谷的旅行,你就可以通过自然语言与Bard交互,让它为你做这样一个规划。

Bard在收到指令后,会通过查阅Gmail邮箱中信息来找到适合每个人的出行日期,通过查找实时航班和酒店信息,和前往机场的谷歌地图路线,甚至观查阅机场活动的YouTube视频,来为你规划好整个形成。

同样是在这篇博文中,Yury Pinsky还提到了另一项功能——多人交互。

当有人通过向你分享了他与Bard的聊天时,你可以接着他的对话内容,继续与Bard交互。

显然,更符合这些功能的应用场景实际上是在移动端,这样的应用研究,正是谷歌在为Bard下沉到端侧做准备。

实际上,就在这篇博文发布两周后,2023年10月4日,谷歌"made by Google"硬件发布会在纽约正式召开。

在这场硬件发布会上,谷歌不仅发布了Pixel 8手机,还将大模型正式下沉到了端侧手机上。

端侧大模型,用处几何?

在今年的made by Google大会上,谷歌高级副总裁Rick Osterloh一上场就表示,“谷歌聚焦让AI变得对每个人都更有用。”

至于如何让AI变得对每个人都更有用,谷歌的做法是,做一款将软件、硬件和AI整合在一起的手机,也就是谷歌Pixel手机。

2023年大模型这么热,谷歌也在端侧大模型应用上做出了些花样。

首先,在和Fitbit联动时,生成式AI可以作为你的运动健康小助理,告诉你,你今天之所以跑步会比往常感觉更困难,是因为你今天选择的路线更崎岖、有更多的爬升。

与此同时,生成式AI还会根据你的问题,为你输出含有图表的详细分析报告。

其次,谷歌再次提及自家语音助手时,也特别强调加入引入了Bard。

Google Assistant负责人Sissie Hsiao在发布会上表示,引入Bard后,Google Assistant将个性化功能与大模型的推理能力、生成能力相结合,可以实现听、说、影响处理能力的全面升级。

Sissie Hsiao在发布会上通过一系列提问为我们展示了端侧大模型的功能:

1、她告诉手机上的Bard“查看本周所有未读邮件”,随后,Bard帮她整理出收件箱中未读邮件,并整理出相关邮件的概要,其中有一封关于派对邀请的邮件;

2、她接着问Bard“这个派对的地址在哪”,Bard通过访问手机上的谷歌地图,为用户提供出这一派对的具体位置;

3、她继续追问Bard“到这个派对需要多长时间”,Bard就会进一步在谷歌地图上给出路线信息。

与此同时,在手机上,Bard依然拥有大模型所有该有的文字处理和文字生成能力,这些能力也成了谷歌这代手机的一大亮点。

人均大模型时代开启

当然,在这场硬件发布会上,谷歌还公布了一系列其他加入AI魔力的实用功能。

例如可以让你免于骚扰电话侵扰的Call Screen。

当有电话接入你的手机时,你的语音助手会先请对方说明来意,如果对方也是一个机器人,阐述的信息被识别为垃圾信息,会主动回绝并将来电信息和相关来意一并显示在用户屏幕上。

例如可以为你用手机拍摄的视频消除背景噪音的Audio Magic Eraser。

当你视频中有不是你需要的背景噪音时,通过这一加入生成式AI能力的功能,可以直接将这些背景噪音擦除。

再比如,可以为你P图的Best Take。

当你在为朋友拍照时,只需要多拍几张照片,当有某个或某些人表情不到位或有闭眼时,通过这一功能就可以筛选其他合适的表情直接替换。

此外,谷歌在Pixel 8 Pro中通过融合更强大的摄像头、Tensor G3和计算音频的能力,引入了视频增强(Video Boost)功能,通过谷歌云端计算摄影模型对每一帧图像进行处理,从而得到更漂亮的视频。

也是在发布会上,谷歌Pixel产品总监Shenaz Zack也指出,“得益于谷歌数据中心模型(data center models),谷歌提升了Video Boost功能,改善了Google assistant的能力。”

这样看来,端侧大模型要想用起来,依然需要云端大模型提供助力。

Rick Osterloh指出,“谷歌人工智能团队正在尝试基于生成式AI改变现在我们看到的一切。”

尤其是输入法中的文字修正功能、长文章的摘要整理功能,未来在大模型的加持下,将会在潜移默化中逐渐被大家频繁使用。

对于谷歌来说,更重要的是,谷歌认为,Pixel 8 Pro是第一款搭载端侧大模型的手机。

这将注定让谷歌再次载入史册。

本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码

《数字化转型方略》杂志