5 月 11 日凌晨,Google I/O 2023 开发者大会如期举行。作为汇聚了大部分核心内容的 Keynote 主题演讲,Google 以「让人人都能从 AI 中受益」为主题,围绕大模型、搜索体验、生成式 AI 以及软硬件新品展开并分享了诸多内容。
本文为你汇总 Keynote 演讲亮点。
Google AI 的基石,不只有 PaLM 2
2022 年 4 月,早在 ChatGPT 一夜爆红出圈之前,Google 便推出了自家的大语言模型 PaLM。PaLM 基于 Google 于 2021 年推出的 Pathways 模型架构,在语言理解、生成,逻辑推理以及代码生成方面有着不俗的能力,但此前仅以 API 的方式面向企业用户开放。
而在大模型应用层出不穷的 2023 年,作为 Google 基础大模型的 PaLM 本次也迎来了第二个大版本——PaLM 2。
PaLM 2 支持 100 多种语言,在常识推理、逻辑运算以及数学能力方面优势明显,此外还能根据不同专业领域的知识信息进行调优(Fine-Tuning),比如基于信息安全信息的 Sec-PaLM 2 可以帮助开发者定位恶意脚本内容并排查安全风险,基于医疗领域专业知识进行调优的 Med-PaLM 2 则是首个在医疗许可测验中表现超过人类专家水平的大模型。
根据模型体量的不同,PaLM 2 又以不同动物为名分为壁虎(Gecko)、水獭(Otter)、野牛(Bison)与独角兽(Unicorn)四大类别。比如 Gecko 所需要的算力和存储空间最小,支持在移动设备上离线运行。根据 Sunder Pichai 的介绍,本次 Keynote 演讲中共有 25 项新功能基于 PaLM 2 进行打造,基于 PaLM 2 的 API 也将以预览体验的方式向用户开放。
值得一提的是,近期由两个部门合并而成的 Google DeepMind 目前正在为 Google 训练下一代多模态大模型 Gemini。
Bard 编程能力增强,第三方接入在路上
作为基于 GPT-4 的微软 Bing 聊天机器人的直接竞争者,Google Bard 自今年 2 月上线以来并没有太多明显动作。而随着本次 PaLM 2 的发布,Google 也宣布 Bard 已完全基于 PaLM 2 运行。
得益于此,Bard 在编程能力方面有了巨大进步。最新版 Bard 熟练掌握了 20 多种编程语言,在代码注释、代码释义、代码改进以及代码格式化方面均能提供直观、快速的辅助支持;为了照顾开发者的使用体验,Bard 还新增了暗色模式并支持直接导出至 Colab、Gmail 或 Google Docs 在线文档。
除了基于 PaLM 2 的代码能力,Google 同时也宣布为 Bard 带来 Tools 扩展支持。首波扩展主要为 Google 应用,如直接调用 Google 搜索的知识图谱和图片搜索结果,基于 Google Lens 提供图片内容识别能力,调用 Google 地图等服务提供更加丰富的反馈结果等。
此外 Bard 还将接入更多第三方服务,如 Spotify、可汗学院、Instacart 等。在接下来的几个月时间内,Bard 将首先整合基于 Adobe Firefly 的图像生成能力。
最后,Google 也宣布从即日起移除 Bard 的等待名单候补机制,正式面向 180 多个英语语言国家和地区的用户开放;此外,Bard 也将从即日起正式支持日语和韩语,未来还将额外扩展 40 多种语言支持并迁移至 Gemini 模型。
更多面向 Workspace 的生成式 AI 服务
如果说 PaLM 2 和 Bard 是对 GPT-4、Bing 聊天机器人的回应,那针对 Google Workspace 的一系列生成式 AI 服务,则更像是直接对标不久前高调亮相的 Microsoft 365 Copilot 的。
针对 Gmail 和 Google Docs 用户的 Help me write 功能自 3 月份开始已经在部分用户中开启了测试,Help me write 功能用于写作建议,比如在撰写招聘启事时输入职位名称,PaLM 2 模型便会生成一份基于对应职位、包含岗位要求的招聘文案;
而在 Google Sheets 中,侧栏面板中的 Help me organize 功能能够基于文本提示语内容快速生成可用的表格模板:
至于 Google Slides,则基于 Help me visualize 功能实现了图片素材生成功能,和 Microsoft Designer 类似,Help me visualize 还允许用户手动调节图像生成的风格和样式。除了这些功能,Google Workspace 还将从下个月开始向部分用户推送 6 项额外的生成式 AI 功能。
所有功能还将以 Duet AI for Workspace 的名义,在今年晚些时候面向所有企业用户和普通消费者开放。
不难看出,和同类产品类似,Google 所有 Workspace 套件的生成式 AI 服务也都是围绕提示语(prompt)工作的,所以 Google 还在本次 Keynote 演讲中展示了一段 demo,在这段 demo 中,用户可随时通过主界面右上角的 Bard 图标启动名为 Sidekick 的侧面板功能。Sidekick 能够在打开时自动汇总、识别当前内容并生成实时的提示语建议,进一步辅助内容创作、文章配图、邮件摘要、快速回复等需求,在此过程中,用户 Workspace 中在线文档、表格的内容也能根据需求随时、快速调用。
为了方便用户体验新功能,Google 还上线了一个名为 Labs 的新页面用于功能预览和等候名单注册。值得一提的是,微软也于 5 月 10 日开启了 Copilot 的抢鲜体验计划并将 Copilot 拓展到了 Outlook、OneNote 和 Viva 产品线中,而可以预见的是 Duet AI for Google Workspace 将会遭到与 Copilot 同等的质疑——如何妥善处理企业的机密信息、如何确保生成内容的准确性又如何保证 AI 在企业工作中的实际效率?
AI 时代的搜索体验:自然、直观、可对话
除了 PaLM 2、Bard 以及 Duet AI,基于生成式 AI 的新版 Google 搜索体验也在本次 Keynote 演讲中亮相。和隔壁的新版 Bing 类似,Google 搜索在 AI 的加持下,主打更聪明、更简单的信息检索体验,在单次搜索请求中可以理解更加复杂的长句子关键字输入了。
新的搜索页面则由有明显标识的广告、生成式 AI 信息面板以及常规搜索结果排名组成。其中生成式 AI 面板还将提供话题跟踪和对话聊天支持,方便用户像使用 Google Assistant 语音助手的手动输入模式那样使用 Google 搜索。
不同于 Google Assistant 以语音为主的反馈方式,整合在 Google 搜索中的对话功能不仅能理解上下文语境,还会根据 Google 搜索引擎海量、实时的信息整理各种图文并茂的回答,向用户提供更加直观易懂的结果和建议。和 Duet AI 类似,基于生成式 AI 的新版 Google 搜索体验也将借助名为 SGE 的测试项目,在接下来几周时间开始通过 Labs 向用户开放测试。
从快速、低成本搭建,到稳定、负责任落地
除了面向企业用户和普通消费者的生成式 AI 服务与功能,Google 也用了一个单独的环节来宣传其 Google Cloud 业务对生成式 AI 的支撑,借助 Vertex AI 平台提供的聊天、文本和图像 API,开发者可以快速打造生成式 AI 服务,并且无需担心模型训练数据的隐私安全;随着越来越多的厂商接入生成式 AI 解决客服、售后等需求,Google Cloud 将提供更多满足不同规模、延迟和成本需求的基础设施供开发者选用。
对普通用户而言,Google 宣布将与 character.ai 合作,方便普通用户打造深度定制、个性化、可互动的 AI 角色;同时 Google 也将与 Salesforce、Jasper 等厂商合作,借助 Vertex AI 融合不同数据模型的能力提供协同服务。
在 PaLM 2 之外,Vertex AI 还将提供 Imagen、Codey 和 Chirp 三种额外模型,分别对应图像、代码和语音转文字能力;Google 同时还将为开发者提供基于人类反馈的强化学习服务,借助更精确的训练反馈对模型能力进行精细化调优,以及 Duet AI for Google Cloud,为开发者的代码和开发工作提供自动补全、纠错等功能。
Google 同时也透露,所有生成式 AI 模型均构建在经 AI 架构优化后的 Google Cloud 服务器上,包括本次主推的 A3 虚拟机。相比传统服务器,这些服务器在执行大规模训练任务时的算力提升了 80%、费用开销则节省了 50%——换句话说,Google Cloud 在 AI 架构优化的帮助下,以 50% 的成本实现了近乎翻倍的算力提升。
为了宣传 Google Cloud 强大的开发支持能力,Google 展示了一个由 5 名软件工程师花数周时间搭建的新应用——Project Tailwind。Tailwind 是一个基于 PaLM 2 API 的笔记应用,它以用户存储在云端的在线文档为基础,自动生成摘要、问答等信息卡片。Tailwind 同样将在晚些时候通过 Labs 页面开放测试。
经历了一系列 AI 产品发布灾难以及 AI 道德与伦理团队变故之后,「负责任的 AI」(responsible AI)一词在 Keynote 演讲中被 Google CEO Sundar Pichai 多次提及——和微软在新版 Bing 以及 GPT 聊天机器人方面近乎狂热的投入不同,Google 在去年年底到今年这场生成式 AI 的热潮中似乎总有些迟钝和慢热。
所以本次 Keynote 主题演讲的另一大主线,是向人们解释这种策略背后的思考:AI 能够帮助人更好地理解知识、完成工作甚至实现学术研究方面的新突破,但易得、易用的 AI 工具也在社会层面引发了不小的争议,从 AI 数据来源的合法性到 AI 生成信息的真实性,越来越多的事件已经证明,与 AI 相关的安全、伦理与社会责任问题不可小视。
或许你也看过教皇穿羽绒服的图片,在后续的产品更新中,Google 将通过图片搜索结果注明 AI 生成的相关信息、提供更多图片相关的元数据(比如该图片首次被收录索引的时间及来源)等方式,帮助用户识别 AI 生成的图片、限制虚假信息传播。
Android 14:跨设备体验补全、AI 助力个性化
相比 AI,Android 14 在本次 Keynote 主题演讲中的戏份明显减少。在本部分开头,Google 首先强调了一波围绕 Android 生态的跨设备体验:目前已有 50 多款 Google 应用进行了平板适配,同时 Spotify 等不少第三方应用也已经推出了大屏版本;而自自两年前与三星合作公布 Wear OS 3 以来,Wear OS 实现了近 5 倍的用户增长,是近年增速最快的可穿戴系统。今年夏天,国外用户的「微信」WhatsApp 也将正式登录 Wear OS,将你的朋友从掌上屏幕带入腕上设备。
同时,酝酿许久的 Find My Devices 众寻网络终于在主题演讲中官宣,追踪器、耳机等市面上在售的第三方设备将会接入由 Android 设备组成的 Google 众寻网络;同时,作为上周宣布的与 Apple 合作制定反跟踪标准的成果,Find My Devices 服务还会检测并提醒你身边发现的未知追踪器,AirTags 亦在其列。Find My Devices 的相关功能将于今年夏季向用户推送。
Android 14 这边,Google Message 将基于生成式 AI 提供不同风格的消息回复建议:
同时个性化定制功能在 AI 的加持下也得到了加强,除了 Material You 的自动取色、锁屏时钟样式与锁屏快捷方式定制外,Android 14 还支持 Emoji 壁纸和基于 AI 的 Cinematic Wallpaper,Cinematic Wallpaper 会自动区分图片中的前景和背景,让普通图片在解锁或晃动手机时呈现视差动效。
Emoji 壁纸和 Cinematic Wallpaper 预计将于下月通过 Android 14 Beta 3 向 Pixel 设备推送,此外 Google 还将在今年秋季上线完全基于结构化提示语生成的壁纸服务。
三款新硬件亮相,这次没有新机预告环节
最后,Google 也在本次主题演讲中一口气发布了三款 Pixel 硬件新品:Pixel 7a、Pixel Tablet 和 Pixel Fold,三款设备均搭载 Google Tensor G2 处理器。
其中 Google Pixel 7a 配备了 8GB 运行内存以及更大尺寸的 6400 万像素主摄传感器,定价方面和爆料相同为 499 美元,Google Store 还有专属的珊瑚红配色,即日开售。
Pixel Tablet 则配备一块 11 英寸 2560×1600 分辨率屏幕、3 枚远场优化麦克风、4 组立体声扬声器、集成式指纹识别电源键以及 800 万像素前置、后置摄像头;借助充电音箱底座以及 Hub 模式,可实现更多智能显示屏功能,如智能家居控制;同时还内置 Chromecast,支持从其他设备进行媒体内容投射播放。Pixel Tablet 提供三种可选配色,定价 499 美元,售价包含充电音响底座。
Google 的首款折叠屏设备 Pixel Fold 则提供 IPX8 防水防尘支持,定价 1799 美元,即日起开始预定,下月正式发售,预定用户还将获赠一块 Pixel Watch。
关于硬件部分的详细配置参数,因为与此前的爆料基本一致,本文不再赘述,感兴趣的朋友请移步至前瞻。另外,本次主题演讲并未发布 Pixel 8 系列以及下一代 Pixel Watch 的相关预告。
关联阅读:Google I/O 2023 前瞻:四大看点,量大管饱
以上便是本次 I/O 2023 主题演讲的全部看点。你最期待的新功能有哪些?Google 的新硬件是否能让你心动?欢迎在评论区留言分享你的看法。
> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰
> 实用、好用的 正版软件,少数派为你呈现 🚀