文章开始之前先说个冷知识:今年是 Google 举办 I/O 开发者大会的第 15 个年头。
纵观近七年来的 I/O 大会,AI 内容一直是 Google 的重中之重。例如在 ChatGPT 爆火之前,Google 就已经在 I/O 大会上展示过 LaMDA 系列语言生成模型,只是一直没等到大火的机会。
如今,ChatGPT 的爆发让 AI 来到了最好的时刻,但也让 Google 感到无比焦虑。
【资料图】
看完整场大会,Google 共提及「AI」一词近 200 次,几乎把 AI 写进了包括 Gmail、搜索、Pixel 等所有产品里面,迫切地想向所有人证明自己仍在 AI 最前沿。
如果把这场大会开在半年以前,那么它将无比精彩:AI 协助办公、AI 搜索、AI 编程,每一项都是重要的技术应用。只可惜在此之前,微软已经把所有的路都走了一遍。
现场观众的反应甚至可以说有点冷淡。事实上,现场只出现了两次热烈的欢呼:Bard 的暗黑模式,和 Pixel 平板免费赠送底座。
在今天的 I/O 大会 上,Google 发布的新产品、技术都像是对微软和 OpenAI 的一次追赶——追赶那个被抢先实现的 AI 未来。
PaLM2,Google 反击 GPT-4 的秘密武器
大语言模型目前俨然成为了科技圈最顶尖的产品,各家公司都希望能够拿出能够叫板 GPT 的自研模型,以证明自己的科研实力,Google 也不例外。
Google 发布了全新一代的大语言模型 PaLM2,与 GPT-4 对抗。
根据 Google 介绍,他们用了大量数学和科学数据集对 PaLM 2 进行训练,相比去年的 PaLM 模型,PaLM 2 在多语言处理、推理和编码能力上有了很大的提升 。
根据 Google 的官方测试,PaLM2 的部分结果(例如数学)比 GPT-4 还要好。
Google 并没有透露 PaLM 2 具体的参数规模,只提到 PaLM 2 是基于最新的 JAX 和 TPU v4 计算设施构建的。Google 对 PaLM 2 做了算法优化,使得它在体积上比 PaLM 要小,但整体性能更好,计算效率更高。
PaLM 2 支持 100 多种不同的语言和 20 多种编程语言,包括 JavaScript、Python、Prolog、 Verilog、Fortran 等,可以说是个语言通。
仅能做常规的文字理解和生成还不够,支持多模态的 PaLM 2 还能看懂和生成音视频内容,Google 展示了一个名为 Med-PaLM 的专为医疗领域微调的模型,可以根据 X 光片分析病人伤势,Google 其在这方面已经达到人类医生的水平。
PaLM 2 模型还可以「拆分」成不同大小的 4 种版本,在各种设备上部署。例如在智能手机上就可以运行规模比较小的 Gecko 模型,让移动端也能拥有大语言模型。
值得一提的是,PaLM 2 目前已经开放预览,Google 自家的聊天机器人 Bard 已经用上了 PaLM 2 模型,增强自己的作答能力。
Google 内容已经有超过 70 个产品团队在使用 PaLM 2 构建产品,本场大会上绝大部分更新都是基于 PaLM 2 模型设计而来,可以说 PaLM 2 就是 Google 全面 AI 化的核心引擎。
除了 PaLM 2,Google CEO 桑德尔·皮查伊还稍微了剧透了一点下一代大模型 Gemini(双子座)的消息,他称 Gemini 旨在实现多模态、高效和为未来创新而构建。
Gemini 是 Google Brain 和 DeepMind 两个顶尖 AI 团队合并后共同开发的全新模型,从命名上可以看出,Gemini 将会集二者之所长,有望挤入最强大的大语言模型之列。
Bard:升级多模态,能画图也能读图
更好看,更综合,更多人可以用到。
在不到 2 个月的更新后,Google 将 Bard 迁移到功能更强大的大语言模型 PalM2,这个 ChatGPT 和 BingChat 的竞争对手得到了大幅更新,能力更强大:
1.取消等候名单,向 180 多个国家和地区开放;
2.新增图片问答,对话更加直观;
3.整合 Adobe Firefly,快速生成图片;
4.来源引用、深色模式、代码导出按钮,更多细节更新。
英美限定、只会英文、等候名单,想用到限制颇多的 Bard 并不是件容易事。即日起,Bard 正式宣布取消等候名单,并向 180 多个国家和地区开放体验。
Bard 现在还支持了日语和韩语,很快就会将支持语言扩大到 40 种,包括中文。
功能方面 Bard 也有不小的升级,用四个字总结就是「图文并茂」。询问 Bard 问题时,它不再是一个只会干巴巴回复文字的机器人,还能用图片的形式为我们展示更丰富直观的答案。
同时,Google 还将 Google Lens 的能力带入了 Bard,让后者不仅可以回复图片,还能看懂图片,根据图片信息起草内容。比如,你可以把一只狗的照片发给他,让它根据狗的品种来写一些标题。
或许是隔壁文生图的功能好评声音太大,Google 也为 Bard 新增了这一功能,不过它是与 Adobe Firefly 合作的,整合了 Firefly 的 Bard,就可以用自然语言生成高质量图像了。而且有了 Adobe 的背书,图片的版权、质量都不需要担心。
Adobe 只是开始,Google 还将与 Kayak、OpenTable、zip 招聘公司、可汗学院等多个合作伙伴与同努力,为 Bard 增加更多功能。
相比 ChatGPT,Bard 的定位更偏向 BingChat,兼顾搜索引擎与生产力工具的它,会在下周加入引用功能,并为生成的代码展示来源以确保准确性。并新增了导出、运行代码的能力,方便开发人员高效工作。顺便还新增了深色模式,引起了现场欢呼。
虽然初登场时闹过一些乌龙,但 Google 还是让我们看到了一个不断进步的 Bard。只可惜在介绍中我们听到最多的词还是「we’ll」,等今日发布的功能全部实装上线后,Bard 就是一款足够全面且成熟的工具了。
Duet AI:办公的事交给 AI 做
Copilot 的竞争者来了。
Google 为自己的 Workspace 引入了一个全新的工具 Duet AI,让我们看到了 AI 在基于云计算的 Google 办公套件中扮演的角色:
1.文档:总结全文、自动编写;
2.幻灯片:文生图,提高效率;
3.表格:分析数据,制定策略。
在 Google 文档中,你可以告诉 Duet AI 想要创作的内容,让它自动生成文章。你也可以让它根据需求生成不同文风。
「阅读」文章、重点提问的类「ChatPDF」功能也没落下。
这些文字生成、扩写、调整的能力,同样也应用在 Google Mail 里。
幻灯片方面,Duet AI 扮演着一个图片生成器的角色,可以帮你节省在互联网上找图的时间,并用原创内容来丰富幻灯片。
在表格里,Duet AI 可以根据你的提问自动整理数据,让数据更加规范。
这些能力也可以与其他 Google 服务进行联动,比如当你在 Bard 中创建好一个表格后,可以一键生成表格文档,方便后续使用。
Duet AI 还增加了一套机器学习驱动的 Google 云开发工具,可以提供实时代码纠错、生成等,支持 Go、Java、Javascript、Python 和 SQL 等多种开发语言。
不用等 Bard 通过的我们,现在又可以等 Duet AI 了,如果你想体验这些功能,还是需要加入等待名单,等待 Google 在对应地区开启测试。
总体来说,Duet AI 少了些初见 Copilot 的惊艳,功能演示上似乎也弱了一些。但 Bard 用不到两个月的时间便迎头赶上,期待 Duet AI 能带来更多可能性吧。
Google 搜索:重新定义,全面全能
未来的搜索,或许应该长这样:
在 PaLM 2 的驱动下,Google 搜索也迎来了革新,推出了全新的搜索引擎 SGE(Search Generative Experience),你不需要再把一个大问题分割成多个小问题,搜索后再把答案凑起来,有了生成式 AI 的加持,你可以让搜索干一些重活了。
大会中,Google 重点展示了生成式 AI 在购物方面的提升,当你使用 Google 搜索一款产品时,你会看到它的产品描述、评论、价格和展示图。
拥有超过 350 亿产品列表的 Google,还在以每小时 18 亿的速度不断更新着,通过 Google 搜索购物,你可以获得更新鲜、可靠的结果。
Google 认为,广告是互联网的重要组成部分,他们将继续坚持对广告透明度的承诺,并保证广告和搜索结果的区分。
今天 Google 将开放搜索实验室的注册,并在未来几周内开启访问,支持 Google app 和 Chrome 浏览器。申请链接如下:labs.google.com/search
Google 的 AI 焦虑,只能用 AI 来解
有人戏称本届 Google I/O 应该叫做 Google AI/O ,微软和 OpenAI 的珠玉在前,Google 少了一点令人高呼 Amazing 的时刻,但这无疑也是 Google 近年来最为坚决的一次自我革命。
自称 AI-first 的 Google,却一直因为过于谨慎保守的策略多次错失先机。如今 Google 也终于意识到自己必须快速行动,就像 Google 多位高管所说的那样要「大胆而负责任」,不能再因为害怕犯错而踌躇不前了。
当然 AI 也并非万能药,大升级后的 Bard 也未必能改变 Google 搜索被颠覆的趋势。但毫无疑问,AI 会重塑搜索,彻底改变这种交互方式。
份额远不如 Google 的 Bing 已经通过聊天机器人,在短短几个月达到超过 1 亿的日活跃用户,进行了超过 5 亿次聊天,其中 70% 尝试新 Bing 聊天功能的用户, 都会用来进行搜索相关的任务。
当全球最大的搜索引擎决定抛下过往包袱,完全拥抱这个趋势,被改变的或许就不仅仅是 Google 的未来,更可能颠覆互联网的运行机制,改变数十亿的用户的交互。
一个全新、更简洁的世界将会来临。
关键词: