谷歌推出最强大模型Gemini

谷歌Gemini

Google正式推出了原生多模态的大型语言模型Gemini,可以同时支持文字、图片和声音的输入。在32项AI测试中,有30项的评分超越了OpenAI的GPT-4V。Google执行长Sundar Pichai强调,Gemini是Google有史以来最强大也是最通用的模型。Gemini预计推出三种版本,包括了模型最大的Ultra版、通用性最广的Pro版,以及可以在手机装置上运作的Nano版。

Gemini可以同时分辨和理解文字、图片和声音,也可以用来分辨和解释几种热门开发语言,包括Python、Java、C++和Go语言,可以理解跨开发语言来推论複杂讯息。Google也用了Gemini打造了新版的程式码生成系统AlphaCode 2,比2年前的第一代改进很多,可以解决两倍的问题。

Gemini使用了Google自行开发的晶片TPU训练而成,而且使中了v4和v5e版TPU。Google同时宣布了新版TPU v5p,可用来加速Gemini模型的开发,供企业用来客制化训练自己的LLM模型。TPU v5p单一丛集可支援到8,960颗TPU,和TPU v4相比,能够提供2倍FLOPS的算力,记忆体频宽也提高了3倍。

Google目前先在Bard中使用一个微调过的Gemini Pro版本,可提供推理和计画的回答能力。目前先释出英语版,可再全球170个国家和地区使用,预计近期会支援更多语言。

Google展示了一段让人震惊的实测影片,来呈现Gemini多模态的回答能力,让Gemini一边看著(输入)影片来解读影片中画面的内容。例如Gemini可以一边解读影片中,展示人员用手即时画图过程,每一个动作所对应的意义,这是只鸭子,现在在水上游泳,有蓝色外观。当展示人员拿出实体玩具鸭子按压发生声音时,AI甚至有趣的说,真的拿出了呱呱叫的鸭子,AI还能纠正展示人员对于“鸭子”中文发音的重音位置错误。 AI能分辨人手势代表的意义,也能分辨不同物体的异同,例如都是食物,或都是圆体。看影片还能推理出哪个杯子藏了硬币,彷彿就像人边看影片边解说的行为。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享