本报记者 徐晓语

  与GPT-4 Turbo相比,OpenAI最新旗舰生成式AI模型GPT-4o的价格减半,速度提升2倍,速率限制高出5倍。

  除了拥有多种模态的能力,GPT-4o的推出还伴随着一大亮点:免费。据悉,它将在未来几周内分阶段集成至OpenAI的各个产品之中。

  “有史以来最好的模型”

  北京时间14日凌晨,OpenAI首席技术官米拉·穆拉蒂在发布会上搬出新模型GPT-4o,并展示了公司的一系列创新之处。

  GPT-4o在速度和价格方面都较上一代有显著优势,可以处理50种不同的语言,同时拥有处理文本、图像、音频等多种模态的能力,可以为用户带来更自然、流畅的交互体验。

  本次发布会,穆拉蒂主要列举了几个点。

  第一,新模型GPT-4o用户不用注册,功能全部免费。

  在此之前,ChatGPT的免费用户只能使用GPT-3.5。而更新后,用户可以免费使用GPT-4o来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。

  当然,免费的前提被限制在一定的消息数量上,一旦超过规定数量,免费用户的模型将被切换回GPT-3.5。而付费用户将获得更高的消息数量,至少是免费用户的5倍。

  同日,OpenAI首席执行官山姆·奥特曼发推文表示,新的GPT-4o是OpenAI“有史以来最好的模型”。

  第二,ChatGPT增设了PC端桌面版本。

  苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面,然后将截屏同步给ChatGPT并向它提问。这种轻量化的使用体验可以无缝融入用户的工作流程中,减少了登录网页消耗的时间。

  OpenAI还表示,Windows版本将在今年晚些时候推出。穆拉蒂表示,这也是他们第一次在易用性上做出改进。

  此外,ChatGPT还优化了用户界面,旨在提升用户体验,使交互更加流畅自然,确保用户聚焦于与ChatGPT的高效合作,而非界面操作本身。

  发布会后,业界一片哗然。有媒体称这预示着“智能时代的一次进化”,未来移动设备中的互联网可能会被浓缩在一个程序之中,用户可以通过它解决一切需求:发短信、导航、识物、打车等。

  更加健谈

  前几天,奥特曼就在一档播客中预告,OpenAI将改进并提升ChatGPT的语音功能质量,并表示相信语音交互是通向未来交互方式的一个重要途径。

  首先,它的响应速度大幅提升。

  GPT-4o与人类在对话中的反应速度一致。也就是说,它已经可以达到“实时”响应的状态,不再像以前那样,在得到回答前需要尴尬地等上几秒钟。

  同时,就像与真人聊天一样,用户可以在GPT-4o回应的过程中打断它,并提出更多的要求,比如转变话题、要求它改变语音语调甚至让它用机器人或音乐剧的形式回答。

  其次,它对情绪的捕捉显得更敏感细腻。

  发布会上,GPT-4o能够从主持人的喘气声中理解“紧张”的含义,并指导他进行深呼吸。当受到称赞后,它还会马上接话:“别说了,你让我脸都红了。”

  发布会上,主创团队还展示了GPT-4o各种功能的使用情况,包括实时翻译、教学如何解方程式、识别人物表情等。目睹了GPT-4o应答如流的过程,不少用户评论这一新模型“显得更加健谈了,有时甚至有些轻浮”。

  但GPT-4o的功能呈现也伴随着一些失误。它在现场把主持人的笑脸误认为是一个桌面,还在方程式尚未显示的情况下尝试解题。

  消除神秘感

  去年,马斯克旗下xAI团队发布的首个人工智能大模型产品Grok,因回答用户问题“无所忌讳”而出圈。xAI团队在介绍该产品时还说:“如果你不喜欢幽默,请不要使用它!”

  其实不管是Grok,还是谷歌子公司DeepMind联合创始人苏莱曼开发的AI机器人Pi,都具有鲜明的个性化特点。

  有评论称,相较之下,GPT-4o稳定处理文本、图像、音频的能力,让OpenAI在这场人工智能争霸赛中领先。

  有趣的是,穆拉蒂在介绍GPT-4o时将其描述为“神奇的”。但她同时补充,随着产品的推出,公司将“消除这种神秘感”。

  有分析指出,GPT-4o实行免费是一大关键,这意味着OpenAI开始加大将大模型推向市场的力度。

  近日,苹果公司被曝正与OpenAI敲定一项协议,今年将后者的部分技术引入iPhone。借此苹果将能提供由ChatGPT支持的“聊天机器人”,作为iOS 18中人工智能功能的一部分。

  虽然关于OpenAI与苹果合作的传闻一直存在,且都未得到证实。但眼尖的人也发现,在OpenAI发布会的现场,苹果的产品被广泛使用。

  与此同时,谷歌2024年I/O开发者大会将于北京时间5月15日1时举行,正好在OpenAI最新发布会的24小时后。据悉,谷歌将在大会上展示其最新的人工智能开发成果,并发布Gemini大模型的最新动态。

  去年底,谷歌宣布推出其认为规模最大、功能最强大的人工智能模型Gemini,同样在识别文本、图像、视频上具备强理解和推理能力。

  当各大科技巨头都亮出自己的法宝争做王者,公众也很好奇,谁会更受市场和业界青睐。

编辑:黄昂瑾
更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索,24小时报料热线400-800-0088;消费者也可通过央广网“啄木鸟消费者投诉平台”线上投诉。版权声明:本文章版权归属央广网所有,未经授权不得转载。转载请联系:cnrbanquan@cnr.cn,不尊重原创的行为我们将追究责任。
长按二维码
关注精彩内容