开口问也可以!OpenAI 让 ChatGPT 接受语音输入、图片上传提示

开口问也可以!OpenAI 让 ChatGPT 接受语音输入、图片上传提示

AI 聊天机器人 ChatGPT 推出近 1 年,正在学习以新的方式理解你的提问,未来不只透过文字提示,甚至可以语音输入和图片上传 2 种新方式来提供提示。

ChatGPT 风靡全球,能以一问一答的方式激发人们创意,帮助提升工作生产力,现在 OpenAI 进一步拓展使用 ChatGPT 的新方式,不仅可以透过文字方块输入提示对这个聊天机器人发问,还能透过语音输入或图片上传的方式提供提示。新功能将在未来两周内优先提供付费使用的 ChatGPT Plus、ChatGPT Enterprise 用户,其他用户很快也能获得它。

首先在 ChatGPT 语音输入方面对大多数用户应不陌生,你只需要点击按键并说出问题即可,ChatGPT 帮助你将语音转成文字,接着让大型语言模型进行运算、获得答案,最后又将文字转成语音,ChatGPT 会把答案朗诵出来。这与 Siri、Google 助理(Google Assistant)、Alexa 对话的方式一致,只是对象变成了 ChatGPT,受益于 OpenAI 开发的大型语言模型,语音回答的内容可望更加精准、丰富。

OpenAI 拥有出色的 Whisper 模型可以完成大量语音转成文字的工作,但该公司正在推出一种新的文字转语音模型,据称能以几秒钟的语音样本和文字内容产生人声,于是你可以从 5 种预设选项选出 1 种 ChatGPT 的答复语音。

然而 OpenAI 似乎认为新模型的潜力不只如此,正与 Spotify 展开合作,将平台的 Podcast 节目内容翻译成其他语言,同时保留原本的音讯。

合成语音能有许多有趣用途,OpenAI 的新模型只需要几秒钟音讯就能产生合成语音。与此同时,OpenAI 更承认这将带来许多问题与风险,比方说不法分子冒充公众人物进行诈骗。OpenAI 则表示,基于这种原因,新模型无法广泛开放,对于特定用途与合作伙伴,将受到更多限制。

▲ OpenAI 让 ChatGPT 接受图片上传(上)、语音输入(下)的提示方式。

至于在 ChatGPT 上传图片的作用有点像 Google 智慧镜头(Google Lens),当你拍下任何感兴趣的照片上传给 ChatGPT,它会尝试弄清楚你所问的问题并做出回应。你也可以使用绘图工具帮助你明确查询,或者进一步输入关键问题来搭配图片,与 ChatGPT 一问一答、一来一往的特性彻底发挥作用。

但 OpenAI 也表示,基于准确性和隐私因素,该公司故意限制 ChatGPT 分析并直接发表陈述个人的能力,所以要 ChatGPT 看图说出“他是谁”的情况恐怕还看不到。

虽然透过语音输入或图片上传新方式,来为 ChatGPT 提供提示仍有限制,但 ChatGPT 背后有 GPT-3.5 甚至是强大的 GPT-4 模型支持,相较于常见的语音助理,ChatGPT 的答复可望更精准、内容更丰富。

  • You can now prompt ChatGPT with pictures and voice commands
  • OpenAI gives ChatGPT a voice for verbal conversations
  • ChatGPT will soon accept speech and images in its prompts, and be able to talk back to you

(首图来源:Unsplash)

延伸阅读:

  • OpenAI 将办首场开发者大会,执行长先暴雷:没有 GPT-5
  • ChatGPT 疯狂变现,OpenAI 营收突破 10 亿美元
  • ChatGPT 企业版上线!无访问限制、两倍速、3.2 万 token⋯⋯OpenAI 开始抢钱
  • ChatGPT 流量连三个月衰退,开学季有望触底反弹
  • 准确率过低,OpenAI 悄悄关闭 AI 内容检测工具

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。