开口问也可以！OpenAI 让 ChatGPT 接受语音输入、图片上传提示

AI与大数据 6小时前 0

▼

AI 聊天机器人 ChatGPT 推出近 1 年，正在学习以新的方式理解你的提问，未来不只透过文字提示，甚至可以语音输入和图片上传 2 种新方式来提供提示。

ChatGPT 风靡全球，能以一问一答的方式激发人们创意，帮助提升工作生产力，现在 OpenAI 进一步拓展使用 ChatGPT 的新方式，不仅可以透过文字方块输入提示对这个聊天机器人发问，还能透过语音输入或图片上传的方式提供提示。新功能将在未来两周内优先提供付费使用的 ChatGPT Plus、ChatGPT Enterprise 用户，其他用户很快也能获得它。

首先在 ChatGPT 语音输入方面对大多数用户应不陌生，你只需要点击按键并说出问题即可，ChatGPT 帮助你将语音转成文字，接着让大型语言模型进行运算、获得答案，最后又将文字转成语音，ChatGPT 会把答案朗诵出来。这与 Siri、Google 助理（Google Assistant）、Alexa 对话的方式一致，只是对象变成了 ChatGPT，受益于 OpenAI 开发的大型语言模型，语音回答的内容可望更加精准、丰富。

OpenAI 拥有出色的 Whisper 模型可以完成大量语音转成文字的工作，但该公司正在推出一种新的文字转语音模型，据称能以几秒钟的语音样本和文字内容产生人声，于是你可以从 5 种预设选项选出 1 种 ChatGPT 的答复语音。

然而 OpenAI 似乎认为新模型的潜力不只如此，正与 Spotify 展开合作，将平台的 Podcast 节目内容翻译成其他语言，同时保留原本的音讯。

合成语音能有许多有趣用途，OpenAI 的新模型只需要几秒钟音讯就能产生合成语音。与此同时，OpenAI 更承认这将带来许多问题与风险，比方说不法分子冒充公众人物进行诈骗。OpenAI 则表示，基于这种原因，新模型无法广泛开放，对于特定用途与合作伙伴，将受到更多限制。

Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.

Sound on pic.twitter.com/3tuWzX0wtS

— OpenAI (@OpenAI) September 25, 2023

▲ OpenAI 让 ChatGPT 接受图片上传（上）、语音输入（下）的提示方式。

至于在 ChatGPT 上传图片的作用有点像 Google 智慧镜头（Google Lens），当你拍下任何感兴趣的照片上传给 ChatGPT，它会尝试弄清楚你所问的问题并做出回应。你也可以使用绘图工具帮助你明确查询，或者进一步输入关键问题来搭配图片，与 ChatGPT 一问一答、一来一往的特性彻底发挥作用。

但 OpenAI 也表示，基于准确性和隐私因素，该公司故意限制 ChatGPT 分析并直接发表陈述个人的能力，所以要 ChatGPT 看图说出“他是谁”的情况恐怕还看不到。

虽然透过语音输入或图片上传新方式，来为 ChatGPT 提供提示仍有限制，但 ChatGPT 背后有 GPT-3.5 甚至是强大的 GPT-4 模型支持，相较于常见的语音助理，ChatGPT 的答复可望更精准、内容更丰富。

You can now prompt ChatGPT with pictures and voice commands
OpenAI gives ChatGPT a voice for verbal conversations
ChatGPT will soon accept speech and images in its prompts, and be able to talk back to you

（首图来源：Unsplash）

延伸阅读：

OpenAI 将办首场开发者大会，执行长先暴雷：没有 GPT-5
ChatGPT 疯狂变现，OpenAI 营收突破 10 亿美元
ChatGPT 企业版上线！无访问限制、两倍速、3.2 万 token⋯⋯OpenAI 开始抢钱
ChatGPT 流量连三个月衰退，开学季有望触底反弹
准确率过低，OpenAI 悄悄关闭 AI 内容检测工具

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

延伸阅读：

相关文章