ChatGPT重磅更新！多模态GPT-4V将上线，加入语音对话、图片识别功能

chatgpt2024-05-29 11:52:06875

先做个广告：如需代充值GP4会员及购买GPT帐号，请添加站长客服微信：gptchongzhi

9月底，OpenAI 在官网宣布 ChatGPT 能看能听还会说，加入语音对话、图片识别的新功能，可以通过图片和语音命令交互。

推荐使用ChatGPT中文版，国内可直接访问：https://ai.gpt86.top

终于，OpenAI 赋予了 ChatGPT「看、听、说」的能力。

OpenAI 计划「在未来两周内」向 Plus 和 Enterprise 订阅者推出 ChatGPT 中的这些功能，它还指出，语音功能仅适用于 iOS 和安卓端应用，不过图像识别功能在网络界面和移动应用程序上均有提供。

与 ChatGPT 语音对话

第一，ChatGPT 现在能够进行语音对话。

要使用语音功能，只需在ChatGPT APP上导航到“设置”→“新功能”并选择加入语音对话。接着，在主屏幕右上角点击耳机图标，从「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五种不同的合成声音中选择一种。然后，就可以像打电话一样与聊天机器人进行对话，以问答的方式实时获得 ChatGPT 的回应。

与 ChatGPT 对话的能力利用了两个独立的模型。一个是 OpenAI 开源的语音识别系统，语音转文本模型 Whisper，可以将用户所说的内容转换为文本，然后输入到 ChatGPT 中。另一个是新的文本到语音模型，可以从 ChatGPT 的文字和短暂的语音样本中生成极为逼真的音频。

与 ChatGPT 图像对话

第二，ChatGPT 现在也可以回答有关图像的问题。

ChatGPT 新增的图像识别功能，允许用户使用 GPT-3.5 或 GPT-4 模型上传一张或多张图像配合进行对话。比如“如何调整自行车座椅高度”，ChatGPT会给出详细步骤。

ChatGPT的图像识别功能，准确的说是升级的图像理解，不单纯是一个图像识别或者图像分割，而是结合问题来解决问题。

其实，今年3月，OpenAI上线 GPT-4 时就展示了 AI 模型的多模态功能，由于隐私问题并未向公众开放。现在，你可以将图像上传到 ChatGPT 上，并询问它图片里包含什么。再结合之前一周 OpenAI 对图像生成模型 DALL-E3 进行了更新，集成到 ChatGPT。如此一来，图像功能就更完整了。

揭秘：多模态GPT-4V能力

多模态版本背后的 ChatGPT 模型是GPT-4V (ision)，此次更多细节也一并放出。其中最令人震惊的是，多模态版本早在 2022 年 3 月就训练完了。

文档链接：https://cdn.openai.com/papers/GPTV_System_Card.pdf

与 GPT-4 类似，GPT-4V 的训练是在 2022 年完成的，在 2023 年 3 月开始提供系统的早期访问。

由于 GPT-4 是 GPT-4V 视觉功能背后的技术，因此其训练过程也是一样的。首先训练预训练模型，使用来自互联网以及许可数据源的大量文本和图像数据集来预测文档中的下一个单词。然后，使用一种称为强化学习的人工反馈算法（RLHF），对其他数据进行微调，以产生人类训练者偏好的输出。

目前看来，GPT-4V 于 2022 年完成训练之后，一直在经历安全性测试。

与基于文本的语言模型相比，大型多模态模型引入了不同的限制，扩大了风险面。GPT-4V 具有每种模态（文本和视觉）的局限性和能力，同时呈现出由所述模态的交叉以及大规模模型提供的智能和推理而产生的新能力。

结合所有公布的视频演示与GPT-4V System Card中的内容，已经有网友总结出 GPT-4V 的视觉能力：

物体检测：GPT-4V 可以检测和识别图像中的常见物体，如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。
文本识别：GPT-4V 具有光学字符识别 (OCR) 功能，可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。
人脸识别：GPT-4V 可以定位并识别图像中的人脸。它具有一定的能力，可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。
验证码解决：在解决基于文本和图像的验证码时，GPT-4V 显示出了视觉推理能力。这表明该模型具有高级解谜能力。
地理定位：GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力，这证明模型吸收了关于现实世界的知识，但也代表有泄露隐私的风险。
复杂图像：GPT-4V 难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。