跳到主要内容

多模态应用

问题

如何将图片、语音、视频等多模态能力集成到 AI 应用中?

答案

一、多模态能力矩阵

模态输入 → 理解输出 → 生成典型场景
图片GPT-4o Vision, Claude VisionDALL-E, Stable Diffusion图片分析、生成
语音Whisper, Azure STTTTS(ElevenLabs, Azure)语音助手
视频Gemini Pro, GPT-4oSora(预览)视频理解
文档VLM 文档理解PDF 生成文档分析

二、图片理解集成

// GPT-4o Vision:图片 + 文字多模态输入
const response = await openai.chat.completions.create({
model: 'gpt-4o',
messages: [{
role: 'user',
content: [
{ type: 'text', text: '这张图片里有什么?' },
{
type: 'image_url',
image_url: {
url: 'data:image/png;base64,...', // Base64 或 URL
detail: 'auto', // low / high / auto
},
},
],
}],
})

detail 参数选择

Token 消耗效果适用
low85 tokens快但粗简单分类
high85 + 170×tiles精细OCR、细节分析
auto自动模型判断通用

三、语音集成

// 语音转文字 (STT)
const transcription = await openai.audio.transcriptions.create({
file: audioFile,
model: 'whisper-1',
language: 'zh',
})

// 文字转语音 (TTS)
const speech = await openai.audio.speech.create({
model: 'tts-1',
voice: 'alloy',
input: '你好,有什么可以帮你的?',
})

四、实际应用场景

场景多模态组合说明
以图搜图图片 → Embedding → 相似搜索电商、内容审核
文档 OCR 问答文档图片 → VLM → 文本 → RAG合同、发票
会议记录语音 → 文本 → 摘要会议纪要
AI 客服语音 → 文本 → LLM → 语音电话客服
商品描述生成图片 → 描述文本电商运营

常见面试问题

Q1: 多模态 LLM 和传统 CV/语音模型有什么区别?

答案

维度多模态 LLM传统模型
灵活性自然语言交互,任务灵活固定任务
泛化性零样本能力强需要标注训练
精度通用场景好,专业场景弱专业场景强
成本按 Token 计费,较贵推理成本低

实际项目中常结合使用:多模态 LLM 处理开放场景,专业模型处理高精度需求。

Q2: 图片输入的 Token 消耗如何计算?

答案
以 GPT-4o 为例:

  • detail: low:固定 85 tokens(缩放到 512×512)
  • detail: high:85 + 170 × 图块数(按 512×512 切块)
  • 一张 1024×1024 图片 high 模式约消耗 765 tokens

Q3: 如何做实时语音对话?

答案
关键挑战是延迟:

  1. 流式 STT — 边听边转写(非等说完再转)
  2. 流式 LLM — 流式生成回答
  3. 流式 TTS — 收到部分文本即开始合成
  4. VAD — 语音活动检测,判断用户说完

端到端延迟目标 < 1s,需要各环节流式衔接。OpenAI Realtime API 可实现。


相关链接