Multimodal AI:多模态AI

张开发
2026/6/8 13:30:52 15 分钟阅读

分享文章

Multimodal AI:多模态AI
一句话解释多模态 AI 是能够同时理解、连接或生成多种信息形式的 AI例如文本、图像、音频、视频、代码、表格和传感器数据。如果说早期大语言模型主要是在“读文字、写文字”多模态 AI 则是在让模型逐渐学会“看、听、说、读图、读表、看视频并把这些信息放在同一个任务里理解”。为什么最近变火多模态不是 2020 年代才出现的概念。语音识别、图像识别、视频理解、OCR、图像字幕生成、视觉问答等方向已经发展多年。但它在近几年突然变成 AI 热词主要是因为大模型把这些原本分散的能力开始统一到同一个交互界面里。过去一个系统可能这样分工一个 OCR 模型负责识别图片里的文字一个视觉模型负责判断图片内容一个语音模型负责把声音转文字一个语言模型负责回答问题一个业务系统负责执行操作。多模态大模型的目标是把这些能力更自然地连接起来。用户可以上传截图、拍照、语音提问、给一段视频、附上一份 PDF然后用自然语言要求模型解释、总结、分析、生成或执行下一步。近几年有几个关键节点让多模态 AI 快速升温2021 年CLIP 通过大规模图文对比学习让文本和图像可以在同一语义空间中对齐。2021-2022 年DALL·E、DALL·E 2、Imagen、Stable Diffusion 等文本生成图像系统让大众看到“用语言生成视觉内容”的可能。2022 年Flamingo、BLIP、PaLI 等视觉语言模型推动图像理解、视觉问答、图像字幕生成和少样本学习。2023 年GPT-4V、Kosmos-1、LLaVA、MiniGPT-4 等让“能看图并对话”的多模态大模型成为热点。2023 年底Google Gemini 以原生多模态模型家族的形式发布强调文本、图像、音频、视频等能力。2024 年GPT-4o 把实时语音、视觉和文本交互推向更自然的人机互动体验。2024 年之后Sora、Veo、Runway 等视频生成系统继续推动文本、图像和视频之间的生成式转换。这背后的根本原因是真实世界本来就不是纯文本的。人类学习、工作和沟通时会同时使用语言、图片、声音、手势、图表、空间关系和时间变化。AI 如果只处理文本就会失去大量信息。它解决了什么问题信息形式太单一纯文本模型无法直接理解图片、截图、语音、视频和图表。人机交互不自然用户需要把现实世界的信息手动转成文字成本高且容易丢失细节。文档理解困难合同、论文、发票、PPT、表格、流程图通常同时包含文字、布局和视觉结构。视觉场景无法直接问答用户不能方便地问“这张图哪里有问题”“这个界面怎么操作”。创作流程割裂写文案、生成图片、配音、剪视频往往需要不同工具。无障碍需求图像描述、语音交互、视频理解可以帮助视障、听障或行动不便用户。现实任务需要感知机器人、自动驾驶、工业检测、医疗影像等任务不能只靠文本。多模态 AI 的价值不只是“让模型多一个输入类型”而是让模型能够跨模态整合信息。例如用户问“这张销售图表说明了什么帮我写成给老板看的三句话。”这里同时需要视觉识别、图表理解、数值推理、语言总结和商务表达。核心概念1. 模态模态指信息的表现形式。常见模态包括模态例子典型任务文本文章、对话、代码、表格字段问答、摘要、翻译、写作图像照片、截图、图表、医学影像分类、检测、OCR、视觉问答音频语音、音乐、环境声语音识别、语音合成、音频理解视频电影片段、监控、教学视频动作识别、视频问答、视频生成结构化数据表格、数据库、JSON数据分析、查询、报表生成传感器数据雷达、激光雷达、GPS、机器人状态自动驾驶、机器人控制、工业检测多模态 AI 的关键是模型不仅要分别处理这些模态还要建立它们之间的关系。2. 模态对齐模态对齐是多模态 AI 的核心问题之一。模型需要知道一段文字和一张图片之间的关系。例如图片一只狗叼着飞盘在草地上奔跑 文字a dog running with a frisbee on grass人类很容易知道这两者描述的是同一场景但机器需要通过训练学会这种对应关系。CLIP 的重要性就在于它用大量图文对训练模型让匹配的图文在向量空间中更接近不匹配的图文更远。对比学习与 InfoNCE 损失CLIP 用的训练目标叫对比学习Contrastive Learning背后的损失函数叫InfoNCE。直观可以这样理解假设一个 batch 里有 N 张图片和 N 段对应文字一共 N×N 种图-文配对方式。其中只有 N 对是真正匹配的对角线上其余 N²−N 对都是配错的负样本。模型的目标就是对每张图让它的 embedding 和正确的那段文字embedding 相似度最高同时让它和其他 N−1 段错误文字的相似度尽量低。InfoNCE 损失就是把这个目标写成 softmax 的形式对每张图所有 N 段文字的相似度构成一个分布目标是让分布的概率质量集中在正确那段。这本质上是个 N 分类问题——“在 N 段文字里挑出哪个匹配我”。这种训练有几个工程含义batch 越大越好负样本越多模型学到的什么算不相似越精细。CLIP 原论文用 32K 的 batch size。温度参数temperatureInfoNCE 公式里有个温度 τ控制 softmax 的陡峭程度。τ 太大对比信号弱τ 太小训练不稳定。正负样本质量决定一切如果数据集里有大量图文不准确匹配或两张几乎一样的图配不同文字模型会学错。这种对齐能力让模型可以做零样本图像分类、图文检索、文本引导图像生成等任务。图像图像编码器文本文本编码器图像向量文本向量计算相似度图文对齐3. 视觉语言模型视觉语言模型Vision-Language Model通常指能同时处理图像和文本的模型。它可以完成图像描述、视觉问答、图文检索、截图理解、图表分析等任务。早期视觉语言模型常常是视觉编码器 文本模型的组合。视觉编码器把图片转换成向量表示再把这些视觉表示接入语言模型让语言模型基于图像内容生成回答。ViT把图像切成 patch 当 token 处理要理解现代多模态模型必须理解ViTVision Transformer。它的关键想法是既然 Transformer 在处理token 序列上这么强能不能把图像也变成一串 tokenViT 的做法很直接把输入图像切成固定大小的小方块例如 16×16 像素一个patch一张 224×224 的图就变成 14×14 196 个 patch每个 patch 展平后通过一个线性投影变成一个向量等同于一个 token 的 embedding再加上位置编码不然模型不知道 patch 在图的哪个位置把这串 token 输入标准 Transformer 编码器输出的就是图像的视觉表示。原图 224×224 ──切 16×16 patch── 196 个 patch ──线性投影── 196 个 token │ ▼ 位置编码 → Transformer → 视觉表示ViT 的好处沿用 Transformer 的成熟训练和推理工程栈通过加大 patch 数量或 patch 大小可以平衡分辨率与算力视觉表示天然就是token 序列方便和语言模型的 token 拼接这就是 LLaVA、Qwen-VL、Gemini 等多模态架构的关键基础。CLIP 的图像编码器既可以用 CNNResNet 变体也可以用 ViT现代多模态模型几乎清一色用 ViT 或它的衍生SigLIP、SAM ViT 等。理解 patch tokenization就能看懂为什么多模态模型的图像 token 数是有限的——它直接由 patch 数决定决定了模型同时处理多少视觉细节。简化结构如下图片或截图视觉编码器用户问题语言模型视觉表示适配器文本回答LLaVA、MiniGPT-4 等开源方向都体现了这种思路把预训练视觉编码器和大语言模型连接起来再通过视觉指令微调让模型学会“看图回答”。4. 原生多模态“原生多模态”通常指模型在设计和训练阶段就把多种模态放在一起考虑而不是简单地在文本模型外面接一个图像模块。这个概念在产品宣传中经常出现但要谨慎理解。不同厂商对“原生”的定义不完全相同。大致来说越原生的多模态系统越希望模型能在统一表示和统一推理过程中处理文本、图像、音频、视频等信息而不是把每种模态都转成文本后再交给语言模型。GPT-4o、Gemini 等模型都推动了这种方向让语音、视觉和文本更低延迟、更自然地整合。5. 多模态生成多模态不只包括理解也包括生成。常见生成方向包括文本生成图像图像生成文本描述文本生成语音语音转文字文本生成视频图片生成视频视频生成摘要草图生成网页截图生成代码。这里的关键变化是语言越来越像一种通用控制界面。用户用自然语言描述想要什么模型生成对应模态的内容。工作原理多模态系统有很多架构这里用一个通用流程来理解。第一步不同模态进入各自的编码器。图像进入视觉编码器音频进入音频编码器文本进入文本编码器。第二步系统把这些表示对齐到某个共享空间或者通过适配器接入一个语言模型。第三步模型在统一上下文中进行推理、生成或调用工具。第四步输出可以是文本也可以是图像、音频、视频或结构化操作。文本输入文本编码器图像输入图像编码器音频输入音频编码器视频输入视频编码器共享表示或多模态上下文推理与生成模型文本回答图像/音频/视频生成工具调用或结构化输出从工程角度看多模态系统通常要解决四类问题问题说明表示问题不同模态怎样转换成模型可处理的表示对齐问题图片、文字、声音、视频之间怎样建立对应关系融合问题多种模态的信息怎样共同参与推理生成问题模型怎样输出目标模态并保持内容一致例如要让模型回答“这张发票里总金额是多少并帮我生成报销说明”系统需要先识别图片文字和布局再理解金额字段最后生成自然语言说明。任何一步出错都会影响结果。典型应用场景1. 看图问答和截图理解用户上传一张图片或截图直接问模型“这是什么”“这个报错怎么解决”“这个 UI 哪里不合理”“这张图表说明了什么”这是多模态 AI 最直观的应用。它把 AI 从纯文本聊天扩展到视觉助手尤其适合学习、设计、编程、数据分析和日常问题。2. 文档和表格理解许多文档不是纯文本。PDF、合同、发票、论文、PPT、扫描件中包含布局、表格、图片、脚注和印章。多模态模型可以结合文字和视觉结构进行理解。例如它可以帮你从发票中提取字段总结论文图表检查合同关键条款解释 PPT 中的流程图把手写笔记整理成结构化文本。3. 文本生成图像、视频和设计稿生成式多模态 AI 让用户用自然语言创作视觉内容。文案、插画、海报、产品概念图、视频分镜都可以从文本提示开始。这类工具改变了创意流程。过去用户需要先会绘图、拍摄或剪辑现在可以先表达意图再通过多轮修改逐步接近期望结果。4. 语音交互和实时助手多模态语音助手不只是“语音转文字 文字回答 文字转语音”。更自然的系统需要理解语气、停顿、画面、上下文和用户正在做的事。例如一个用户打开摄像头问“我这道题哪里错了”模型需要看题目、听问题、理解用户指向的内容并用语音解释。5. 医疗影像和工业检测多模态 AI 可以辅助医生理解影像、病历、化验结果和医学文献也可以在工厂中结合图像、传感器和维修记录做缺陷检测。这些高风险场景不能直接把模型答案当最终结论。更合适的定位是辅助分析、提醒异常、整理证据并由专业人员做最终判断。6. 机器人和具身智能机器人需要感知真实世界摄像头、深度传感器、触觉、声音、位置和任务指令都要被整合。多模态 AI 是具身智能的重要基础。例如用户说“把桌上那个红色杯子递给我”机器人要理解语言、识别场景、定位红色杯子、规划动作并在执行中不断根据视觉反馈调整。和其他概念的区别概念关注点和多模态 AI 的关系LLM主要处理语言和代码多模态模型常以 LLM 为推理核心VLM视觉语言模型多模态 AI 的重要子类主要处理图像和文本Text-to-Image文本生成图像多模态生成的一种Speech Recognition语音转文字处理音频模态常作为多模态系统组件OCR图片中文字识别文档理解中的基础能力RAG检索外部知识增强生成多模态 RAG 可以检索图片、视频、表格和文档Agent多步规划和工具调用多模态 Agent 可以看屏幕、听指令、操作工具Computer Use操作电脑界面依赖截图理解、视觉定位和动作执行多模态 AI 和生成式 AI 的区别多模态 AI 强调输入、表示和输出可以跨越多种模态。生成式 AI 强调模型能生成新内容。二者有交集但不完全相同。类型例子多模态但不生成图文检索、图片分类、语音识别生成但单模态纯文本续写、文本摘要既多模态又生成文本生成图像、看图写报告、语音对话、视频生成一个简单例子假设你上传一张销售图表并输入请解释这张图表的主要趋势并帮我写成给老板看的 3 条结论。一个多模态模型需要完成以下步骤图表图片识别坐标轴、图例和数值用户问题理解输出要求趋势分析生成商务风格结论可能输出1. 本季度销售额整体上升3 月增速最明显。 2. 华东区域贡献了主要增长可能是新品推广带来的结果。 3. 华南区域增长放缓建议进一步查看渠道和库存数据。这个例子里模型不只是“看见图片”还要把视觉信息转换成业务语言。如果图表识别错了后面的结论也会错。因此多模态 AI 的难点往往不在单个能力而在跨模态链路是否可靠。常见误解误解 1能上传图片就是多模态能力很强不一定。上传图片只是入口。模型是否真的理解图片中的细节、空间关系、文字、图表和上下文需要具体评估。很多模型能描述大致画面但在计数、精确定位、复杂图表、医学影像、地图和细粒度 OCR 上仍可能出错。误解 2多模态模型等于“像人一样理解世界”多模态模型能处理更多信息形式但这不等于它拥有完整世界模型。它可能识别图片内容却误解物理关系能描述视频片段却不稳定理解因果和长期动作。多模态增加了输入维度也增加了错误来源。误解 3图像、音频、视频都可以简单转成文本有些任务可以先转文本例如语音识别、OCR。但不是所有信息都适合压缩成文本。图片中的布局、空间关系、颜色、动作、情绪、时间变化转成文本时可能丢失重要细节。更强的多模态系统需要直接处理原始模态或高质量视觉/音频表示而不是只依赖转写。误解 4多模态生成已经完全可控文本生成图像和视频已经很强但仍然存在可控性问题。例如人物手部、文字渲染、长视频一致性、物理规律、镜头连续性、品牌标识、精确版式都可能出错。创意场景可以容忍多轮试错高风险场景则需要严格审核。误解 5多模态只对创作者有用多模态生成确实改变了创意行业但多模态理解同样重要。教育、医疗、工业、办公、客服、无障碍、机器人、自动驾驶都需要模型理解非文本信息。未来趋势1. 从“看图回答”到实时多模态交互早期多模态体验常常是上传一张图再等待模型回答。未来更自然的形态是实时交互用户一边说话、一边移动摄像头、一边指向物体模型实时理解并回应。GPT-4o 这类模型已经展示了更低延迟的语音和视觉交互方向。未来 AI 助手会更像一个能看屏幕、听语音、理解环境的协作伙伴。2. 多模态 RAG未来的知识库不只是文本文档还会包含图表、PPT、扫描件、视频会议、产品图片、设计稿和代码界面。多模态 RAG 要解决的问题是如何检索相关图片、表格、视频片段和文档区域并让模型基于这些证据回答。3. 视频理解和视频生成视频比图片更难因为它包含时间、动作、因果和镜头连续性。模型不仅要知道“画面里有什么”还要理解“发生了什么”“为什么发生”“接下来可能怎样”。视频生成则需要保持人物、场景、物体和动作的一致性。Sora、Veo、Runway 等系统推动了这个方向但长视频叙事、物理一致性和可控编辑仍是挑战。4. 多模态 AgentAgent 如果只能读文字能做的事情有限。多模态 Agent 可以看网页截图、理解 App 界面、读图表、听会议、看代码运行结果再调用工具执行操作。这会推动 Computer Use、Browser Use、桌面自动化、机器人操作等方向发展。5. 安全、溯源和真实性多模态生成越强伪造图片、音频和视频的风险越高。未来会更重视内容水印C2PA 等内容来源标准生成内容检测人脸和声音克隆权限医疗、法律、金融等场景的审核流程模型对图像和视频的安全拒答能力。多模态 AI 的社会影响会比纯文本更直接因为图像、音频和视频更容易影响人的信任。小结多模态 AI 指能够理解、连接或生成多种信息形式的 AI。多模态不是新概念但大模型让多种模态开始统一到同一个交互界面。CLIP 通过图文对比学习推动了文本和图像的语义对齐。DALL·E、Stable Diffusion 等系统让文本生成图像进入大众视野。Flamingo、BLIP、LLaVA、MiniGPT-4、GPT-4V、Gemini、GPT-4o 等推动视觉语言模型和多模态大模型发展。多模态 AI 的核心难点是表示、对齐、融合和生成。典型场景包括看图问答、文档理解、图像/视频生成、语音助手、医疗影像、工业检测和机器人。多模态能力不等于真正理解世界模型仍会在计数、空间关系、OCR、物理规律和视频一致性上出错。未来趋势包括实时多模态交互、多模态 RAG、视频理解与生成、多模态 Agent 和内容溯源。参考资料Alec Radford et al.,Learning Transferable Visual Models From Natural Language Supervision, 2021: https://arxiv.org/abs/2103.00020OpenAI,CLIP: Connecting text and images, 2021: https://openai.com/research/clipAditya Ramesh et al.,Zero-Shot Text-to-Image Generation, 2021: https://arxiv.org/abs/2102.12092OpenAI,DALL·E: Creating images from text, 2021: https://openai.com/research/dall-eAditya Ramesh et al.,Hierarchical Text-Conditional Image Generation with CLIP Latents, 2022: https://arxiv.org/abs/2204.06125Robin Rombach et al.,High-Resolution Image Synthesis with Latent Diffusion Models, 2022: https://arxiv.org/abs/2112.10752Chitwan Saharia et al.,Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, 2022: https://arxiv.org/abs/2205.11487Junnan Li et al.,BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation, 2022: https://arxiv.org/abs/2201.12086Jean-Baptiste Alayrac et al.,Flamingo: a Visual Language Model for Few-Shot Learning, 2022: https://arxiv.org/abs/2204.14198Xi Chen et al.,PaLI: A Jointly-Scaled Multilingual Language-Image Model, 2022: https://arxiv.org/abs/2209.06794Shaohan Huang et al.,Language Is Not All You Need: Aligning Perception with Language Models, 2023: https://arxiv.org/abs/2302.14045Haotian Liu et al.,Visual Instruction Tuning, 2023: https://arxiv.org/abs/2304.08485Deyao Zhu et al.,MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models, 2023: https://arxiv.org/abs/2304.10592OpenAI,GPT-4V(ision) System Card, 2023: https://openai.com/index/gpt-4v-system-card/Google,Introducing Gemini: our largest and most capable AI model, 2023: https://blog.google/innovation-and-ai/technology/ai/google-gemini-ai/Google,Gemini: A Family of Highly Capable Multimodal Models, 2023: https://arxiv.org/abs/2312.11805Google,Introducing Gemini 1.5, 2024: https://blog.google/innovation-and-ai/products/google-gemini-next-generation-model-february-2024/Anthropic,Introducing the next generation of Claude, 2024: https://www.anthropic.com/news/claude-3-familyOpenAI,Hello GPT-4o, 2024: https://openai.com/index/hello-gpt-4o/OpenAI,GPT-4o System Card, 2024: https://cdn.openai.com/gpt-4o-system-card.pdf下一篇AI Agent智能体

更多文章