多模态令牌的最新研究:结构化介绍
引言:定义多模态令牌及其在人工智能中的重要性
多模态人工智能模型能够处理来自文本、图像、音频和视频等多种不同模态的信息 1。在这些模型中,多模态令牌是代表这些不同模态信息的基本单元,它们在一个统一的框架内被处理。这些令牌使得模型能够理解并生成跨越不同感官模式的内容,从而超越了单一模态的局限性 1。处理多种模态的能力使得人工智能能够更全面地理解信息,这与人类的认知方式更为接近 3。
多模态令牌在需要整合和推理跨越不同数据格式的任务中至关重要,例如视觉问答、图像描述和跨模态检索 2。它们对于开发能够处理现实世界复杂性的更通用和更强大的AI系统至关重要 4。大型语言模型(LLM)的进步为多模态大型语言模型(MLLM)铺平了道路,后者利用多模态令牌来处理和生成跨不同模态的输出 3。这种能力被认为是实现通用人工智能(AGI)的潜在途径 3。
本报告将深入探讨关于多模态令牌的最新研究,涵盖其基本概念、表示技术、处理进展、关键应用、挑战和未来方向。重点将放在2023年至2025年期间的发展,突出该领域的重大贡献和新兴趋势。
从单一模态模型到多模态模型的演变是人工智能领域的一个根本性转变,其驱动力在于人工智能需要与本质上是多模态的现实世界进行交互 9。虽然单一模态模型在特定领域取得了成功,但它们缺乏理解通过多种感官传达的丰富信息的能力。多模态令牌以及利用它们的模型的发展直接解决了这一局限性,使人工智能能够以更像人类的方式处理和理解世界。这种转变不仅仅是处理更多的数据类型,而是通过利用不同模态的互补性来实现更深层次、更具情境性的理解。
多模态令牌的开发与LLM的进步紧密相连。LLM在处理文本信息方面的成功启发了通过多模态令牌的概念将这些架构扩展到处理其他模态 3。LLM在理解和生成人类语言方面表现出了卓越的能力。将其他模态表示为类似于文本的“令牌”的想法使得这些强大的语言模型能够适应多模态任务。这利用了LLM在推理和生成方面的现有优势,并将其扩展到视觉、听觉和其他形式的数据,从而推动了MLLM的快速发展。
多模态令牌的基本概念
多模态令牌是提取自不同模态(例如,来自图像的视觉特征、来自音频的声学特征、来自文本的文本嵌入)的特征的离散或连续表示,这些表示旨在在统一的模型架构中进行处理。它们旨在以允许跨模态交互和理解的格式捕获来自每种模态的基本信息。这些令牌的性质可能因模态和特定的模型架构而异。例如,图像令牌可能代表图像的补丁,而音频令牌可能代表频谱图的片段 4。
借鉴了自然语言处理中令牌的概念(其中文本被分解为单词或子词),多模态令牌将这个想法扩展到了其他数据类型。目标是为不同的模态创建一种通用语言,从而实现统一的处理框架,通常利用在NLP中取得成功的Transformer架构 3。
多模态令牌通常嵌入到高维向量空间中,其中来自不同模态的令牌可以基于它们的语义相似性进行对齐和比较 10。这种共享的嵌入空间对于实现跨模态交互和学习至关重要,因为它允许模型理解不同类型信息之间的关系。
文本令牌和多模态令牌之间的类比是该领域关键的概念基础。这使得能够利用来自NLP的广泛知识和架构进步来解决多模态挑战 4。Transformer架构在NLP中处理离散文本令牌的成功自然而然地引出了以类似的令牌化格式表示其他模态的想法。这允许将Transformer架构和训练技术直接应用于多模态数据。通过将图像、音频和视频视为令牌序列,研究人员可以构建统一的模型,这些模型能够在通用框架内处理各种信息类型。
共享嵌入空间的概念是多模态令牌思想的核心。如果没有一种比较和关联来自不同模态的令牌的方法,真正的跨模态理解将是不可能的 10。创建共享的嵌入空间,其中映射来自不同模态的令牌,使得模型能够学习它们之间的语义对应关系。例如,猫的图像和单词“猫”可以映射到该空间中的附近点,表明它们的语义相似性。这种对齐对于诸如图像描述(从图像生成文本)和视觉问答(使用视觉和文本信息回答关于图像的问题)之类的任务至关重要。
多模态令牌的表示技术
图像令牌:
**基于补丁的令牌化:**图像被分成固定大小的补丁,每个补丁都被视为一个视觉令牌,通常线性投影以匹配文本令牌的维度 13。这类似于文本如何被分割成单词或子词。
**对象级令牌化:**像素通过分割模型按对象实例分组,每个对象成为一个令牌 11。这种方法可以捕获语义连贯性,但可能受到对象类别词汇表的限制。
**视觉码本(VQ-VAE):**图像使用矢量量化技术编码成离散令牌序列,其中编码器输出映射到学习到的码本中最接近的嵌入 15。这允许紧凑地表示视觉信息。
**子对象级自适应令牌分割:**受NLP中子词令牌化的启发,这种方法基于语义单元自适应地将图像分割成令牌,可能使用超像素或其他分割方法 14。
**连续视觉令牌:**一些方法将预训练视觉编码器的输出嵌入视为连续值的“视觉令牌”,直接馈送到LLM 17。
**空间令牌:**诸如空间视觉聚合器(SVA)之类的方法创建空间感知令牌以改善视觉基础 18。
**分层令牌化:**用不同粒度的令牌表示图像,以捕获低级细节和高级语义 19。
音频令牌:
音频数据通常转换为频谱图或梅尔频率倒谱系数,然后分割成令牌 4。
**语音令牌化器:**特定的令牌化器(如SpeechTokenizer)利用诸如残差矢量量化(RVQ)之类的技术将语音令牌化为内容令牌和音色令牌 15。
**基于编解码器的模型:**使用音频编解码器生成表示音频信号的离散令牌 20。
视频令牌:
视频通常被视为图像帧序列,每帧使用图像令牌化技术进行令牌化 15。
可以通过一起处理多个帧或添加特殊的时间令牌来合并时间信息 22。
在保留时间信息的同时压缩视频令牌的方法是积极的研究领域 21。
其他模态的令牌:
诸如3D数据、IMU数据和传感器读数之类的模态也在被探索,其表示通常涉及专门的编码器和令牌化策略,以将它们映射到LLM的嵌入空间中 7。
关键在于找到一种方法来表示每种模态的独特特征,使其能够与文本一起有效地处理。
选择令牌化技术会显著影响MLLM的性能。不同的方法擅长捕获不同类型的信息(例如,低级视觉细节与高级语义)14。基于补丁的令牌化很简单,但可能错过对象的整体结构。对象级令牌化捕获语义单元,但依赖于对象检测器的准确性和词汇表。VQ-VAE提供了一种紧凑的表示,但可能会丢失细粒度的细节。选择合适的令牌化策略需要与特定的任务要求和数据的特征相一致。
存在一种趋势,即开发更自适应和语义上有意义的令牌化方法,超越简单的固定大小的补丁 14。受NLP中子词令牌化成功的启发,研究人员正在探索创建能够更好反映图像和视频底层语义结构的视觉令牌的方法。这包括对象级和子对象级令牌化,通过关注有意义的视觉实体而不是任意补丁,可以提高学习效率和效果。
对于视频,有效地将时间维度融入令牌表示是一个关键挑战。简单地将视频视为独立帧的序列可能无法捕获视频中的时间依赖性和动态性 21。考虑帧之间时间关系的方法(例如,使用时间编码器或添加特殊的时间令牌)对于诸如视频理解和动作识别之类的任务至关重要。研究正在进行中,以寻找在不增加过多计算成本的情况下表示和处理视频中的时间信息的有效方法。
表1:图像令牌化技术比较
技术名称 | 基础方法(例如,修补、对象检测、VQ-VAE) | 令牌特征(离散/连续,语义级别) | 主要优点 | 主要缺点 | 相关片段 ID |
基于补丁的令牌化 | 修补 | 连续/低级 | 简单易行,计算成本相对较低 | 可能无法捕获对象的整体结构和高级语义 | 13 |
对象级令牌化 | 对象检测/分割 | 离散/中级 | 捕获语义连贯的实体 | 依赖于对象检测器的性能和词汇表,可能无法处理无类别对象或细粒度细节 | 11 |
视觉码本(VQ-VAE) | 矢量量化 | 离散/低级 | 提供紧凑的表示 | 可能丢失细粒度的视觉细节,训练过程可能复杂 | 15 |
子对象级自适应令牌分割 | 超像素/语义分割 | 连续或离散/中级 | 可以更灵活地适应图像内容,捕获更精细的语义单元 | 实现可能更复杂,效果取决于底层分割算法 | 14 |
连续视觉令牌 | 预训练视觉编码器 | 连续/中高级 | 直接利用预训练模型的强大特征提取能力 | 可能需要额外的投影层来与LLM对齐 | 17 |
空间令牌 | 视觉编码器+空间聚合器 | 连续/中高级 | 显式地编码空间信息,有助于视觉基础任务 | 可能增加模型的复杂性 | 18 |
分层令牌化 | 多尺度视觉编码器 | 连续/多级 | 同时捕获低级细节和高级语义信息 | 模型架构可能更复杂 | 19 |
多模态令牌处理的最新进展
新颖的令牌化方法:
**语义等效视觉令牌化器(SeTok):**动态地将视觉特征聚类为语义单元,根据图像的复杂性自适应地确定令牌的数量 27。这旨在比固定的碎片化更好地保留语义完整性。
**量化语言-图像预训练(QLIP):**通过训练具有重建和语言-图像对齐目标的基于二元球面量化的自编码器,将重建质量与零样本图像理解相结合 26。
**基于图的视觉令牌修剪(G-Prune):**基于语义相似性构建视觉令牌图,并传播信息流以识别和修剪不太重要的令牌 29。
令牌级的跨模态融合架构:
**CrossFusionTokens(XFT):**引入双重交叉注意力路径,然后进行通道级融合,以增强跨模态交互,而不会增加令牌长度 30。这允许视觉令牌查询语言上下文,反之亦然。
**COTS中的令牌级融合:**一种协作式双流视觉-语言预训练模型,使用掩码视觉-语言建模(MVLM)进行令牌级交互 31。
**WINGS:**在每一层的注意力模块中并行集成互补的视觉和文本学习器,使用令牌级的软路由来协调两种令牌类型的学习 32。
高效处理策略:令牌修剪和压缩:
**语言引导的视觉令牌修剪(LVPruning):**使用交叉注意力模块计算视觉令牌基于其与语言令牌交互的重要性,从而显著降低计算成本 33。
**视觉令牌撤回(VTW):**一种即插即用模块,可在MLLM的较深层中删除视觉令牌,假设它们的信息已被后续文本令牌吸收,从而加快推理速度 34。
**多样性感知稀疏性和自适应多模态输入激活(TAMP):**考虑多模态令牌多样性并根据其影响自适应激活输入的修剪技术 35。
**具有令牌复制的动态注意力减少(DART):**一种无需训练的方法,可识别并删除重复或高度相似的视觉令牌,反对仅依赖注意力分数进行修剪 37。
**慢速-快速设计:**对视频采用双令牌策略,使用压缩的“快速”令牌进行快速概览,并使用未压缩的“慢速”令牌通过交叉注意力提取详细信息 23。
**SmartTrim:**一种用于VLM的自适应修剪框架,可根据相似性和重要性修剪令牌表示和注意力头,并使用自蒸馏策略进行训练 38。
**DyRate:**在模型生成过程中,基于视觉令牌的注意力分布自适应地调整令牌减少率 39。
**UniMoD:**一种用于统一Transformer的任务感知令牌修剪方法,该方法为生成和理解任务使用单独的路由器,以根据特定于任务的冗余修剪令牌 40。
最近的研究非常强调提高处理多模态令牌(尤其是视觉令牌)的效率,因为它们的计算成本很高。令牌修剪和压缩已成为关键策略 33。视觉令牌的数量通常远超文本令牌,导致MLLM中计算需求和内存使用量增加。这阻碍了它们在资源受限环境中的部署。因此,越来越多的工作致力于识别和删除冗余或不太重要的视觉令牌,而不会显著降低模型性能。这包括各种技术,例如基于注意力分数、相似性或语言指导的修剪。
令牌级的跨模态交互对于有效的多模态理解和生成至关重要。促进不同模态之间信息在令牌级进行深入细致融合的架构往往表现更好 30。简单地连接来自不同模态的令牌可能不足以捕获它们之间复杂的联系。允许来自一种模态的令牌与来自另一种模态的令牌进行交互并影响它们的交叉注意力机制和其他融合技术对于实现更深层次的跨模态理解以及需要跨模态推理的任务至关重要。
人们越来越意识到,令牌的重要性不是一个静态属性,它可能因任务、模型层甚至特定的输入实例而异。自适应和任务感知的令牌修剪方法正在开发中以解决这个问题 34。早期的令牌修剪方法通常依赖于固定的修剪率或简单的启发式方法。然而,研究表明,令牌的重要性在模型的处理过程中可能会发生变化,并且对于不同的任务可能会有所不同。这导致了更复杂方法的开发,这些方法可以动态调整修剪率或基于诸如注意力权重、任务要求或输入特征之类的因素来识别重要的令牌。
表2:MLLM的最新令牌修剪和压缩方法
方法名称 | 关键思想/技术 | 处理的模态 | 达到的压缩率(如果报告) | 性能影响(准确率变化) | 相关片段 ID |
语言引导的视觉令牌修剪(LVPruning) | 使用交叉注意力根据与语言令牌的交互计算视觉令牌的重要性 | 视觉,语言 | 高达 90% 的视觉令牌 | 平均性能损失仅为 0.45% | 33 |
视觉令牌撤回(VTW) | 在MLLM的较深层中移除视觉令牌 | 视觉,语言 | 超过 40% 的 FLOPs | 在各种多模态任务中表现出有效性 | 34 |
动态注意力减少与令牌复制(DART) | 识别并删除重复或高度相似的视觉令牌 | 视觉,语言 | 88.9% 的视觉令牌 | 在 LLaVA-1.5-7B 上性能提升 2.2% | 37 |
慢速-快速设计 | 对视频使用压缩的“快速”令牌和未压缩的“慢速”令牌 | 视频,语言 | 将输入容量从 16 帧扩展到 128 帧,计算量仅增加 3% | 在五个视频理解基准测试中平均性能提升 16% | 23 |
SmartTrim | 自适应地修剪令牌表示和注意力头 | 视觉,语言 | 加速原始模型 2-3 倍 | 性能下降最小 | 38 |
DyRate | 基于视觉令牌的注意力分布自适应地调整令牌减少率 | 视觉,语言 | 未报告具体压缩率 | 在保持准确性的同时降低计算需求 | 39 |
UniMoD | 为统一Transformer使用任务感知的令牌修剪 | 多模态 | Show-o 减少 15% 的 FLOPs,Emu3 减少 40% 的 FLOPs | 在某些基准测试中保持或提高性能 | 40 |
多模态令牌的关键应用
增强视觉-语言模型(VLM):
多模态令牌是VLM架构和功能的基础,使其能够执行诸如图像描述、视觉问答和图像检索之类的任务 10。
诸如LLaVA、MiniGPT-4和Qwen-VL之类的模型严重依赖于将视觉信息表示为令牌,然后与文本一起处理 41。
令牌化技术和融合架构的进步直接有助于提高VLM的性能和效率 28。
VLM正应用于各种领域,例如大规模媒体平台的实时图像描述、电子商务中的视觉搜索以及客户支持和教育中的视觉问答 47。
视频和音频理解的进步:
将视频视为图像令牌序列,使得MLLM能够执行复杂的视频理解任务,包括视频描述、动作识别和视频问答 21。
音频令牌使得能够开发音频语言模型(ALM),该模型能够执行音频分类、语音识别和音频生成等任务 20。
多模态令牌有助于整合视频、音频和文本,以更全面地理解事件和场景 51。应用包括视频到音频的生成和描述 55。
在具身智能、机器人和医疗保健领域的应用:
多模态令牌对于使机器人能够通过视觉和其他传感器感知其环境、理解语言指令并生成适当的动作至关重要 11。这是视觉-语言-动作模型(VLA)的基础。
在医疗保健领域,使用这些令牌的多模态AI可以整合医学图像、患者病史和其他数据,以协助诊断、治疗计划和个性化护理 3。
由MLLM和世界模型驱动的医疗保健领域的具身智能代表了提高效率和可及性的变革性前沿 59。
将各种模态表示为令牌的能力已显著扩展了大型语言模型的应用范围,将其功能扩展到文本以外的视觉、音频、视频甚至机器人控制 3。通过找到将来自不同感官输入的信息编码为LLM可以处理的格式(即令牌)的方法,可以将这些模型的功能用于更广泛的任务。这在机器人技术(机器人可以理解视觉输入和语言命令)、医疗保健(模型可以分析医学图像和患者记录)和娱乐(视频和音频生成方面的进步)等领域开辟了新的可能性。
多模态令牌的开发正在推动具身智能和医疗保健等专门领域的创新,这表明未来AI系统能够以更直观和全面的方式与物理世界交互并协助人类完成复杂的任务 57。具身智能专注于创建能够与物理世界交互的代理,它严重依赖于处理和理解多模态信息的能力。多模态令牌对于使机器人和其他具身代理能够感知周围环境、理解指令并采取适当的行动至关重要。同样,在医疗保健领域,通过多模态令牌整合不同类型的医疗数据可以带来更准确的诊断和个性化的治疗。
表3:多模态令牌的关键应用及相关片段
应用领域 | 具体示例或任务 | 相关片段 ID |
视觉-语言模型(VLM) | 图像描述,视觉问答,图像检索 | 10 |
视频理解 | 视频描述,动作识别,视频问答 | 21 |
音频理解 | 音频分类,语音识别,音频生成 | 20 |
具身智能和机器人 | 机器人控制,环境感知,任务执行 | 11 |
医疗保健 | 疾病诊断,治疗计划,个性化护理 | 3 |
多模态令牌研究中的挑战和未决问题
解决MLLM中的幻觉问题:
MLLM经常生成看似合理但不正确的内容,称为幻觉,这对它们在实际应用中的可靠性构成了重大挑战 3。
幻觉可能表现为在生成的图像或视频描述中,对象类别、属性或关系不准确 60。
研究正在探索幻觉的成因,包括数据、模型架构、训练方法和推理过程等方面的问题 60。
诸如图像令牌注意力引导解码(iTaD)之类的技术旨在通过利用模型的内部表示和注意力机制来减轻幻觉 6。
内部事实对比解码(IFCD)是另一种方法,它利用模型自身的幻觉来改进输出并消除幻觉性的logits 63。
提高计算效率和可扩展性:
处理大量多模态令牌,尤其是来自高分辨率图像或长视频的视觉令牌,可能在计算上非常昂贵,这限制了MLLM在资源受限环境中的实用性 37。
正在开发令牌修剪和压缩技术,以在不显着降低性能的情况下减少计算开销 33。
高效的架构和训练策略对于扩展MLLM以处理日益复杂的任务和更大的数据集也至关重要 67。
有效的跨模态对齐和推理:
弥合不同模态之间的语义差距并确保其表示的有效对齐是一个根本性的挑战 69。
开发能够通过连贯且准确地整合来自多种模态的信息来执行复杂推理的模型仍然是一个开放的研究领域 3。
理解和解决跨模态相关性的复杂性对于诸如多模态检索和问答之类的任务至关重要 3。
确保安全机制有效地跨模态转移(例如,防止基于视觉输入生成有害内容)是另一个关键挑战 70。
幻觉是MLLM在关键应用中广泛采用的主要障碍。解决这个问题需要深入了解其根本原因并开发强大的缓解策略 6。MLLM生成不正确或荒谬的信息可能会产生严重的后果,尤其是在医疗保健或自动驾驶等领域。因此,研究这些幻觉的来源(无论是源于训练数据中的偏差、模型架构的局限性还是推理过程中的问题)并开发有效的技术来减少或消除它们对于构建可信赖和可靠的多模态AI系统至关重要。
模型性能和计算效率之间的权衡是MLLM开发中始终存在的挑战。实现高水平的准确性通常需要具有大量计算资源的大型模型,这对于许多实际应用可能不可行 41。找到MLLM性能与其计算成本之间的适当平衡对于它们的实际部署至关重要。诸如令牌修剪、模型压缩以及更高效架构的开发之类的技术对于使这些强大的模型能够在更广泛的设备和资源受限的环境中使用至关重要,最终将多模态AI的优势带给更多的用户。
跨模态对齐和推理本质上是复杂的任务。简单地独立处理不同的模态然后将它们组合起来可能无法捕获它们之间复杂的联系和依赖关系 3。实现真正的多模态智能需要能够深入整合和推理不同类型的信息。这不仅涉及将模态映射到共同空间,还涉及理解它们如何在复杂的方式中相互影响和补充。开发能够有效执行跨模态对齐和推理的模型是当前研究的一个关键领域。
多模态令牌的新兴研究趋势和未来方向
**统一多模态模型:**人们越来越关注开发统一的框架,这些框架可以在单个模型中处理各种模态(文本、图像、音频、视频等)的多模态理解和生成 51。GPT-4o等模型的出现就体现了这一趋势 74。
**改进的令牌化技术:**继续研究针对不同模态的更有效和语义上有意义的令牌化方法,旨在实现更好的表示和效率 14。这包括探索自适应令牌分割和与语言理解对齐的令牌化。
**增强的跨模态融合:**重点开发更复杂的架构和技术,用于在令牌级别融合来自不同模态的信息,从而实现更丰富的交互和更深入的理解 17。
**效率和可扩展性:**继续强调开发用于高效处理多模态令牌的方法,包括高级令牌修剪、压缩和轻量级架构,以实现部署在各种环境中 38。
**解决幻觉问题并提高可靠性:**加强对MLLM中幻觉成因的理解,并开发更强大的缓解技术,从而实现更可靠和值得信赖的系统 6。
**特定领域的应用:**探索多模态令牌和MLLM在机器人、医疗保健、教育和工业应用等特定领域的应用,根据这些领域的独特要求定制模型和技术 3。
**多模态代理:**开发能够通过有效处理和整合来自多种模态的信息来感知、推理和在复杂环境中行动的AI代理 3。
**可解释性和可解释性:**越来越关注使MLLM更具可解释性和可解释性,从而更好地理解它们如何处理和推理多模态令牌 88。
**处理缺失模态:**研究开发能够有效处理某些输入模态可能缺失或不完整的情况的鲁棒MLLM 89。
迈向统一多模态模型的趋势表明,未来AI系统能够无缝地理解和生成跨越所有主要模态的内容,模糊不同AI任务之间的界限,并产生更通用和更强大的系统 72。开发能够在单个框架内处理任何输入和输出模态组合的模型是迈向AGI的重要一步。这需要克服大量的架构和训练挑战,但有望创建能够以真正全面的方式与世界交互的AI系统。
日益关注效率和可扩展性表明,人们正努力使MLLM更实用,并将其应用范围扩展到研究实验室之外的实际应用。这可能涉及算法改进、架构创新和硬件进步的结合 41。虽然MLLM的性能已经有了显著提高,但它们的计算成本仍然是广泛采用的障碍。不断研究如何提高这些模型的效率对于使它们能够在更广泛的设备和更受资源限制的环境中部署至关重要,最终将多模态AI的优势带给更多的用户。
越来越关注可解释性和可解释性反映了构建更透明和值得信赖的AI系统的更广泛趋势。理解MLLM如何处理多模态令牌对于识别潜在的偏差、确保公平性以及建立用户信任至关重要 88。随着AI系统越来越融入我们的生活,理解它们如何做出决策变得越来越重要。在MLLM的背景下,这意味着深入了解它们如何处理和组合来自不同模态的信息。可解释性和可解释性方面的研究将有助于构建更透明和负责任的AI系统。
表4:多模态令牌的新兴研究趋势
研究趋势 | 描述 | 潜在影响 | 相关片段 ID |
统一多模态模型 | 开发能够处理多种模态的理解和生成的单一模型 | 实现更通用、更强大的AI系统,简化模型开发和部署 | 51 |
改进的令牌化技术 | 研究更有效、语义上有意义的令牌化方法 | 更好地表示不同模态的信息,提高模型性能和效率 | 14 |
增强的跨模态融合 | 开发更复杂的融合架构和技术 | 实现更深入的跨模态交互和理解 | 17 |
效率和可扩展性 | 研究高效处理多模态令牌的方法(修剪、压缩等) | 降低计算成本,使MLLM能够在资源受限的环境中部署 | 38 |
解决幻觉问题 | 识别幻觉的根本原因并开发缓解策略 | 提高MLLM的可靠性和可信度 | 6 |
特定领域的应用 | 将多模态令牌和MLLM应用于医疗保健、机器人等领域 | 针对特定需求定制AI解决方案,解决实际问题 | 3 |
多模态代理 | 开发能够感知、推理和行动的多模态AI代理 | 构建更智能、更具交互性的AI系统 | 3 |
可解释性和可解释性 | 使MLLM更易于理解其决策过程 | 提高透明度、责任感和用户信任 | 88 |
处理缺失模态 | 开发能够处理部分缺失输入数据的鲁棒MLLM | 提高现实世界应用的可靠性和鲁棒性 | 89 |
结论
总而言之,多模态令牌的研究代表了人工智能领域一个充满活力且快速发展的领域。通过将来自不同感官来源的信息统一表示为令牌,研究人员正在解锁构建能够以更像人类的方式感知、理解和与世界交互的AI系统的潜力。最近的进展在令牌化技术、跨模态融合架构和提高处理效率方面取得了显著的进步。此外,多模态令牌正在推动各种关键应用领域的创新,从增强视觉和语言模型到实现更智能的机器人和改进医疗保健解决方案。
尽管取得了这些令人瞩目的成就,但该领域仍然面临着重大的挑战。减轻MLLM中的幻觉、提高计算效率和可扩展性、确保不同模态之间的有效对齐和推理仍然是积极研究的关键领域。未来的研究方向包括开发统一的多模态模型、改进令牌化技术、增强跨模态融合、进一步提高效率和可扩展性、解决幻觉问题以及探索特定领域的应用。
多模态令牌的持续发展有望在人工智能领域带来变革性的进步,最终实现更通用、更可靠和更智能的AI系统,这些系统能够真正理解我们复杂且多模态的世界。
Works cited
Multimodal AI | Google Cloud, accessed May 18, 2025, https://cloud.google.com/use-cases/multimodal-ai
Top 10 Multimodal Models - Encord, accessed May 18, 2025, https://encord.com/blog/top-multimodal-models/
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation - arXiv, accessed May 18, 2025, https://arxiv.org/html/2502.08826v2
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy - arXiv, accessed May 18, 2025, https://arxiv.org/html/2412.17759v1
Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications | Request PDF - ResearchGate, accessed May 18, 2025, https://www.researchgate.net/publication/373509622_Multimodality_Representation_Learning_A_Survey_on_Evolution_Pretraining_and_Its_Applications
http://aclanthology.org , accessed May 18, 2025, https://aclanthology.org/2025.naacl-long.75.pdf
arXiv:2412.11694v3 [cs.AI] 4 Mar 2025, accessed May 18, 2025, https://arxiv.org/pdf/2412.11694
survey on multimodal large language models | National Science Review - Oxford Academic, accessed May 18, 2025, https://academic.oup.com/nsr/article/11/12/nwae403/7896414
Toward a Unified Multimodal Approach: Theories, Methods, and Applications - Le blog, accessed May 18, 2025, https://blog.talan.com/2025/02/06/toward-a-unified-multimodal-approach-theories-methods-and-applications/
What Are Vision Language Models (VLMs)? - IBM, accessed May 18, 2025, https://www.ibm.com/think/topics/vision-language-models
TURNING MULTI-MODAL LLMS TO GENERAL ACTION PLANNERS - OpenReview, accessed May 18, 2025, https://openreview.net/pdf?id=jaIxmAVAqF
For image+text, how is pre-training of Multimodal LLM generally done? | ResearchGate, accessed May 18, 2025, https://www.researchgate.net/post/For_image_text_how_is_pre-training_of_Multimodal_LLM_generally_done
Scaling Laws for Native Multimodal Models - arXiv, accessed May 18, 2025, https://arxiv.org/pdf/2504.07951
Subobject-level Image Tokenization - arXiv, accessed May 18, 2025, https://arxiv.org/html/2402.14327v3
MIO: A Foundation Model on Multimodal Tokens - arXiv, accessed May 18, 2025, https://arxiv.org/html/2409.17692v3
An Introduction to Vision-Language Modeling - arXiv, accessed May 18, 2025, https://arxiv.org/html/2405.17247v1
MetaMorph: Multimodal Understanding and Generation via Instruction Tuning - arXiv, accessed May 18, 2025, https://arxiv.org/pdf/2412.14164?
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs - NeurIPS 2025, accessed May 18, 2025, https://neurips.cc/virtual/2024/oral/97972
OneLLM: One Framework to Align All Modalities with Language - CVF Open Access, accessed May 18, 2025, https://openaccess.thecvf.com/content/CVPR2024/papers/Han_OneLLM_One_Framework_to_Align_All_Modalities_with_Language_CVPR_2024_paper.pdf
Audio-Language Models for Audio-Centric Tasks: A survey - arXiv, accessed May 18, 2025, https://arxiv.org/html/2501.15177v1
Token-Efficient Long Video Understanding for Multimodal LLMs - arXiv, accessed May 18, 2025, https://arxiv.org/html/2503.04130v1
CVPR Poster Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning, accessed May 18, 2025, https://cvpr.thecvf.com/virtual/2023/poster/23232
Slow-Fast Architecture for Video Multi-Modal Large Language Models - arXiv, accessed May 18, 2025, https://arxiv.org/html/2504.01328v1
arXiv:2412.11694v2 [cs.AI] 15 Feb 2025, accessed May 18, 2025, https://www.arxiv.org/pdf/2412.11694v2
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding - arXiv, accessed May 18, 2025, https://arxiv.org/html/2504.04423v1
arXiv:2502.05178v1 [cs.CV] 7 Feb 2025, accessed May 18, 2025, https://arxiv.org/pdf/2502.05178?
Towards Semantic Equivalence of Tokenization in Multimodal LLM - arXiv, accessed May 18, 2025, https://arxiv.org/html/2406.05127v1
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation - arXiv, accessed May 18, 2025, https://arxiv.org/html/2502.05178v1
[2501.02268] What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph - arXiv, accessed May 18, 2025, https://arxiv.org/abs/2501.02268
Dual-Modality Feature Blending: A Channel-Aware ... - http://Preprints.org , accessed May 18, 2025, https://www.preprints.org/frontend/manuscript/d228fdb2931f03aca9d6660bc267deee/download_pub
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval, accessed May 18, 2025, https://gsai.ruc.edu.cn/uploads/20220715/74d74f67f86510169a29a12608967094.pdf
WINGS: Learning Multimodal LLMs without Text-only Forgetting - NIPS papers, accessed May 18, 2025, https://proceedings.neurips.cc/paper_files/paper/2024/file/3852f6d247ba7deb46e4e4be9e702601-Paper-Conference.pdf
LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models - ACL Anthology, accessed May 18, 2025, https://aclanthology.org/2025.findings-naacl.242.pdf
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference, accessed May 18, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/32567/34722
TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models - arXiv, accessed May 18, 2025, https://arxiv.org/html/2504.09897v2
TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models - arXiv, accessed May 18, 2025, https://arxiv.org/html/2504.09897v1
Stop Looking for “Important Tokens” in Multimodal Language Models: Duplication Matters More - arXiv, accessed May 18, 2025, https://arxiv.org/html/2502.11494v1
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models, accessed May 18, 2025, https://arxiv.org/html/2305.15033v2
Dynamic Token Reduction during Generation for Vision Language Models - arXiv, accessed May 18, 2025, https://arxiv.org/html/2501.14204v1
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths - arXiv, accessed May 18, 2025, https://arxiv.org/html/2502.06474v1
HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models - AAAI Publications, accessed May 18, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/32171/34326
Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?, accessed May 18, 2025, https://arxiv.org/html/2502.11501v1
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding - arXiv, accessed May 18, 2025, https://arxiv.org/html/2504.09925v1
A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges - arXiv, accessed May 18, 2025, https://arxiv.org/html/2501.02189v5
Vision Language Models Explained - Hugging Face, accessed May 18, 2025, https://huggingface.co/blog/vlms
UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model - ACL Anthology, accessed May 18, 2025, https://aclanthology.org/2025.findings-naacl.19.pdf
Multimodal AI: A Guide to Open-Source Vision Language Models - BentoML, accessed May 18, 2025, https://www.bentoml.com/blog/multimodal-ai-a-guide-to-open-source-vision-language-models
Video Understanding with Large Language Models: A Survey | Request PDF, accessed May 18, 2025, https://www.researchgate.net/publication/391403592_Video_Understanding_with_Large_Language_Models_A_Survey
Towards Rationality in Language and Multimodal Agents: A Survey - ACL Anthology, accessed May 18, 2025, https://aclanthology.org/2025.naacl-long.186.pdf
[PDF] Audio-Language Models for Audio-Centric Tasks: A survey | Semantic Scholar, accessed May 18, 2025, https://www.semanticscholar.org/paper/Audio-Language-Models-for-Audio-Centric-Tasks%3A-A-Su-Bai/1ea8c279d70024ed9d6c5db0256c4ef100510c12
MIO: A Foundation Model on Multimodal Tokens - OpenReview, accessed May 18, 2025, https://openreview.net/forum?id=mEACsjW10N
MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration - European Computer Vision Association, accessed May 18, 2025, https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136680421.pdf
Scaling multimodal understanding to long videos - Google Research, accessed May 18, 2025, https://research.google/blog/scaling-multimodal-understanding-to-long-videos/
Exploring the Future of Multi-Modal AI: Integrating Text, Audio, Images, and Video - Cisco Live, accessed May 18, 2025, https://www.ciscolive.com/c/dam/r/ciscolive/emea/docs/2025/pdf/AIHUB-1970.pdf
Tell What You Hear From What You See - Video to Audio Generation Through Text - arXiv, accessed May 18, 2025, https://arxiv.org/html/2411.05679v3
Tell What You Hear From What You See - Video to Audio Generation Through Text, accessed May 18, 2025, https://openreview.net/forum?id=kr7eN85mIT¬eId=OcZPuPcO6d
A Survey on Vision-Language-Action Models for Embodied AI - arXiv, accessed May 18, 2025, https://arxiv.org/html/2405.14093v4
A Survey on Vision-Language-Action Models for Embodied AI - arXiv, accessed May 18, 2025, https://arxiv.org/pdf/2405.14093
A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities - arXiv, accessed May 18, 2025, https://arxiv.org/html/2501.07468v1
Hallucination of Multimodal Large Language Models: A Survey - arXiv, accessed May 18, 2025, https://arxiv.org/html/2404.18930v2
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding - arXiv, accessed May 18, 2025, https://arxiv.org/html/2403.18715v2
Hallucination of Multimodal Large Language Models: A Survey - arXiv, accessed May 18, 2025, https://arxiv.org/pdf/2404.18930
Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding - arXiv, accessed May 18, 2025, https://arxiv.org/html/2502.01056v1
[2504.17892] Token Sequence Compression for Efficient Multimodal Computing - arXiv, accessed May 18, 2025, https://arxiv.org/abs/2504.17892
Advancing Transformer Efficiency with Token Pruning - http://Preprints.org , accessed May 18, 2025, https://www.preprints.org/manuscript/202503.1577/v1/download
Token Pruning - Aussie AI, accessed May 18, 2025, https://www.aussieai.com/research/token-pruning
Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs - ACL Anthology, accessed May 18, 2025, https://aclanthology.org/2025.coling-main.508.pdf
Large Multimodal Models (LMMs) vs LLMs in 2025 - Research AIMultiple, accessed May 18, 2025, https://research.aimultiple.com/large-multimodal-models/
How to Bridge the Gap between Modalities: Survey on Multimodal Large Language Model, accessed May 18, 2025, https://arxiv.org/html/2311.07594v3
CROSS-MODAL SAFETY MECHANISM TRANSFER IN LARGE VISION-LANGUAGE MODELS - OpenReview, accessed May 18, 2025, https://openreview.net/attachment?id=45rvZkJbuX&name=pdf
A Survey on Model Compression and Acceleration for Pretrained Language Models, accessed May 18, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/26255/26027
AIDC-AI/Awesome-Unified-Multimodal-Models - GitHub, accessed May 18, 2025, https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities - arXiv, accessed May 18, 2025, https://arxiv.org/pdf/2505.02567
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities - arXiv, accessed May 18, 2025, https://arxiv.org/html/2505.02567v2
Multimodal Learning with Transformers: A Survey - arXiv, accessed May 18, 2025, https://arxiv.org/pdf/2206.06488
ys-zong/awesome-self-supervised-multimodal-learning - GitHub, accessed May 18, 2025, https://github.com/ys-zong/awesome-self-supervised-multimodal-learning
Chapter 3 Multimodal architectures - GitHub Pages, accessed May 18, 2025, https://slds-lmu.github.io/seminar_multimodal_dl/c02-00-multimodal.html
friedrichor/Awesome-Multimodal-Papers - GitHub, accessed May 18, 2025, https://github.com/friedrichor/Awesome-Multimodal-Papers
Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts, accessed May 18, 2025, https://papers.neurips.cc/paper_files/paper/2022/file/3e67e84abf900bb2c7cbd5759bfce62d-Paper-Conference.pdf
UbiquitousLearning/Efficient_Foundation_Model_Survey: Survey Paper List - Efficient LLM and Foundation Models - GitHub, accessed May 18, 2025, https://github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey
Mitigating Hallucinations in Multi-modal Large Language Models via Image Token Attention-Guided Decoding - ACL Anthology, accessed May 18, 2025, https://aclanthology.org/2025.naacl-long.75/
Hallucination of Multimodal Large Language Models: A Survey - arXiv, accessed May 18, 2025, https://arxiv.org/html/2404.18930v1
BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles - GitHub, accessed May 18, 2025, https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey - Qeios, accessed May 18, 2025, https://www.qeios.com/read/GXR68Q
Jointly Modeling Inter- & Intra-Modality Dependencies for Multi-modal Learning - NIPS papers, accessed May 18, 2025, https://papers.nips.cc/paper_files/paper/2024/file/d28077e5ff52034cd35b4aa15320caea-Paper-Conference.pdf
Foundation Models in Robotics: Applications, Challenges, and the Future - arXiv, accessed May 18, 2025, https://arxiv.org/html/2312.07843v1
ulab-uiuc/AGI-survey - GitHub, accessed May 18, 2025, https://github.com/ulab-uiuc/AGI-survey
Towards Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey - arXiv, accessed May 18, 2025, https://arxiv.org/html/2412.02104v1
Multimodal artificial intelligence models for radiology | BJR - Oxford Academic, accessed May 18, 2025, https://academic.oup.com/bjrai/article/2/1/ubae017/7959794
Deep Multimodal Learning with Missing Modality: A Survey - arXiv, accessed May 18, 2025, https://arxiv.org/html/2409.07825v3