StreamOmni 同时支持各种模:态组合交《互的多——模》态大模型

2025-07-28 04:07:10      来源:玉环新闻网

GPT-4o式的多模态大模型(LMMs)展现出在文本、视觉和语音模态上的全能能力,其在线语音服务还能在语音交互过程中同步提供中间文本结果(即用户输入和模型响应的转录内容),为用户提供“边看边听”的灵活交互体验。因此,如何构建支持文本、视觉和语音三种模态的多模态大模型成为近期研究热点。现有的多模态大模型通常利用多个编码器提取各个模态的表示,然后将各模态表示沿序列维度拼接并输入至大语言模型基座中以生成回复。这些基于拼接的方法简化了模态集成过程,但它们在很大程度上依赖大规模数据,以数据驱动的方式学习模态对齐。此外,这种基于拼接的维度对齐方式缺乏足够的灵活性,无法像GPT-4o那样在语音交互过程中同时生成中间文本结果。

为应对这一挑战,中国科学院计算技术研究所自然语言处理团队提出了文本-视觉-语音多模态大模型——Stream-Omni,其能同时支持各种模态组合下的交互。通过对各模态间的关系进行更有针对性的建模,Stream-Omni实现了更加高效和灵活的文本-视觉-语音模态对齐。仅依赖包含2.3万小时语音的多模态数据,Stream-Omni即可具备文本交互、语音交互、基于视觉的语音交互等各种模态上的交互能力。与此同时,依赖于创新的语音建模方式,Stream-Omni能在语音交互过程中像GPT-4o一样同步输出中间文本转录结果,为用户提供全方位的多模态交互体验。

论文题目:

Stream-Omni:SimultaneousMultimodalInteractionswithLargeLanguage-Vision-SpeechModel

论文链接:

https://arxiv.org/abs/2506.13642

开源代码:

https://github.com/ictnlp/Stream-Omni

模型下载:

https://huggingface.co/ICTNLP/stream-omni-8b

Stream-Omni的模态对齐

现有多模态大模型中的模态对齐(如左图所示):在序列维度上将三种模态的表示进行拼接,输入至大语言模型基座

为了减轻对大规模三模态数据的依赖,Stream-Omni更有针对性地建模各模态之间的关系,即语音与文本应在语义上高度一致,而视觉则在语义上对文本形成互补关系。因此,Stream-Omni对不同模态采用不同对齐方式(如右图所示):

视觉-文本对齐:序列维度的视觉文本拼接

语音-文本对齐:层级维度的语音文本映射

实现上,Stream-Omni以大语言模型(LLM)为核心,并在其底部和顶部引入语音层,通过连接时序分类(ConnectionistTemporalClassification,CTC)建模语音到文本的映射,此建模方式的优势在于:

支持通过语音模态进行外部交互,同时利用文本模态在内部控制生成的内容;

基于CTC的语音-文本映射为语音文本在表示和结构的对齐上提供更加直接的监督,因此Stream-Omni能够在仅使用少量语音数据的情况下,将LLM主干的文本能力迁移至语音模态。

层级维度映射使得Stream-Omni在语音交互过程中还能同步输出中间文本结果(即指令和回复的转录文本),为用户提供更全面的多模态体验。

Stream-Omni

Stream-Omni以大语言模型作为主干,逐步将视觉和语音与文本对齐,高效地构建了一个支持文本、视觉和语音的多模态大模型。在视觉-文本对齐方面,Stream-Omni采用视觉编码器和投影模块提取视觉表示,并将其与文本表示进行拼接。在语音-文本对齐方面,Stream-Omni在LLM主干的底部和顶部分别引入若干语音层,用于将语音映射到文本以及基于文本生成语音。

视觉模态

基于视觉模态与文本模态之间具有语义互补性,Stream-Omni采用LLaVA架构中的序列维度拼接的方式进行视觉-文本对齐。

语音模态

(1)语音离散化:Stream-Omni采用CosyVoiceTokenizer对语音输入进行离散化,编码为若干离散的语音单元(…)。

(2)语音到文本映射:为了充分利用LLM的能力,Stream-Omni在LLM的底部引入语音层,用于学习语音与文本之间的映射关系,从而将LLM中的文本能力迁移到语音模态中。Stream-Omni利用在ASR任务上的CTC损失直接监督底部语音层语音表示,将其与文本模态对齐。

(3)文本生成:LLM基于输入的视觉表示和语音表示,生成文本回复。

(4)文本到语音生成:Stream-Omni通过顶部语音层来完成文本到语音生成。为了在生成文本的同时生成语音单元,Stream-Omni在顶部语音层中引入了alignment-basedfusion模块。Alignment-basedfusion沿用了StreamSpeech等实时生成研究中的同步生成策略,利用CTC对齐来指导同步生成过程。

任意模态组合下的多模态交互

Stream-Omni能够通过灵活组合视觉编码器、底部语音层、LLM、顶部语音层来实现任意模态组合下的交互。同时,由于层级维度语音文本映射,Stream-Omni能够在语音到语音生成过程中提供中间的文本结果。

实验结果

视觉理解能力

Stream-Omni和相同规模和数据量级的视觉大模型取得相当的表现。

语音交互能力

在事实性的语音交互上,Stream-Omni相比于现有方法具有优势,源于层级维度的语音文本映射将LLM的文本能力迁移到语音模态上。

基于视觉的语音交互能力

在本实例中,在指令分别通过文本和语音输入的情况下,VITA-1.5给出了两个相互矛盾的回答:“不允许前往二楼”和“直接通往二楼”。这一在面对不同模态指令时产生的矛盾回应,源于沿序列维度拼接视觉、语音和文本表示来实现多模态对齐的方法,并未对语音与文本模态之间的语义进行严格对齐建模。相比之下,Stream-Omni引入语音到文本的映射机制,实现了语音与文本表示之间更精确的语义对齐。因此,Stream-Omni在不同模态下表现更加一致,无论指令是通过文本还是语音输入,都能生成相似的响应。另外,Stream-Omni还能生成高质量的语音回复,更多实例请在https://github.com/ictnlp/Stream-Omni体验。

总结

Stream-Omni是一个GPT-4o式的文本-视觉-语音多模态大模型,能够支持多种模态组合下的多模态交互。

Stream-Omni能够在语音交互过程中输出中间文本结果,为用户提供更全面的多模态交互体验。

Stream-Omni关注如何构建模态对齐,语音表现力等方面的增强不是本研究的重点,因此其在拟人化、音色多样性等方面存在局限性。

  中国名义税负一直高于实际税负。所谓名义税负是指企业名义上该缴纳的税费。由于征管、企业对税法理解等原因,实际上企业不一定足额缴纳法律意义上的税费。

责编:郑雅宇编辑

七年七个总冠军

  青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程;甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚;西安和乌鲁木齐都表示,咸阳机场、天山机场的改扩建工程,能助力西安、乌鲁木齐打造“一带一路”核心枢纽。

对战

  连日来,受高温少雨天气影响,黄河流域甘肃、内蒙古、山西、陕西、河南、山东等省(区)出现不同程度的旱情。针对流域相关省(区)旱情,黄河防总和水利部黄河水利委员会(简称黄委)第一时间分别启动抗旱四级响应和干旱防御Ⅳ级应急响应;自6月14日17时起,针对河南省启动干旱防御Ⅲ级应急响应;要求各相关单位落实落细各项抗旱保供水措施,做好旱情持续或进一步发展的应对准备。

伊朗向以色列发射其最强导弹

  据英国政府13日发表声明称:“今天的行动包括英国首次针对俄罗斯总统‘影子舰队’中的船只实施制裁,俄罗斯利用这些船只规避英国和七国集团(G7)的制裁,并继续不受限制地进行石油贸易。”这些新制裁还针对俄罗斯军方的弹药、机床、微电子和物流供应商,包括位于中国、以色列、吉尔吉斯斯坦和俄罗斯的实体。声明写道,英国首相苏纳克在意大利参加G7峰会时宣布了这些新的制裁措施,“这将削弱俄罗斯为其战争机器提供资金和装备的能力”。

大批伊朗民众集会高呼反美口号

  绵阳拥有中国工程物理研究院、中国空气动力研究与发展中心等国家级科研院所18家,国家级创新平台25家,全社会研发经费(R&D)投入强度位居全国前列。

高考查分

  笔者跟多位省级、市级税务人士交流得知,目前并没有全国性查税部署。一些地方根据当地税收大数据风险提示等对个别企业查税,是日常工作,也是税务部门正常履职。毕竟税务部门主要负责税收、社会保险费和有关非税收入的征收管理,发现偷逃税、少缴税行为,理应依法制止,否则就是渎职。

韩国霸总王辉被爆塌房

  经查,王一新丧失理想信念,背弃初心使命,结交政治骗子,对抗组织审查;违背组织原则,隐瞒不报家庭房产情况,在组织谈话时不如实说明问题,违规选拔任用干部并收受财物;违规收受礼金,接受私营企业主低价装修,利用职权为特定关系人谋取利益,搞权色、钱色交易;道德败坏;以权谋私,大搞权钱交易,利用职务便利为他人在土地开发、项目承揽等方面谋利,并非法收受巨额财物。/p>

闵塔鲨

  中央要求谋划新一轮财税改革,税制改革是重头戏,未来增值税、消费税、个税等主要税种还将有进一步改革举措。笔者呼吁,在税收征管不断强化的同时,为促进企业、个人实际税负维持在合理水平,未来税制改革应当统筹考虑降低名义税率。/p>

孟子义李昀锐并排官宣

  国家防灾减灾救灾委员会办公室、应急管理部会同国家粮食和物资储备局向河北、山西、内蒙古、山东、河南5省(区)调拨3万件中央救灾物资,支持地方做好抗旱救灾各项工作。