服务项目

产品&解决方案

产品技术

详细内容

多模态交互

多模态应用：让 AI 能够观察同一现象的多种模式，捕获到互补的信息，让预测结果更加可靠。比如电影，通过图像、音频、字幕文本以实现多种模态的理解。

为什么我们需要多模态、跨模态？多、跨模态应用能够打造全新的用户体验，用户可以使用任何模式的组合来输入和输出，包括但不限于：Verbal(文本)、Vocal(语音)、Visual(视觉)。随着搜索媒介的丰富，搜索领域也正在发生变迁。

可以说，跨模态和多模态应用颠覆了传统单模态的互动方式，在可预见的未来里，我们将迎来一个全内容搜索的世界，无论是文本，图片，语音，视频，代码，元数据等等都可以作为输入源，做到全域全方位的搜索。