|
多模态交互多模态应用:让 AI 能够观察同一现象的多种模式,捕获到互补的信息,让预测结果更加可靠。比如电影,通过图像、音频、字幕文本以实现多种模态的理解。 为什么我们需要多模态、跨模态? 多、跨模态应用能够打造全新的用户体验,用户可以使用任何模式的组合来输入和输出,包括但不限于:Verbal(文本)、Vocal(语音)、Visual(视觉)。随着搜索媒介的丰富,搜索领域也正在发生变迁。 可以说,跨模态和多模态应用颠覆了传统单模态的互动方式,在可预见的未来里,我们将迎来一个全内容搜索的世界,无论是文本,图片,语音,视频,代码,元数据等等都可以作为输入源,做到全域全方位的搜索。 |