多媒体与智能计算实验室 (MIC)
首页
学术团队
教授
成员
校友
研究方向
学术论文
课程信息
联系我们
中/英
研究方向
信息编码
信息编码是多媒体计算与通信传输领域的一项关键技术,其目的是消除视觉信号中存在的各类冗余信息,从而以更加高效的方式存储和传输数据。面向智能应用的信息编码的目的不再局限于节约存储空间和传输带宽,以及向用户提供高清化的视觉服务,而是能为更智能的视觉分析处理需求提供高效的视觉数据表示。
自然语言片段检索
自然语言片段检索是一项旨在通过给定文本描述来筛选特定视频相关活动场景的任务。挑战不仅在于准确理解跨模态的时间背景,还在于有效的视频片段选择。自然语言片段检索的研究引发了学者对计算机视觉、自然语言处理和多媒体分析的极大兴趣,并在互联网视频审核、自动安全监控、无人驾驶辅助和其他场景中发挥了巨大作用。
跨模态检索
跨模态检索是一项旨在通过给定的文本描述来检索视觉信息的任务,反之亦然。这项任务背后的挑战不仅仅是理解各自媒体的语义信息,更重要的是如何设计有效的方法来消除不同媒体之间的异质性差距问题。跨模态检索在计算机视觉、自然语言处理或计算机视觉与自然语言处理的交叉领域获得了越来越多的关注。事实上,跨模态检索是很多潜在应用的重要保证,包括从推荐系统到搜索引擎。
图像描述
图像自动描述旨在生成描述图像内容的自然语言,是计算机视觉与自然语言处理交叉研究的关键问题,也是人工智能和人机交互技术的重要组成部分,在客观报告生成、多媒体信息处理、场景巡视监控和智能人机交互等领域具有广阔的应用前景。在图像自动描述的任务中,机器需要理解图像的视觉语义,难点在于对图像语义的精确理解,挖掘对象、属性和关系,同时将其转换为流畅的语言。
视频描述
视频描述致力于根据给定的视频生成一句话。期望生成的句子能够准确、全面地描述视觉内容。提取的视觉表征和文本表征首先通过多模态融合建立映射关系或对齐关系,然后在视觉线索的引导下推断出组成句子的单词序列。因此,核心是两种模态的表征和语义对齐,这也是主要的挑战和研究方向。更具体的问题包括(但不限于)词汇的长尾分布、注释数据集的规模有限、模态信息的利用不足、通过转移预训练特征提取器产生的偏差以及不对齐或生成词汇错误的积累。应用方面有人机交互、视频监控、视障辅助、视觉语言导航等。
视频段落描述
视频段落描述的目标是对采样的视频帧生成详细而丰富的段落描述,这是一项具有挑战性的任务,在视觉语言领域引起了广泛的关注。与根据视频内容给出简单句子的视频描述任务相比,视频段落描述方法需要理解多个事件中的复杂信息,并对提取的视觉特征建立局部和长期的关联,从而生成精细化的句子。视频段落描述具有很大的潜力和广泛应用, 如人机交互、自动新闻字幕、盲人视觉助手等。
视觉故事叙述
视觉故事叙述任务是对有序照片流的描述进行生成。它更进一步研究了生成一个段落来描述每个照片流。因此,视觉故事叙述有广泛的应用,如图像检索、图像字幕和盲人导航等。为了进一步研究机器在理解更复杂的视觉场景和构成更多结构化表达方面的能力,视觉故事叙述在视觉和语言领域引起了更多的关注。与自动生成单个图像描述的图像标题相比,视觉故事叙述会是一项更加复杂和具有挑战性的任务,因为它不仅要识别图像中的各种对象和关系,还要学习图像之间的依赖关系。此外,开放域的图片集涵盖了广泛的主题,这导致描述图片集内容的词汇和表达方式变化很大。因此,如何为图片集中的连续图像生成准确的、描述性的故事式描述,仍然是一个开放的研究问题。
行为检测
时间性行为检测是计算机视觉中一项重要的任务,其目的是在未修剪的视频中定位动作的精确时间边界。它与现实世界的环境非常吻合,因为视频的每个片段都有可能充满了需要检测和标记的多个动作。时间性行为检测是一些下游任务的核心,如视频分类、视频字幕和视频编辑。
视觉问答
视觉问答任务是通过模型来根据给定的图像回答人类问题。其挑战不仅在于对图像和文本的充分理解,还在于对所获得的多模态信息进行有效推理,以完成复杂的问题答案。视觉问答研究在计算机视觉、自然语言处理和多媒体分析领域获得了广泛的关注,在视觉残疾辅助、智能教育、在线购物指导、无人驾驶辅助等场景中具有巨大的潜力。
视觉对话
视觉对话任务要求人工智能体与人类进行基于视觉环境的多轮对话互动。这项任务的核心挑战是视觉共同指代的消解和多模态信息的有效推断。作为迈向对话式视觉人工智能的一步,视觉对话任务可以帮助视障用户了解周围的环境或社交媒体内容,或帮助分析师根据大量的监控数据做出决策,或与人工智能助手互动。
视觉常识推理
给定一个图像和一个问题,视觉常识推理(VCR)是一个包含两个四向选择子任务的任务。该任务不仅需要回答问题,还需要为选择提供合理的理由。此外,VCR中的选择是用更复杂的视觉和语言表达,而不是简单的短语来表示。VCR作为一种认知层面的推理任务已经得到了学术界和工业界越来越多的关注,它可以应用于许多领域,如人机交互、学前教育和视觉障碍援助。
图像修复
图像修复是将图像从退化的版本中恢复过来的过程--退化来自于图像捕获过程(如噪声、镜头模糊)、后期处理(如JPEG压缩)或在非理想条件下的摄影(如雾霾、运动模糊)等。这是图像处理中的一个基本问题,但由于存在着无限的可行方案,所以是一个高度涣散的问题。图像退化不仅影响人类的能见度,也会降低各种计算机视觉应用,如自动驾驶、无人机飞行和监控系统等。因此,图像修复的关键是去除任何不必要的信息,同时根据特定的需求仔细保留所需的内容。
图像增强
图像增强的主要目的是处理给定图像的信息,使其结果比原始图像更适合于特定的应用,如改善人类的视觉质量或改善下游高级计算机视觉任务的视觉理解。图像增强通常通过各种后期处理技术来提高图像质量,如对比度增强、色彩还原和锐化。有经验的摄影师可以通过专业的图像编辑软件(如Adobe Photoshop和Lightroom)自由地生成他们喜欢的视觉效果好的图像,而缺乏专业图像编辑技能的普通大众则需要这些图像。这种矛盾突出了面向用户的自动图像增强方法对普通大众产生他们想要的高质量图像的重要性。此外,自动图像增强已经是显示器、照相机、扫描仪和摄影应用程序的内置技术,为用户提供更好的定制服务。
图像质量评估
图像质量评估(IQA)是人类和计算视觉中的一个基本问题,在现实世界的各种应用中至关重要,如图像压缩、图像增强、图像修复等等。在过去的二十年里,它发展迅速,而且由于其广泛的应用,也越来越受到学术界和工业界的关注。根据评估对象的不同,IQA可以分为主观IQA和客观IQA。主观IQA的目标是收集人类受试者对测试图像的感知质量的可靠的平均意见分数(MOS),这是最直接和可靠的方法。客观IQA的目标是开发计算算法,自动提供与人类数据一致的质量预测。在多媒体领域应用IQA技术是非常不容易的,它在信号和图像处理算法的发展中继续发挥着基础作用。
信息编码
信息编码是多媒体计算与通信传输领域的一项关键技术,其目的是消除视觉信号中存在的各类冗余信息,从而以更加高效的方式存储和传输数据。面向智能应用的信息编码的目的不再局限于节约存储空间和传输带宽,以及向用户提供高清化的视觉服务,而是能为更智能的视觉分析处理需求提供高效的视觉数据表示。
自然语言片段检索
自然语言片段检索是一项旨在通过给定文本描述来筛选特定视频相关活动场景的任务。挑战不仅在于准确理解跨模态的时间背景,还在于有效的视频片段选择。自然语言片段检索的研究引发了学者对计算机视觉、自然语言处理和多媒体分析的极大兴趣,并在互联网视频审核、自动安全监控、无人驾驶辅助和其他场景中发挥了巨大作用。
跨模态检索
跨模态检索是一项旨在通过给定的文本描述来检索视觉信息的任务,反之亦然。这项任务背后的挑战不仅仅是理解各自媒体的语义信息,更重要的是如何设计有效的方法来消除不同媒体之间的异质性差距问题。跨模态检索在计算机视觉、自然语言处理或计算机视觉与自然语言处理的交叉领域获得了越来越多的关注。事实上,跨模态检索是很多潜在应用的重要保证,包括从推荐系统到搜索引擎。
图像描述
图像自动描述旨在生成描述图像内容的自然语言,是计算机视觉与自然语言处理交叉研究的关键问题,也是人工智能和人机交互技术的重要组成部分,在客观报告生成、多媒体信息处理、场景巡视监控和智能人机交互等领域具有广阔的应用前景。在图像自动描述的任务中,机器需要理解图像的视觉语义,难点在于对图像语义的精确理解,挖掘对象、属性和关系,同时将其转换为流畅的语言。
视频描述
视频描述致力于根据给定的视频生成一句话。期望生成的句子能够准确、全面地描述视觉内容。提取的视觉表征和文本表征首先通过多模态融合建立映射关系或对齐关系,然后在视觉线索的引导下推断出组成句子的单词序列。因此,核心是两种模态的表征和语义对齐,这也是主要的挑战和研究方向。更具体的问题包括(但不限于)词汇的长尾分布、注释数据集的规模有限、模态信息的利用不足、通过转移预训练特征提取器产生的偏差以及不对齐或生成词汇错误的积累。应用方面有人机交互、视频监控、视障辅助、视觉语言导航等。
视频段落描述
视频段落描述的目标是对采样的视频帧生成详细而丰富的段落描述,这是一项具有挑战性的任务,在视觉语言领域引起了广泛的关注。与根据视频内容给出简单句子的视频描述任务相比,视频段落描述方法需要理解多个事件中的复杂信息,并对提取的视觉特征建立局部和长期的关联,从而生成精细化的句子。视频段落描述具有很大的潜力和广泛应用, 如人机交互、自动新闻字幕、盲人视觉助手等。
视觉故事叙述
视觉故事叙述任务是对有序照片流的描述进行生成。它更进一步研究了生成一个段落来描述每个照片流。因此,视觉故事叙述有广泛的应用,如图像检索、图像字幕和盲人导航等。为了进一步研究机器在理解更复杂的视觉场景和构成更多结构化表达方面的能力,视觉故事叙述在视觉和语言领域引起了更多的关注。与自动生成单个图像描述的图像标题相比,视觉故事叙述会是一项更加复杂和具有挑战性的任务,因为它不仅要识别图像中的各种对象和关系,还要学习图像之间的依赖关系。此外,开放域的图片集涵盖了广泛的主题,这导致描述图片集内容的词汇和表达方式变化很大。因此,如何为图片集中的连续图像生成准确的、描述性的故事式描述,仍然是一个开放的研究问题。
行为检测
时间性行为检测是计算机视觉中一项重要的任务,其目的是在未修剪的视频中定位动作的精确时间边界。它与现实世界的环境非常吻合,因为视频的每个片段都有可能充满了需要检测和标记的多个动作。时间性行为检测是一些下游任务的核心,如视频分类、视频字幕和视频编辑。
视觉问答
视觉问答任务是通过模型来根据给定的图像回答人类问题。其挑战不仅在于对图像和文本的充分理解,还在于对所获得的多模态信息进行有效推理,以完成复杂的问题答案。视觉问答研究在计算机视觉、自然语言处理和多媒体分析领域获得了广泛的关注,在视觉残疾辅助、智能教育、在线购物指导、无人驾驶辅助等场景中具有巨大的潜力。
视觉对话
视觉对话任务要求人工智能体与人类进行基于视觉环境的多轮对话互动。这项任务的核心挑战是视觉共同指代的消解和多模态信息的有效推断。作为迈向对话式视觉人工智能的一步,视觉对话任务可以帮助视障用户了解周围的环境或社交媒体内容,或帮助分析师根据大量的监控数据做出决策,或与人工智能助手互动。
视觉常识推理
给定一个图像和一个问题,视觉常识推理(VCR)是一个包含两个四向选择子任务的任务。该任务不仅需要回答问题,还需要为选择提供合理的理由。此外,VCR中的选择是用更复杂的视觉和语言表达,而不是简单的短语来表示。VCR作为一种认知层面的推理任务已经得到了学术界和工业界越来越多的关注,它可以应用于许多领域,如人机交互、学前教育和视觉障碍援助。
图像修复
图像修复是将图像从退化的版本中恢复过来的过程--退化来自于图像捕获过程(如噪声、镜头模糊)、后期处理(如JPEG压缩)或在非理想条件下的摄影(如雾霾、运动模糊)等。这是图像处理中的一个基本问题,但由于存在着无限的可行方案,所以是一个高度涣散的问题。图像退化不仅影响人类的能见度,也会降低各种计算机视觉应用,如自动驾驶、无人机飞行和监控系统等。因此,图像修复的关键是去除任何不必要的信息,同时根据特定的需求仔细保留所需的内容。
图像增强
图像增强的主要目的是处理给定图像的信息,使其结果比原始图像更适合于特定的应用,如改善人类的视觉质量或改善下游高级计算机视觉任务的视觉理解。图像增强通常通过各种后期处理技术来提高图像质量,如对比度增强、色彩还原和锐化。有经验的摄影师可以通过专业的图像编辑软件(如Adobe Photoshop和Lightroom)自由地生成他们喜欢的视觉效果好的图像,而缺乏专业图像编辑技能的普通大众则需要这些图像。这种矛盾突出了面向用户的自动图像增强方法对普通大众产生他们想要的高质量图像的重要性。此外,自动图像增强已经是显示器、照相机、扫描仪和摄影应用程序的内置技术,为用户提供更好的定制服务。
图像质量评估
图像质量评估(IQA)是人类和计算视觉中的一个基本问题,在现实世界的各种应用中至关重要,如图像压缩、图像增强、图像修复等等。在过去的二十年里,它发展迅速,而且由于其广泛的应用,也越来越受到学术界和工业界的关注。根据评估对象的不同,IQA可以分为主观IQA和客观IQA。主观IQA的目标是收集人类受试者对测试图像的感知质量的可靠的平均意见分数(MOS),这是最直接和可靠的方法。客观IQA的目标是开发计算算法,自动提供与人类数据一致的质量预测。在多媒体领域应用IQA技术是非常不容易的,它在信号和图像处理算法的发展中继续发挥着基础作用。
多媒体与智能计算实验室 (MIC)