信息编码
image
信息编码是多媒体计算与通信传输领域的一项关键技术,其目的是消除视觉信号中存在的各类冗余信息,从而以更加高效的方式存储和传输数据。面向智能应用的信息编码的目的不再局限于节约存储空间和传输带宽,以及向用户提供高清化的视觉服务,而是能为更智能的视觉分析处理需求提供高效的视觉数据表示。
视觉问答
image
视觉问答任务是通过模型来根据给定的图像回答人类问题。其挑战不仅在于对图像和文本的充分理解,还在于对所获得的多模态信息进行有效推理,以完成复杂的问题答案。视觉问答研究在计算机视觉、自然语言处理和多媒体分析领域获得了广泛的关注,在视觉残疾辅助、智能教育、在线购物指导、无人驾驶辅助等场景中具有巨大的潜力。
视觉对话
image
视觉对话任务要求人工智能体与人类进行基于视觉环境的多轮对话互动。这项任务的核心挑战是视觉共同指代的消解和多模态信息的有效推断。作为迈向对话式视觉人工智能的一步,视觉对话任务可以帮助视障用户了解周围的环境或社交媒体内容,或帮助分析师根据大量的监控数据做出决策,或与人工智能助手互动。
视觉常识推理
image
给定一个图像和一个问题,视觉常识推理(VCR)是一个包含两个四向选择子任务的任务。该任务不仅需要回答问题,还需要为选择提供合理的理由。此外,VCR中的选择是用更复杂的视觉和语言表达,而不是简单的短语来表示。VCR作为一种认知层面的推理任务已经得到了学术界和工业界越来越多的关注,它可以应用于许多领域,如人机交互、学前教育和视觉障碍援助。
图像修复
image
图像修复是将图像从退化的版本中恢复过来的过程--退化来自于图像捕获过程(如噪声、镜头模糊)、后期处理(如JPEG压缩)或在非理想条件下的摄影(如雾霾、运动模糊)等。这是图像处理中的一个基本问题,但由于存在着无限的可行方案,所以是一个高度涣散的问题。图像退化不仅影响人类的能见度,也会降低各种计算机视觉应用,如自动驾驶、无人机飞行和监控系统等。因此,图像修复的关键是去除任何不必要的信息,同时根据特定的需求仔细保留所需的内容。
图像增强
image
图像增强的主要目的是处理给定图像的信息,使其结果比原始图像更适合于特定的应用,如改善人类的视觉质量或改善下游高级计算机视觉任务的视觉理解。图像增强通常通过各种后期处理技术来提高图像质量,如对比度增强、色彩还原和锐化。有经验的摄影师可以通过专业的图像编辑软件(如Adobe Photoshop和Lightroom)自由地生成他们喜欢的视觉效果好的图像,而缺乏专业图像编辑技能的普通大众则需要这些图像。这种矛盾突出了面向用户的自动图像增强方法对普通大众产生他们想要的高质量图像的重要性。此外,自动图像增强已经是显示器、照相机、扫描仪和摄影应用程序的内置技术,为用户提供更好的定制服务。
图像质量评估
image
图像质量评估(IQA)是人类和计算视觉中的一个基本问题,在现实世界的各种应用中至关重要,如图像压缩、图像增强、图像修复等等。在过去的二十年里,它发展迅速,而且由于其广泛的应用,也越来越受到学术界和工业界的关注。根据评估对象的不同,IQA可以分为主观IQA和客观IQA。主观IQA的目标是收集人类受试者对测试图像的感知质量的可靠的平均意见分数(MOS),这是最直接和可靠的方法。客观IQA的目标是开发计算算法,自动提供与人类数据一致的质量预测。在多媒体领域应用IQA技术是非常不容易的,它在信号和图像处理算法的发展中继续发挥着基础作用。
信息编码
image
信息编码是多媒体计算与通信传输领域的一项关键技术,其目的是消除视觉信号中存在的各类冗余信息,从而以更加高效的方式存储和传输数据。面向智能应用的信息编码的目的不再局限于节约存储空间和传输带宽,以及向用户提供高清化的视觉服务,而是能为更智能的视觉分析处理需求提供高效的视觉数据表示。
视觉问答
image
视觉问答任务是通过模型来根据给定的图像回答人类问题。其挑战不仅在于对图像和文本的充分理解,还在于对所获得的多模态信息进行有效推理,以完成复杂的问题答案。视觉问答研究在计算机视觉、自然语言处理和多媒体分析领域获得了广泛的关注,在视觉残疾辅助、智能教育、在线购物指导、无人驾驶辅助等场景中具有巨大的潜力。
视觉对话
image
视觉对话任务要求人工智能体与人类进行基于视觉环境的多轮对话互动。这项任务的核心挑战是视觉共同指代的消解和多模态信息的有效推断。作为迈向对话式视觉人工智能的一步,视觉对话任务可以帮助视障用户了解周围的环境或社交媒体内容,或帮助分析师根据大量的监控数据做出决策,或与人工智能助手互动。
视觉常识推理
image
给定一个图像和一个问题,视觉常识推理(VCR)是一个包含两个四向选择子任务的任务。该任务不仅需要回答问题,还需要为选择提供合理的理由。此外,VCR中的选择是用更复杂的视觉和语言表达,而不是简单的短语来表示。VCR作为一种认知层面的推理任务已经得到了学术界和工业界越来越多的关注,它可以应用于许多领域,如人机交互、学前教育和视觉障碍援助。
图像修复
image
图像修复是将图像从退化的版本中恢复过来的过程--退化来自于图像捕获过程(如噪声、镜头模糊)、后期处理(如JPEG压缩)或在非理想条件下的摄影(如雾霾、运动模糊)等。这是图像处理中的一个基本问题,但由于存在着无限的可行方案,所以是一个高度涣散的问题。图像退化不仅影响人类的能见度,也会降低各种计算机视觉应用,如自动驾驶、无人机飞行和监控系统等。因此,图像修复的关键是去除任何不必要的信息,同时根据特定的需求仔细保留所需的内容。
图像增强
image
图像增强的主要目的是处理给定图像的信息,使其结果比原始图像更适合于特定的应用,如改善人类的视觉质量或改善下游高级计算机视觉任务的视觉理解。图像增强通常通过各种后期处理技术来提高图像质量,如对比度增强、色彩还原和锐化。有经验的摄影师可以通过专业的图像编辑软件(如Adobe Photoshop和Lightroom)自由地生成他们喜欢的视觉效果好的图像,而缺乏专业图像编辑技能的普通大众则需要这些图像。这种矛盾突出了面向用户的自动图像增强方法对普通大众产生他们想要的高质量图像的重要性。此外,自动图像增强已经是显示器、照相机、扫描仪和摄影应用程序的内置技术,为用户提供更好的定制服务。
图像质量评估
image
图像质量评估(IQA)是人类和计算视觉中的一个基本问题,在现实世界的各种应用中至关重要,如图像压缩、图像增强、图像修复等等。在过去的二十年里,它发展迅速,而且由于其广泛的应用,也越来越受到学术界和工业界的关注。根据评估对象的不同,IQA可以分为主观IQA和客观IQA。主观IQA的目标是收集人类受试者对测试图像的感知质量的可靠的平均意见分数(MOS),这是最直接和可靠的方法。客观IQA的目标是开发计算算法,自动提供与人类数据一致的质量预测。在多媒体领域应用IQA技术是非常不容易的,它在信号和图像处理算法的发展中继续发挥着基础作用。

多媒体与智能计算实验室 (MIC)