中文版 | ENGLISH | 会议室预定 | 在线投稿
 
   
 
当前位置: 首页 >> 科学研究 >> 科研成果 >> 正文
科学研究

11多媒体大数据分析

Date:2017年11月03日

特色成果:

天津大学多媒体信息处理中心,前身为天津大学电视与图像信息研究所,是中国高校中唯一经国家教育部批准设立的从事这一领域研究的科研单位。先后参加国家彩电会战、数字电视功能样机研制等国家电视领域重大课题的研究,在模拟电视、数字电视与高清晰度电视方面取得了多项重要科研成果。目前主要研究方向包括:多媒体内容分析与检索、信息安全、下一代视频编解码技术、嵌入式系统等相关方向的研究。

中心在多媒体内容分析和检索领域具有长期的研究和积累,研究内容覆盖了该领域从早期研究热点——视频内容结构化,到中期研究热点——视频语义自动标注,以及当前研究热点——大规模网络数据的自动匹配、分类和人机交互。所研究和积累关键技术包括:

1. 目标检测:对特定场景中的行人、车辆等运动目标进行检测;

2. 目标跟踪:对复杂场景下多运动目标进行跟踪,克服目标遮挡、形变等困难;

3. 异常行为识别:根据异常行为特性分别进行基于领域知识和自适应时空模型的异常行为建模和检测;

4.大规模视觉特征库构建:已积累特征库包括全局的颜色、纹理和形状特征,以及基于点和块的局部特征,共30类特征;

5.分类器库构建:以构建包括支持向量机、混合高斯模型、K均值算法、Fisher线性判别算法、LDA模型、LSA模型、隐马尔可夫模型、随机场模型等流行分类器库,为数据分类提供分类模型比较平台;

6.视频结构化:基于时空条带模式的视频镜头分割、场景聚类算法

7.语义模型构建:多模态融合的视频语义模型构建方法;

8.话题检测:基于密度的自适应概率主题模型构建方法;

9.个性化信息交互:基于事件向量的用户建模和最优化视频摘要

10.视频检索框架:基于显示和隐含语义融合的视频检索框架;

11.视觉体验分析:人眼关注点检测方法以及基于显著物体布局的图像美感体验评价体系;

应用领域:

(一)视频监控

中心侧重于基于云平台的智能监控视频分析模块开发,目前研究成果覆盖该领域相关关键技术模块,主要包括:

1.目标检测:综合利用人脸检测、人体检测、运动区域检测等技术对行人、车辆等关注目标进行检测。包括以下应用案例:人群流量统计、车流统计、恶劣环境下目标检测(雨天、雪天)。

2.目标跟踪:实现复杂场景的目标运动轨迹跟踪。包括以下应用案例多目标跟踪、恶劣环境下目标跟踪(低亮度条件)、高速飞行物体(运动目标移动过快)。

3.异常事件检测:对监控环境下异常事件进行建模和检测。包括以下两类方法:

(1)基于自学习时空模型的异常事件模式挖掘:适用于无先验规则的异常事件建模和检测,已应用于美国国家标准技术局(NIST)在TRECVID国际顶级评测项目Surveillance Event Detection(监控事件检测)定义的7个比赛项目中,具体包括:

(2)基于先验知识的异常事件模式挖掘:适用于具有先验规则的异常事件建模和检测,具体包括:a.入禁检测(地铁内有行人出现);b.长时停留:(银行柜台前长时停留,数字表示停留时间(以图像帧数表示));c.遗留物体检。

4. 已开发系统:基于移动终端的智能监控系统随着经济社会的发展,信息处理技术,电子技术和计算机技术的深入研究和发展,使得安防的科学化,信息化,智能化成为了可能。其中,视频监控可以提供直观可靠的监控信息,所以被广泛使用。此外,为了结合“云端模式”和“无线网络平台”,我们开发了基于移动终端的职能监控系统。通过构建流媒体服务器,将摄像头采集的视频传送至手机,并通过手机智能分析模块自动进行事件监测和语义标注,如下图所示:

(二)基于内容的视频检索:

1. 基于样例的图像/视频检索

通过局部特征点(二维和三维关键点)的局部特征提取以及图像颜色、纹理、形状等全局特征的全局特征提取,实现图像/视频的表征和匹配,创新性的提出了基于空间关系的视觉管检测提取和匹配,重点解决了目标的旋转、仿射、光线不变性问题,同时满足面向移动终端的视觉搜索。

2. 视频语义理解

对于视频语义概念检测,针对TRECVID提出的20个高层语义概念提出基于多特征的层次化语义建模方法,以实现通用的语义概念检测。对于视频语义事件检测,针对电影视频和监控视频中常见的语义事件构建时序模型从而利用视频的时空特性实现对语义事件的检测。在视频结构化和语义理解的基础上,开发了结构化视频浏览和语义标注系统,如下图所示。

结构化视频浏览和语义标注系统(电影:《卧虎藏龙》)

(三)视频内容管理:

1.面向移动终端的地标搜索和导航系统

下图所示课题组近期开发的面向移动终端的地标搜索和导航系统,其潜在应用包括:1).导航:用移动视觉检索技术实现对用户的定位;当用户输入目的地时,可以在数据库中用基于文本的图像检索检索出目的地的图像信息,位置信息,交通信息等等,然后计算出一条通往目的地的推荐路径,同时可以标注公交等信息;2)电子导游:当用户到达一个景点时,用移动视觉检索技术实现对用户的定位,此时的数据库中,预先对每张图片或每个景点标注有更加庞大的信息,包括对景点的介绍,当地文化传统,周围的住宿,餐饮,交通信息以及附近其他景点推荐等信息。这样,用户只需输入一张图片,就可实现轻松游览;3)商品搜索:该系统可以辅助大型商场购物,现在的网上购物,例如衣服等等往往存在一个问题,就是用户总会担心网上的图片与实物会有很大差别,所以用户在网上看到一件心仪商品的时候,总会去商场看看实物,或者直接在商场购买。这个系统可以根据你输入的图片信息检索出本商场相似或者相同的商品,并对商品进行定位,方便用户找到商品,并了解它的真实情况。

面向移动终端的地标搜索和导航系统“Where am I”(演示中地图为天津大学校园图)

2.视频结构分析

先后提出了基于时空条带模式分析的镜头分割方法,自适应域值的镜头边界检测算法、基于谱分析的场景分类方法、基于注意力模型的关键帧提取方法等一系列视频结构化的算法,并在此基础上构建了视频结构化浏览和显著性标注系统,如下图所示。

结构化视频浏览和显著性标注系统(红、绿、蓝分别对应注意力由强到弱)

3.新闻视频摘要

针对新闻一类特殊视频,根据新闻视频的特点实现了镜头边界检测、主持人镜头检测、广告检测、镜头分类和故事单元分割几个功能,并在此基础上实现了新闻视频摘要的交互性制作。该系统运行时框图如下所示:

视频摘要生成系统示意图(a) 基于镜头的视频摘要 (b) 基于故事单元的视频摘要

(四)视觉体验评价体系

1. 人眼关注点检测

先后提出基于主成分分析的检测方法、基于自适应线性预测器的检测算法,实现对图像内容的有效理解与关注点检测。显著性图的预测结果如下图所示,该显著图可广泛应用于压缩、修复等多种图像处理过程,有效提高处理效率。

2.基于显著物体布局的美学评价系统

在显著物体检测的基础上,我们提冲了一种基于显著物体布局的美学评价系统,该系统可以准确预测用户的视觉体验效果。通过比较图像编辑模块前后及采用不同编辑方法的视觉体验,该系统可以有效辅助图像处理过程。下图展示了对于经过不同图像缩放过程的结果图的评价结果:

联系人:苏育挺13920309295ytsu@tju.edu.cn

刘安安 13502028106 liuanan@tju.edu.cn

聂为之18502209837 weizhinie@tju.edu.cn

李岳楠 15522754868 ynli@tju.edu.cn

张静 13299926129 zhangjing@tju.edu.cn

刘婧 13816489691 jliu_tju@tju.edu.cn