主题:多媒体计算前沿进展
时间:2022年7月17日(星期日)14:00-17:30
承办单位:400全讯白菜网 7003全讯入口
地点:400全讯白菜网翡翠湖校区
会议形式:线上腾讯会议,会议室:760-580-457
时间 |
活动安排 |
14:00 |
报告会开始 主持人:薛峰 教授 400全讯白菜网 张高峰 副教授 400全讯白菜网 |
14:05-14:40 |
特邀讲者:彭宇新 博士北京大学教授 报告题目:视觉-语言相互生成技术 |
14:40-14:50 |
提问环节 |
14:50-15:30 |
特邀讲者:李泽超博士 南京理工大学教授 报告题目:开放环境多媒体内容理解 |
15:30-15:40 |
提问环节 |
15:40-16:20 |
特邀讲者:杨巨峰博士 南开大学教授 报告题目:视觉情感计算 |
16:20-16:30 |
提问环节 |
16:30-17:10 |
特邀讲者:郝艳宾博士中国科学技术大学副研究员 报告题目:深度视觉模型的上下文关系增强 |
17:10-17:20 |
提问环节 |
17:20-17:30 |
总结:薛峰 教授 400全讯白菜网 |
讲者/报告信息
讲者简介:彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方向为跨媒体分析与推理、图像视频识别与理解、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术一等奖和2020年中国电子学会科技进步一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等20多个项目,发表论文160多篇,包括ACM/IEEE Trans和CCF A类论文70多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TCSVT等期刊编委。。
报告题目:视觉-语言相互生成技术
报告摘要:随着深度学习等技术的发展,计算机在图像分类、对象识别等任务中取得了接近甚至超越人类的成绩,但如何赋予人工智能具有突破固定规则的“创意”,使人工智能从“感知智能”迈向“认知智能”是计算机视觉领域的重要任务。视觉-语言相互生成技术旨在使计算机能够根据用户给定的输入进行“联想”与“创造”,能够根据图像、视频等视觉内容自动生成一段自然语言描述,实现视觉到语言生成;或者根据一段自然语言描述从无到有地自动生成语义一致、内容真实、符合逻辑的图像、视频、3D图形,实现语言到视觉生成。这是人工智能实现 “认知智能”的一项重要任务,在教育、设计、影视、创作等领域具有重要的应用价值。本报告将介绍我们在视觉-语言相互生成技术上的研究工作:在视觉到语言生成上,提出对象感知双向图和层次化视觉-语言对齐等方法,通过视频时空信息建模和语义一致性建模,实现准确的视频描述生成。在文本到视觉生成上,提出对称蒸馏网络等方法,将相关视觉任务中的语义知识迁移至生成任务中,提高图像与视频生成的质量。最后展示相关的演示系统。
讲者简介:李泽超,南京理工大学计算机科学与工程学院(人工智能学院)教授、博士生导师,“社会安全信息感知与系统”工信部重点实验室副主任,分别于2008年和2013年毕业于中国科学技术大学和中国科学院自动化研究所。研究兴趣主要是媒体智能分析、计算机视觉等。发表ACM/IEEE Transactions或者CCF A类会议论文70余篇;入选爱思唯尔中国高被引学者;获得三次省部级一等奖、2018年吴文俊人工智能优秀青年奖等;主持国家自然科学基金联合基金重点项目、江苏省杰出青年基金等;担任IEEE TNNLS、Information Sciences编委。
报告题目:开放环境多媒体内容理解
报告摘要:图像视频大数据智能分析与理解在多种实际应用中具有至关重要的作用,比如无人驾驶、网络空间内容安全以及社会公共安全等。然而实际应用情况是复杂开放的。为此,我们研究了开放环境下多媒体内容分析与理解问题,主要是半监督、小样本和弱监督条件下的图像内容分析,提出了半监督特征学习方法、小样本识别、深度协同因子分解模型,将图像和标签映射到统一空间,同时解决图像标注、标签优化、基于内容的图像检索以及标签扩展等多种任务。
讲者简介:杨巨峰,南开大学计算机学院教授、博士生导师,天津市媒体计算技术工程研究中心副主任,天津杰青、南开百青。研究方向是计算机视觉、机器学习、多媒体计算,发表PAMI/CVPR等高水平学术论文50余篇。任中国计算机学会计算机视觉专委会副秘书长,中国图象图形学学会情感计算与理解专委会常务委员,中国中文信息学会情感计算专委会执行委员,中国计算机视觉大会(CCCV 2017)组织主席,视觉与学习青年研讨会(VALSE 2022)Workshop主席。研究成果获第十届吴文俊人工智能自然科学二等奖。
报告题目:视觉情感计算
报告摘要:视觉是人类感知、表达和传递情感的重要途径。与人脸表情识别任务不同,广义视觉情感计算涉及的对象更复杂,面临的挑战也更多,成为多媒体领域一个新兴和热点问题。从情感的主观性、抽象性、模糊性等特点出发,我们对该问题进行了初步探索,构建了几个有趣的应用,部分地解决了开放环境视觉情感计算的难题。以课题组今年的几个最新工作为例,汇报我们的研究进展并就未来可能的方向进行讨论。
讲者简介:郝艳宾,中国科学技术大学信息科学技术学院特任副研究员。分别于2012年和2017年毕业于400全讯白菜网工学。攻读博士学位期间(2015-2017),他作为“111”计划和国家留学基金委资助的联合培养博士在英国利物浦大学交流学习。从2018年到2020年,加入了香港城市大学电脑科学系VIREO实验室做博士后研究。研究方向为多媒体内容分析、检索和识别。发表IEEE/ACM Transactions或者CCF A类会议论文20余篇。 主持国家自然科学基金青年基金项目、省级高校协同创新项目,作为子课题负责人主持科技部重点研发计划项目、国家自然科学基金委联合基金项目。担任顶级期刊如TNNLS、TMM、TKDE等审稿人,多次担任CCF A类会议如CVPR、ICCV、ECCV、ACMMM、AAAI等程序委员或审稿人。
报告题目:深度视觉模型的上下文关系增强
报告摘要:深度视觉模型是深度视觉识别系统的核心,是图像视频数据相关任务的基础组件,其很大程度上决定了业界的发展。当前主流的深度视觉基础模型主要包括Vision MLP, Vision Transformer和CNN。此三类模型沿用了不同的深度神经网络架构,因此具有差异化的视觉上下文关系感知能力。本报告将介绍我们团队在有针对性提升视觉深度模型的视觉上下文关系建模方面的研究工作:在图像处理上,提出PosMLP模型,设计基于相对位置编码的夸视觉词块关系建模方法,提升基线VisionMLP模型的性能;在视频处理上,针对Vision Transformer,提出Token Shift组件,实现视频时空上下文关系感知与建模,针对CNN,提出多轴向上下文关系校准器,以分组校准模式显著提升二模型对三维视觉的感知建模能力。