优秀博士学位论文分享:动态三维场景理解与重建

优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平,本公众号近期将推出“优秀博士学位论文分享”系列文章,对人工智能领域2023年优秀博士学位论文进行介绍和分享,方便广大读者了解人工智能领域最前沿的研究进展。

“博士学位论文激励计划”(原优秀博士学位论文奖)是对博士研究生学位论文的一项重大奖励,由各大学会通过严格评选后颁布。中国计算机学会、中国自动化学会、中国人工智能学会等各大学会每年都会颁布该奖项。该奖项的目的是促进学术研究的卓越性,并鼓励产出高质量的博士论文。博士研究生如果能够荣获该奖项,则表明其学术研究生涯早期的成果受到了很高的认可。

本文主要介绍清华大学黄家晖的博士论文《动态三维场景理解与重建》,该论文专注于智能体在动态三维环境中的准确感知与建模,提出了一系列算法,这些算法能够处理不同的传感器输入,针对各种动态场景,构建准确的三维模型。这些模型不仅描述了场景的静态部分,也能捕捉到其动态变化,从而支持智能体进行更为精准的行为规划、决策和执行。显著推动了三维场景理解与重建技术的发展。目前该论文已获得2023年“博士学位论文激励计划”。此外,本文还对其导师胡事民院士及其实验室进行了介绍,以方便读者了解更多相关信息。本文的作者为黄星宇,审校为邱雪和李杨。

一、论文介绍

1.1 背景与挑战

动态三维场景的理解与重建,是计算机视觉与计算机图形学领域研究的重点问题之一。该问题旨在以各类传感器输入数据为基础,使智能体除了对场景的静态部分进行分析建模之外,还对周围动态物体的形态、位置以及运动趋势进行准确的判断和感知,从而对下一步行动进行必要的规划与决策。与单纯的静态场景处理算法不同,动态场景由于额外引入了时间变化维度,且包含了不同目标在不同模式下的复杂运动,为算法的鲁棒性和准确性带来了更高的需求,也为相关研究带来了较大的挑战与机遇。

图1 动态三维场景理解与重建的重要挑战

总体而言,针对多种输入、多种运动模式的动态三维场景进行分析理解,并快速准确地为场景的静态与动态部分联合建立稠密三维模型,是支持更复杂、更实用的潜在未来应用的重要组成部分,也是研究的重点方向。

1.2 方法与实验结果

(1) 多物体视频的运动聚类与轨迹估计方法

本文提出了使用双目视频作为输入的多物体运动场景分析方法,能够针对每个输入帧实时输出该帧所包含运动物体的分割和轨迹、以及拍摄视频的相机自身位姿。该方法首先采用多层次概率关联手段,将稀疏特征点以及语义包围盒和运动物体以及三维路标点云关联,并利用误差传播理论对关联进行概率建模。为计算刚体分割,使用异构条件随机场模块综合对二维、三维以及运动信息进行分析。最后,通过双轨式帧管理策略和滑动窗口优化模块进行准确的系统状态估计。

图2 多物体视频的运动聚类与轨迹估计方法的执行流程

通过详尽的实验对比,证明了在相机位姿估计以及动态物体轨迹估计这两个任务上,本方法能够取得较有竞争力的结果。同时,实验结果还证明了该算法的通用性和准确性,可以实时应用在长时间室内运动序列或自动驾驶视频序列中。

(2) 多刚体点云的动态场景分割与联合注册方法

面对多刚体运动场景,本文提出了以多三维点云作为输入、能同时进行运动分割以及每个刚体部件位姿恢复的算法。该方法首先利用场景流估计模块建立成对点云匹配关系,并将其转换成置换矩阵,置换矩阵及其权重信息会通过一个新颖的带权置换同步模块,增强估计的循环一致性,通过多输入的信息减少成对估计的误差。接着采用成对运动分割模块基于场景流向量对刚体分割进行推理,并使用运动分割同步模块综合考虑所有成对运动分割信息,输出全局统一的刚体编号。最后,采用位姿同步对所有刚性部件的绝对位姿进行推理运算,并迭代整个方法流程以精化结果。所有的同步模块均采用闭式解进行定义,可以高效进行反向传播,支持端到端训练。

图3 多刚体点云的动态场景分割与联合注册方法的执行流程

实验表明,算法能够准确进行运动分割,并基于该分割输出精确的多刚体场景流。

(3) 柔性体点云的动态场景注册框架

4展示了针对柔性体动态场景的多输入三维点云注册框架。该框架基于函数映射这种新型的点云对齐表示方式,通过对齐函数空间而非点云本身,取得了更高的效率以及灵活性。通过稀疏卷积网络为每个输入点云学习非正交的一组基函数,并通过IRLS从可能带有造成的点云匹配中恢复出函数映射矩阵。在多输入情况下,可以通过函数映射矩阵自身的同步方法增强多帧注册输出之间的循环一致性,减小噪声。同步后,结合逐点匹配与坐标函数映射这两种方案恢复场景流,使得动态注册更加准确,且能够处理噪声、残缺等情况。

图4 柔性体点云的动态场景注册框架的执行流程

大量实验表明该框架所展示的算法能够在具有挑战性的柔性体注册任务中取得较高的准确性。该方法能够在诸多用例中取得较优效果,这也为未来计算机图形学中的经典几何处理框架和视觉领域中处理遮挡、噪声等复杂问题的方法的交叉融合发展带来了一定启发。

(4) 基于隐式场的动态场景表面重建方法

本文提出了一种基于神经伽辽金方法的表面重建求解器,利用动态点云重建稠密的几何形状。该方法首先采用稀疏卷积编码器对输入进行编码,并采用一种自适应的解码器输出容纳目标几何的体素网格,网格中每个体素均包含三维基函数。该基函数可用于表面拟合求解器进行隐式函数求解:求解过程最小化变分问题,可以利用有限元分析转换成易于闭式求解的线性方程组。最终得到的隐式场由基函数自身以及求解系数组合而成,能够通过各类轮廓提取方法得到用于下游任务的三角网格。

图5 基于隐式场的动态场景表面重建方法的执行流程

1.3 结论

论文围绕动态三维场景理解与重建问题,针对数据采集设备多种多样、待理解场景运动模式复杂、以及需快速准确建立三维模型的挑战开展研究工作,分别以双目视频和点云这两种最常见的数据表达形式作为输入,提出了针对多物体、多刚体铰链物体以及柔性体这几种不同运动模式进行注册对齐的有效方法,并依据对齐后的三维数据快速精确构建稠密三维模型,用于下游任务。从技术上,论文统一按照从观测到分割与关联,再到状态估计,最终进行重建的步骤形成动态三维问题处理框架,并将此框架成功应用到了所有算法章节中,以模块化的方式贯穿整文,并有望为未来关于动态三维场景理解与重建的研究提供方法论,进一步推动该领域的发展。

二、作者简介

黄家晖博士1997年出生于江苏省徐州市。2014年9月考入清华大学计算机科学与技术系。 2018年9月免试进入清华大学计算机科学与技术系攻读工学博士学位至今。师从中国科学院院士胡事民,学业生涯中发表多篇高水平学术论文和若干专利,为获得优秀博士论文打下了坚实基础。黄家晖博士生涯的相关成果细节如表1所示。

表1 博士生涯成果

成果类型

成果

发表机构

学术论文

Multiway non-rigid point cloud registration via learned functional map synchronization

PAMI

A neural galerkin solver for accurate surface reconstruction

TOG

Multibodysync: Multi-body segmentation and motion estimation via 3d scan synchronization

CVPR

Online implicit 3d reconstruction with deep priors

CVPR

ClusterVO: Clustering moving instances and estimating visual odometry for self and surroundings

CVPR

Wallnet: Reconstructing general room layouts from rgb images

Graphical Models

ClusterSLAM: A slam backend for simultaneous rigid body clustering and motion estimation

ICCV

DeepPrimitive: Image decomposition by layered primitive detection

Computational Visual Media

Real-time globally consistent 3d re construction with semantic priors

IEEE Transactions on Visualization and Computer Graphics

Subdivisionbased mesh convolution networks

TOG

Circle: Convolutional implicit reconstruction and completion for large-scale indoor scene

ECCV

Hdr-net-fusion: Real-time 3d dynamic scene reconstruction with a hierarchical deep reinforcement network

Computational Visual Media

动态三维场景重建研究综述

图学学报

专利

同时定位建图方法及装置

一种三维重建方法、装置、电子设备及存储介质

一种基于网格细分结构的三维模型特征提取方法

三、导师介绍

胡事民老师为中国科学院院士、清华大学计算机科学与技术系教授、国家杰出青年科学基金获得者和创新群体的学术带头人。现任中国计算机学会副理事长、ACM SIGGRAPH执委、亚洲图形学会主席。胡院士长期从事计算机图形学、几何计算与人工智能相关领域的教学和研究工作,在可视媒体智能处理的理论、方法和应用研究方面做出了系统性的贡献,成果应用于流程工厂的数字重建和大规模街景系统构建,研制了我国空间站首个天地协同混合现实系统。胡院士创新性地提出元算子融合思想和统一计算图策略,研制并开源了自主深度学习框架“计图”,有效降低了算子优化难度和异构硬件适配复杂度,实现了国产CPU、GPU和AI芯片的高效适配,在节省显存的同时,大幅提升了神经网络和大模型的训练推理效率。胡院士以第一完成人获国家自然科学奖二等奖、国家技术发明奖二等奖、国家科技进步奖二等奖各1项,并获得中国计算机学会“王选奖”和全国创新争先奖。若想了解更多关于胡事民院士的信息,可以访问他的个人主页:https://cg.cs.tsinghua.edu.cn/shimin.htm。

四、实验室介绍

黄家晖博士为人机交互与媒体集成研究所(简称媒体所)成员。媒体所包含多个著名研究机构,如“普适计算教育部重点实验室”、“清华大学—腾讯互联网创新技术联合实验室”、“网络多媒体北京市重点实验室”、“清华大学计算机系—华为终端智能交互技术创新联合实验室”等。近年来,媒体所主持多项本学科领域重要项目,包括十三五重点研发计划、973NSFC重点等,获得了国家级科技奖励多项,技术成果在行业内取得重要影响。媒体所的研究方向主要包括:计算机图形学与计算机视觉、媒体计算、和谐人机交互、普适计算环境等。更多信息请查阅实验室相关网站:https://www.cs.tsinghua.edu.cn/info/1062/1024.htm。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/582479.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于java+springboot+vue实现的在线考试系统(文末源码+Lw)204

摘 要 使用旧方法对在线考试系统的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在在线考试系统的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次开发的在线考试…

OpenAI发布GPT-4.0使用指南

大家好,ChatGPT 自诞生以来,凭借划时代的创新,被无数人一举送上生成式 AI 的神坛。在使用时,总是期望它能准确理解我们的意图,却时常发现其回答或创作并非百分之百贴合期待。这种落差可能源于我们对于模型性能的过高期…

百万人都在求的网络安全学习路线,渗透漏洞防御总结(附图)

前言 不折腾的网络安全,和咸鱼有什么区别 目录 二、 前言三 、同源策略 3.1 什么是同源策略 3.2 为什么需要同源策略四 、XSS 4.1 概览 4.2 介绍 4.3 防御五 、CSRF 5.1 概览 5.2 介绍 5.3 防御六、 SQL 注入七 、流量劫持 7.1 DNS 劫持 7.2 HTTP 劫持…

企业微信hook接口协议,ipad协议http,发送小程序

发送小程序 参数名必选类型说明uuid是String每个实例的唯一标识,根据uuid操作具体企业微信send_userid是long要发送的人或群idisRoom是bool是否是群消息 请求示例 {"uuid":"543ed7f3-6ec1-4db8339a140f7","send_userid":788130255…

「生存即赚」链接现实与游戏,打造3T平台生态

当前,在线角色扮演游戏(RPG)在区块链游戏市场中正迅速崛起,成为新宠。随着区块链技术的不断进步,众多游戏开发者纷纷将其游戏项目引入区块链领域,以利用这一新兴技术实现商业价值的最大化。在这一趋势中&am…

Android如何使用XML自定义属性

1、定义 在res/values文件下定义一个attrs.xml文件,代码如下: 2、使用 在布局中使用, 示例代码如下: 3、获取 最终来到这里:

异常处理Exception(二)

文章目录 1、自定义异常类1、定义消息类2、自定义异常类 2、调用3、测试总结 ABAP预定义的异常类在某些时候并不能精确地描述异常,此时就需要自定义异常类。 1、自定义异常类 1、定义消息类 2、自定义异常类 在Local Types中自定义异常类,当异常触发时…

开箱即用的使用体验!Alibaba Cloud Linux 的演进之旅

随着云计算的发展,越来越多的云上用户对操作系统提出了新的诉求。在 2023 龙蜥操作系统大会阿里云分论坛上,阿里云操作系统团队贾正华分享了 Alibaba Cloud Linux(以下简称“Alinux”)的发展历程及未来展望,介绍了 Ali…

unittest_parameterized批量测试测试用例

import unittest from parameterized import parameterizeddef add(x, y):return xy"""问题:如果有三组数据需要测试?[(1,1,2), (1,2,3), (0,3,3)] """def get_data():return [(1, 2, 3), (3, 0, 3), (2, 1, 3)]# 定义测试…

第3篇:创建Nios II工程之Hello_World<二>

Q:上一期介绍完基本设计流程和实验原理,接着我们完成系统硬件设计部分,包括Platform Designer系统及Quartus工程。 A:依次搜索并添加Nios II Processor、JTAG UART、On-Chip Memory和System ID IP组件,连接各组件并As…

C#窗体控件ColorDialog

介绍 可以获取颜色,然后对其他控件的颜色属性进行设置。 构造方式 直接把ColorDialog控件拖动到Form窗口。 常用属性 AllowFullOpen 可以控制是否使用自定义颜色,true表示可使用,否,表示不可使用。 AnyColor 如果为tr…

Leetcode—682. 棒球比赛【简单】(stoi函数、accumulate函数)

2024每日刷题&#xff08;120&#xff09; Leetcode—682. 棒球比赛 实现代码 class Solution { public:int calPoints(vector<string>& operations) {vector<int> v;for(const string& oper: operations) {if(oper "") {v.push_back(v.back(…

渗透新思路 | 仿真环境下内存转储分析和模糊测试的全记录

本文由安全研究人员hugsy于2024年03月26日更新并发表于blahcat博客上&#xff0c;本文主要记录了其在进行内存安全和模糊测试任务时发现的一些技术实现方式&#xff0c;主要讨论的是仿真环境下内存转储分析和模糊测试方法。本文旨在为红队和蓝队研究人员提供新的思路&#xff0…

数字化技术可以促进中国企业创新吗?

数字化技术可以显著促进中国企业的创新。数字化技术&#xff0c;包括人工智能&#xff08;AI&#xff09;、区块链&#xff08;Blockchain&#xff09;、云计算&#xff08;Cloud computing&#xff09;、大数据&#xff08;big Data&#xff09;等&#xff0c;被称为ABCD技术&…

TruLens

文章目录 一、关于 TruLensHow it works 二、安装三、快速使用Get DataInCreate Vector StoreBuild RAG from scratchSet up feedback functions.Construct the appRun the app 一、关于 TruLens Evaluate and Track LLM Applications 官网&#xff1a;https://www.trulens.o…

【Redis 开发】详细搭建Redis主从,并了解数据同步原理

Redis主从搭建 Redis主从搭建Redis的主从架构数据全同步原理数据的增量同步优化Redis主从集群 Redis主从 搭建Redis的主从架构 主从节点可以实现读写分离&#xff0c;将都大量的读操作分担与诸多从节点当中去 从节点可以叫做slave或者replica 如何搭建&#xff1a; 在一台…

node 项目启动报 ERROR Failed to compile with 1 errors 错误

问题 node项目通过npm run dev启动时出现ERROR Failed to compile with 1 errors 错误&#xff0c;具体信息如下&#xff1a; ✖ WebpackCompiled with some errors in 366.81msERROR Failed to compile with 1 errors …

如何买到“30元以下”的免备案服务器?

对于预算有限的个人和小型企业来说&#xff0c;30 元以下免备案服务器的价格非常亲民。用户可以以极低的成本获得所需的服务器资源&#xff0c;这对创业者、个人开发者、学生和站长来说简直不要太划算&#xff0c;毕竟配置可以升级真不够后面再付费升级也行。 何为“免备案”&…

xLua背包实践

准备工作 环境&#xff0c;代码 在C#代码方面我们需要准备单例模式基类&#xff0c;AB包管理器&#xff0c;lua解析器管理器 详情请见AB包管理器 xlua详解 然后是Xlua包和AB包&#xff0c;具体导入方法也在上面的链接中 然后是lua的三个文件 具体代码&#xff1a; JsonUtil…

主观赋权法、客观赋权法、组合赋权法、评价指标体系构建

在科研领域&#xff0c;为了对某个研究主题进行深入的探讨和评估&#xff0c;我们往往需要构建一套科学合理的评价体系&#xff0c;并为其中的各项评价指标赋予相应的权重。比如&#xff0c;在评价一项新技术的性能时&#xff0c;我们可能会考虑其创新性、实用性、成本效益等多…