Embodied AI

Saturday, Aug. 24, 2024

Session: Embodied AI

Time: 3:45 p.m. — 4:15 p.m.

Location: Weizhen Building，Ziyou Campus，Northeast Normal University（东北师范大学自由校区惟真楼）

Session Chair: Huazhe Xu, Institute of Interdisciplinary Information Sciences, Tsinghua University

Artificial Intelligence

Hang Zhao

Institute of Interdisciplinary Information Sciences, Tsinghua University

Title: 机器人跑酷

Abstract: 足式形态机器人的高动态运动是个有挑战的问题，尤其是困难地形的通过，而跑酷又是最有挑战的任务。传统的最优控制方法依赖于环境模型，无法实现环境泛化。本次报告将分享基于视觉感知和强化学习的机器人跑酷技术，在低成本的足式机器人和芯片上，实时完成任务，并且能泛化到真实世界的地形中。该技术在四足狗和人形机器人上都验证了实用性。

CV: 赵行，清华大学交叉信息研究院助理教授，博士生导师。博士毕业于麻省理工学院MIT，后于谷歌无人车项目Waymo担任研究科学家。研究涵盖自动驾驶，机器人，和多模态学习。提出了自动驾驶感知和预测中一系列框架型的工作，为行业大多数公司所使用或借鉴。获CoRL 2023最佳系统论文奖提名Top3，ICCP最佳论文奖，福布斯中国30Under30,曾担任ICLR大会联席主席。

Siyuan Li

Department of Computer Science, Harbin Institute of Technology

Title: 机械臂操作技能学习技术研究

Abstract: 操作能力是通用型机器人需要具备的重要能力之一。在本次报告中，演讲者将讨论基于深度强化学习、模仿学习的机械臂操作技能学习技术，重点关注操作技能学习中的奖励生成,以图像为观测的操作技能学习鲁棒性等问题，并展示相关研究工作在实体机械臂上的实验效果。

CV: 李斯源，哈尔滨工业大学计算学部副教授，硕士生导师，2022年6月于清华大学交叉信息研究院获得计算机科学与技术博士学位。主要研究方向为深度强化学习、多智能体学习等，发表高水平学术论文20余篇，包括NeurIPS、ICLR、AAAI等。作为负责人先后获得国家自然科学基金青年基金、航天一院创新联合基金、航天智能院项目、人形机器人校内培育项目、JKW青年人才基金等资助，同时作为骨干参与工信部人形机器人揭榜挂帅项目。获得2023年度CCF多智能体学组优秀博士生论文奖，华为黄大年难题揭榜第91期火花奖。担任中国指挥与控制学会空间信息通信技术专委会执行委员，中国人工智能学会具身智能专委会执行委员。

Rui Ma

School of Artificial Intelligence, Jilin University

Title: 智能可控的可视媒体内容感知与生成

Abstract: 以图像和三维图形内容为代表的可视媒体内容的感知与生成是计算机视觉和计算机图形学等领域长期以来的热门研究方向。随着大量可视媒体数据的涌现，基于人工智能和数据驱动的方法在图像理解、生成和三维内容分析与建模等任务上取得了显著的成果。然而，现有方法仍难以保证对具有复杂语义或者结构组成的可视媒体数据取得高质量的结果，算法的智能化和可控性仍有待提升。本报告将面向多种不同类别的可视媒体数据，介绍如何利用语义和结构等信息提升二维与三维内容感知和生成的准确度，并讨论如何在任务中引入不同模态的驱动或辅助信息，提升算法过程和结果的可控性，进而为更加智能可控的可视媒体内容感知与生成提供一些研究思路。

CV: 马锐，吉林大学人工智能学院准聘副教授（研究员）、博士生导师。博士毕业于加拿大西蒙弗雷泽大学计算机系GrUVi实验室，曾任华为加拿大研究院温哥华研究所高级研究员。主要研究方向包括计算机图形学、计算机视觉等，发表高水平学术论文20余篇，包括国际图形学、视觉和人工智能顶级会议和期刊SIGGRAPH/SIGGRAPH ASIA, TPAMI, CVPR, AAAI, TVCG, TDSC等，并获授权4项美国专利。作为负责人主持国家自然科学基金青年基金、吉林省面上项目、先进技术类项目等，并作为项目骨干参与多项国家级重点、面上项目、吉林省重大科技专项等。担任中国工业与应用数学学会几何设计与计算专委会委员、中国图象图形学学会三维视觉专委会委员、中国计算机图形学与混合现实在线研讨会（GAMES）执行委员。

Huazhe Xu

Institute of Interdisciplinary Information Sciences, Tsinghua University

Title: Toward Generalizable Embodied AI

Abstract: 泛化性能一直是具身智能的重要衡量标准。本次报告，演讲者将重点讨论具身智能的泛化能力，同时包括对视觉外观、光线、相机角度等方面的视觉泛化，也涵盖了对物体甚至跨种类物体的泛化能力。一系列的工作让机器人可以用相似的数据量和模型，泛化到更多的任务上。

CV: 许华哲博士现为清华大学交叉信息研究院助理教授，博导，清华大学具身智能实验室负责人。博士后就读于斯坦福大学，博士毕业于加州大学伯克利分校。其研究领域是具身人工智能（Embodied AI）的理论、算法与应用，具体研究方向包括深度强化学习、机器人学、基于感知的控制（Sensorimotor）等。其科研围绕具身人工智能的关键环节，系统性地研究了视觉深度强化学习在决策中的理论、模仿学习中的算法设计和高维视觉预测中的模型和应用，对解决具身人工智能领域中数据效率低和泛化能力弱等核心问题做出多项贡献。顶级智能机器人会议CoRL'23最佳系统论文得主，在IJRR, RSS，NeurIPS等发表顶级期刊/会议论文五十余篇，代表性工作曾被MIT Tech Review，Stanford HAI等媒体报道。曾在IJCAI2023、IJCAI2024、ICRA2024，RSS2024 Pioneer Workshop担任领域主席/副主编。