创科广场｜商汤再扬威学术会议 71篇论文入选显研究实力

2022-06-27 10:35

CVPR是IEEE国际电脑视觉与模式识别（Computer Vision and Pattern Recognition）会议，跟ICCV、ECCV并称为三大电脑视觉运算会议。

视觉运算发展速度极快，全球学者倾向将研究结果投稿至CVPR等会议，论文录取率极低，录取论文又分为数级，委员会认为价值最高会入选口头报告（Oral Presentation），可以在大会做演讲报告，其馀剩下是论文海报，或者简短演讲报告（Spotlight）。本港上市的人工智能企业商汤科技一直活跃于CVPR会议，今年CVPR共接收2067篇论文，数量较去年增长了四分一，商汤科技及联合实验室共有71篇论文入选。

数码人应用广泛

CVPR论文在多个计算电脑计算会议的h-index，评份最高，意味所发表论文以后可获最多人引用和实际应用，属于全球最顶尖电脑学术会议，参与的除了学术机构，还有企业和研究机构，俨然是全球视觉运算一场「华山论剑」。

今年CVPR选址在美国路易斯安那州新奥尔良，商汤入选的论文之中，有近四分之一属口头报告；包括了三维视觉和自动驾驶，显示其研发水准仍处前列位置。

商汤参与CVPR会议的竞赛，与中科院自动化所、上海人工智慧实验室联合参加了Embodied AI 2022，Embodied AI集中如何移动物件，与真实世界进行实际的互动的AI技术，数年前facebook开发Embodied AI平台的AI Habitat模拟平台，专供研究人员在极逼真的3D环境训练虚拟机器人，可结合facebook的Replica，或者Gibson和Matterport3D等3D环境数据集。

商汤在Embodied AI的RxR-Habitat比赛夺冠，比赛要求以自然语言控制室内机器人导航。商汤算法提升九成以上效果，导航的准确率从24.08%跃升至45.82%，导航保真度从37.39%提升至55.43%。此外，视觉编码技术比赛CLIC（Challenge on Learned Image Compression），商汤获得图像编码冠军，全部三个测试码点取得最佳主观评测近年来，商汤开发SenseCore等AI基础大设施，推动不同产业的开发；例如今次发表的《Bailando︰ 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》论文，研究人员开发一种音乐到舞蹈框架Bailando，驱动3D虚拟角色跟随音乐做出舞蹈动作，不仅保证动作标准与美感，还能时间上保持与不同音乐节奏一致，比其他框架更优胜。数字虚拟人应用广泛，可在社交媒体、电玩游戏、直播、虚拟偶像等场景。

光学雷达（LiDAR）是自动驾驶不可或缺的技术，可以在夜间或恶劣天气监察环境，车辆可利用从LiDAR产生点云数据，跟踪附近目标和分析环境。商汤发表的《PTTR︰ Relational 3D Point Cloud Object Tracking with Transformer》论文，提出了点云跟踪框架PTTR，Transformer架构源于AI针对自然语言处理（NLP）的神经网络架构，特别是应用于机器翻译，自从2017年Google研究员发表了《Attention is All you Need》论文之后，Transformer横扫了NLP应用，今次CVPR再有不少Transformer转用在视觉运算上。

提升自动驾驶物件追踪

视觉运算以图像数据跟踪目标，研究相当成熟，却难以应用在LiDAR所传回的点云数据上，点云密度可能较图片稀疏、甚至受遮挡及有多种杂讯；故无法直接以图像演算法跟踪目标，当被追踪物体离LiDAR感测器较远，点云稀疏令目标更难以追踪，商汤团队针对点云数据的特徵和现有演算法缺陷，提出了点云跟踪框架PTTR，多个数据集上显著提升目标跟踪准确度，未来有助开发自动驾驶。

商汤重视建设学术生态，2017年来陆续与上海交通大学、南洋理工大学、浙江大学分别成立联合研究院或实验室、与清华大学建立「感知计算」产学研深度融合专项计画，推动成立全球人工智能学术联盟。

今年6月11日，商汤科技联合全球高校人工智能学术联盟举办「研无止境：商汤论文分享会」活动，来自商汤及香港中文大学、浙江大学、南洋理工大学、北京大学等研究学者解读3D视觉、姿态估计、底层视觉、表徵学习、场景理解等8篇CVPR 2022 Oral论文，分享实际场景研究。

關鍵字

创科广场｜微软推初创Founders Hub 提供4年免费科技资源

Tech点评｜成也上海，败也上海，特斯拉烧钱烧到啪啪声

创科广场｜商汤再扬威学术会议 71篇论文入选显研究实力

最新回应

订阅星岛日报

联络我们

广告表格及价目表