ICCV 2023生成式AI引人瞩目，商汤多项技术突破展现中国“创新力”--机器视觉网

10月2日至6日，全球AI顶级国际会议ICCV（International Conference on Computer Vision）在法国巴黎举行。本届ICCV投稿总数达8068篇，其中2160篇被接收，录用率为26.8%，略高于上届ICCV 2021录用率25.9%。

商汤科技及联合实验室共49篇论文入选，涵盖文生图、3D数字人、自动驾驶、目标检测、视频分割等多个与大模型和生成式AI相关的热点方向。基于商汤AI大装置SenseCore和“日日新SenseNova”大模型体系。在生成式AI和视觉大模型等领域，商汤提出多项极具价值的技术突破和研究范式创新。

微信图片_20231007114942.png

商汤科技联合创始人、首席科学家王晓刚表示：“ 持续深耕AI基础设施建设、坚持做注重产业实践的学术研究、深耕人才阶梯式培养，是商汤多年来在全球学术舞台上不断产出创新成果的基石。商汤将积极拥抱大模型带来的全新研究范式，不断提升研发体系，坚持将基础研究与业务发展紧密融合，为行业贡献更具价值的技术成果。”

多项技术突破和范式创新，大模型及生成式AI成焦点

大模型和生成式AI在全球范围内备受瞩目，也为学术研究提出了诸多具有挑战性的全新课题。生成式AI方向的文生图领域，如何让模型更容易生成与人类偏好相符的图像？

在论文《Human Preference Score: Better Aligning Text-to-Image Models with Human Preference》中，商汤研究团队将人类偏好引入Stable Diffusion的模型训练中，证明了人类偏好信息可以提升Stable Diffusion生成的图像质量，尤其在人体、四肢等经典的failure case中更是展示了优异的效果。

微信图片_20231007114956.jpg

将人类偏好引入Stable Diffusion的模型训练过程

数字人是生成式AI的重要领域，但其制作依然需要一定门槛。商汤研究团队在论文《SHERF: Generalizable Human NeRF from a Single Image》中提出一种基于单张图片的可泛化、可驱动人体神经辐射场方法，仅需一张任意角度的3D人体图片，结合必要的参数，就能实现3D数字人重建和驱动，有望简化3D数字人的创作流程。

微信图片_20231007115000.png

基于单张图片的人体神经辐射场重建和驱动

高质量的3D人体数据集是研究众多人体相关的感知模型、重建模型和生成式AI的基础。商汤研究团队在论文《SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling》中提出一个合成数据集SynBody，其构建了穿着衣物的参数化人体模型，并生成了海量的人体虚拟数据，有助于3D人体感知和重建的模型训练。此外，团队公布了开源代码库XRFeitoria，一个合成数据渲染工具箱，通过提供方便的Python API与CLI工具，极大简化了制作虚拟数据集的流程。

微信图片_20231007115003.png

SynBody是基于分层人体模型的大规模合成；数据集，可用于人体感知与建模等任务

在自动驾驶场景的3D目标检测领域，商汤团队还在论文《Temporal Enhanced Training of Multi-view 3D Object Detector via Historical Object Prediction》中提出一种新的用于多视角3D检测的时序增强训练方式——历史帧物体预测（HoP），不仅在nuScenes测试集上使用ViT-L得到了68.5%NDS和62.4%mAP，超过了排行榜上所有3D物体检测器，还可以即插即用，无缝集成到最先进的 BEV 检测框架中，重塑3D检测时序利用的新范式。

微信图片_20231007115006.jpg

HoP算法框架图

此外，本届ICCV，商汤科技还在目标检测、视频分割、3D感知与重建、半监督学习、NeRF等领域取得诸多技术创新突破。

开源开放，构建大模型时代，产学研协同新生态

产学研协同是实现学术研究成果到行业应用转化的高效路径。商汤不断夯实技术研究的同时，也积极参与和举办各类学术交流和竞赛活动，促进创新成果产出，探索大模型时代产学研协作模式的构建。

同时，商汤长期致力于推动AI基础设施和开源生态的建设，与开发者共创共建，共同推动AI社区的繁荣发展。商汤早在2018年开源的计算机视觉框架OpenMMLab已在GitHub上收获超过8.7万个星标。

今天，商汤的开源项目已拓展到决策智能、大语言模型、拓展现实、数据平台、高性能训练和推理框架、AI智能体框架等领域，为学术界的科研突破和工业界的产业落地提供全方位的算法与平台支撑。其中，在大语言模型领域，商汤与上海AI实验室等联合推出的书生·浦语大模型（InternLM）在开源社区和产业界产生广泛影响。最新的InternLM-20B模型性能先进且应用便捷，以不足三分之一的参数量，达到当前被视为开源模型标杆的Llama2-70B的能力水平。

秉承开源、开放的发展理念，商汤愿与行业伙伴共同迎接大模型的新一轮科技革命，让AI技术释放更广泛的产业价值。