
这项研究由清华大学、东南大学、中国科学技术大学与腾讯公司等机构的学者共同完成,成果发表于2025年12月出版的《ACM Transactions on Graphics》第44卷第6期,论文编号DOI 10.1145/3763353。项目团队成员包括来自清华大学的朱晓明、东南大学的于俊生、中科大的刘利刚以及腾讯的曾龙等多位研究人员。
想象一下,走进一位室内设计师的工作室,看到他们花费数小时甚至数天时间来构思一个房间的空间布局——这一过程如今正面临根本性的变革。清华大学主导研发的“Imaginarium”系统,仅需一句简单的文字描述,就能在几分钟内生成专业级的3D场景设计方案。你只需提出“设计一个温馨的客厅”,系统便会迅速构建出完整的三维空间结构,涵盖沙发的位置、茶几的高度、装饰品的摆放细节等方方面面。
传统方式下的3D场景创建,如同在没有说明书的情况下组装复杂家具:设计师必须理解功能需求,逐个挑选合适的物品,考虑搭配逻辑,并确保整体视觉协调与实用合理。这不仅耗时费力,还高度依赖经验积累。即使是资深专家,也难以快速输出多种风格迥异的设计方案。
而Imaginarium的出现,则为该领域注入了智能化动力。其运行机制类似于一位极具经验的助理设计师:首先精准解析用户输入的语义描述,随后生成一张符合要求的2D设计草图;接着从庞大的资产库中匹配合适的家具模型;最终精确计算每件物品的空间参数,包括位置、角度和尺寸,实现美观与功能的统一。
系统的创新核心在于一种视觉引导式生成方法。该策略巧妙利用当前成熟的2D图像生成技术作为跳板。尽管AI直接生成高质量3D场景仍存在诸多挑战,但研究团队另辟蹊径:先让AI绘制出高保真的平面设计图,再以此为基础“重建”对应的三维空间。
为了支撑这一流程,团队构建了一个包含2037个高品质3D模型的专属资源库,覆盖500个不同类别的家居用品。这些模型涵盖各类风格的沙发、桌椅、灯具、摆件乃至户外设施,均由专业艺术家精心制作,整体质量远超市面上通用的3D素材平台。
在此基础上,研究人员还手工打造了147个典型场景布局案例,涉及20种空间类型,包括家庭客厅、现代办公室、儿童房及专业工作坊等。这些经过精细打磨的样板间,成为训练AI理解空间逻辑的重要学习样本,相当于一套数字化的室内设计教科书。
当用户输入如“一个温馨的客厅”这样的指令后,系统首先调用一个专门训练过的图像生成模型。该模型被优化以产出与资产库风格一致的室内渲染图,相当于设计师根据客户需求快速勾勒出初步概念草图。
随后进入图像解析阶段,系统对生成的2D图像进行深度分析,过程堪比工程师审阅施工图纸。通过融合多种先进的视觉AI技术,系统能够识别图中每一个物体,判断其大小、相对位置,并推断出房间的基本结构,例如墙体走向、天花板高度等关键几何信息。
在物体识别环节,系统采用了一种类似“问答交互”的机制:先由大语言模型结合视觉模型推测图像中可能存在的物品类别,再借助专用检测工具精确定位边界框与实例分割区域。这种两步走策略兼顾了语义理解与空间精度,就像先听取客户描述,再实地测量确认。
对于三维结构的还原,系统则模拟建筑工程师的工作方式,提取图像中的深度线索,重建房间的立体框架。它能区分地面、墙面与天花板,建立基础的空间坐标系,为后续家具的合理安置提供可靠的物理参照。
尤为关键的是系统对物体间逻辑关系的理解能力。它不仅能识别出“桌子”和“椅子”,还能推断出“椅子应围绕桌子布置”、“书籍应置于书架上”这类常识性规则。这种关系建模赋予空间真实的使用逻辑,避免出现物品悬浮或错位等违背现实的情况,仿佛为每件家具设定了合理的“行为规范”。
完成识别与推理后,系统将从资产库中检索最匹配的3D模型。这个过程类似于采购专员在大型仓库中选品,综合考量物品类别、外观特征、比例尺度等多个维度,确保所选模型与设计意图高度契合。
最具挑战性的步骤是确定每个模型在3D空间中的精确姿态——包括位置、旋转方向与缩放比例。为此,研究团队开发了一套复合型算法,同时融合视觉相似性评估与几何约束条件。这套机制如同经验丰富的搬运团队,在保证视觉还原度的同时,严格遵守碰撞检测与空间合理性原则,确保所有家具既准确就位,又互不干扰。
在确定旋转角度时,系统采用了一种“粗筛选+精调整”的策略。首先从多个预设角度中筛选出若干最具潜力的候选角度,随后通过更精细的分析来锁定最优解。这一过程类似于摄影师寻找理想拍摄视角的方式:先大致圈定几个合适的位置,再逐一微调,最终找到最理想的构图角度。
此外,系统还具备处理家具“嵌套”关系的能力。例如,它不仅能识别书桌与电脑之间的摆放逻辑,还能精确计算出电脑在桌面上的最佳位置。这种对空间细节的精准把控,使生成的场景更具真实感和合理性。

完成初步布局后,系统会进行一轮全面的优化检查,如同质检人员对设计方案进行复核:确保所有家具稳固落地,避免出现悬浮或穿插现象;核查家具之间是否留有足够通行空间;评估装饰品的布置是否符合视觉美学原则等。
为了进一步提升真实感,系统还会引入物理仿真技术。这一步骤使得虚拟环境中的物体表现出真实的物理特性——软垫会产生自然形变,叠放的物品能够保持平衡,整体场景呈现出接近现实世界的动态效果。
研究团队对该系统进行了广泛的测试验证,邀请了100名艺术专业学生及20位专业艺术家参与场景质量评估。结果显示,Imaginarium在合理性、美观性等多个维度上均显著优于现有方法,尤其在场景的丰富度与多样性方面表现突出。
相较于传统技术,Imaginarium展现出明显优势。传统的语言模型虽能理解文本描述,但在空间布局和物品定位上的精度有限;而基于深度学习的生成方法虽然结果尚可,却受限于训练数据的规模和多样性,难以实现真正多样化的输出。
该系统的创新之处在于,巧妙融合了成熟的2D图像生成技术与专业的3D场景构建需求。通过将复杂的3D场景生成任务分解为更易处理的2D图像理解与3D物体摆放两个子问题,既保障了生成质量,又大幅提升了效率。
[此处为图片2]
值得一提的是,系统还具有出色的可编辑性。用户可对已生成的场景进行局部修改,如更换家具款式、调整饰品位置等。这种灵活性使其不仅适用于快速原型设计,也能支持深入的精细化调整。
从性能角度看,系统的运行速度同样令人印象深刻。在配备A100显卡的设备上,生成一个完整的3D场景仅需约4分钟,相比传统手工设计方式,效率提升可达数十倍乃至上百倍。
实验数据显示,系统在物品布局准确性方面表现优异。主要家具的识别与摆放准确率超过90%,即便是小型装饰品,也能维持70%以上的准确率,整体表现已接近甚至在某些方面超越专业设计师水平。
其应用前景十分广泛。在游戏开发中,可快速生成多种风格的游戏场景,显著缩短开发周期;在建筑设计领域,能作为辅助工具快速产出室内设计方案,让设计师更专注于创意构思与细节打磨。
在电影制作方面,该系统同样潜力巨大。传统布景设计耗时耗力,而Imaginarium可高效生成各类虚拟场景,为导演和制片提供丰富的视觉参考,在降低制作成本的同时拓展创作可能性。
研究团队已决定将所构建的高质量数据集开源,为学术界和工业界的后续研究提供有力支持。这一开放举措体现了推动领域共同进步的责任意识。
当然,系统仍存在一定局限。例如,当图像生成模型产生资产库中未包含的新奇物品时,系统可能无法匹配对应的3D模型;对于严重遮挡的物体,其姿态判断仍面临挑战。
对此,研究团队已有明确改进方向:随着视觉基础模型的发展,这些技术瓶颈有望逐步突破。未来计划引入多视角信息以提升姿态估计精度,并探索更智能的2D到3D编辑功能。
展望未来,此类基于视觉引导的3D场景生成技术有望发展为自动化3D数据生成引擎,将丰富的2D视觉模型布局知识转化为可用的3D资产放置数据,缓解当前3D场景生成任务中的数据稀缺问题,从而支撑更高效率的3D理解与布局模型训练。
归根结底,Imaginarium标志着人工智能在创意设计领域迈出了关键一步。它并非旨在替代设计师的角色,而是致力于成为创意工作者的高效协作伙伴。通过将繁琐且重复的布局任务交由AI处理,设计师得以将精力更多集中于核心的创意构思环节。这种人机协同的工作模式,极有可能在未来主导整个创意产业的发展方向。
该研究清晰地展示了AI技术如何深度融入实际创作流程,从而为数字世界构建出更加多元、生动的虚拟环境。对于关注3D建模、游戏制作或人工智能发展的从业者与爱好者而言,这无疑是一项具有里程碑意义的技术进展。
Q&A
Q1:Imaginarium系统究竟是什么?它是怎样运作的?
A:Imaginarium是由清华大学研发的一款人工智能系统,能够根据纯文本描述自动生成专业级别的3D场景布局。其运行机制类似于一位智能设计助手:首先解析用户输入的文字需求,随后生成对应的2D平面图,再从现有的3D模型库中匹配合适的家具元素,最终精准计算每件物品的位置与朝向,整个流程耗时约4分钟即可完成。
Q2:系统生成的3D场景效果如何?是否具备专业水准?
A:实测数据显示,Imaginarium在多项评估指标上明显超越当前主流方法。经过100名艺术专业学生和20位资深艺术家的盲评反馈,该系统在场景合理性与视觉美感方面均获得高度评价。主要家具的摆放准确率超过90%,整体输出质量已接近人类专业设计师的手工成果。
Q3:普通用户能否使用Imaginarium?它的应用场景有哪些?
A:目前Imaginarium仍处于学术研究阶段,尚未面向公众开放使用。不过,研究团队表示将考虑开源相关数据集。其潜在应用十分广泛,例如可应用于游戏开发中的场景快速搭建、建筑设计初期的概念呈现、影视布景的数字化预演等,能将原本需要数小时乃至数天的手动设计周期缩短至几分钟内完成。