
作者:Chenghao Liu, Zhimu Zhou, Jiachen Zhang, Minghao Zhang, Songfang Huang, Huiling Duan
单位:北京大学先进制造与机器人学院,清华大学网络空间科学与技术研究院
论文标题:MSNav: Zero-Shot Vision-and-Language Navigation with Dynamic Memory and LLM Spatial Reasoning
论文链接:https://arxiv.org/pdf/2508.16654
作者:Chenghao Liu, Zhimu Zhou, Jiachen Zhang, Minghao Zhang, Songfang Huang, Huiling Duan
单位:北京大学先进制造与机器人学院,清华大学网络空间科学与技术研究院
论文标题:MSNav: Zero-Shot Vision-and-Language Navigation with Dynamic Memory and LLM Spatial Reasoning
展开剩余92%论文链接:https://arxiv.org/pdf/2508.16654
提出了MSNav框架,它在Room-to-Room(R2R)数据集的子集上实现了5.1%的成功率(SR)提升和5.0%的成功率加权路径长度(SPL)提升。
构建了包含28414个样本的Instruction-Object-Space(I-O-S)数据集,能够对导航指令进行细粒度分析。
开发了Qwen-Sp模型,在I-O-S测试集上的F1分数达到0.316,NDCG分数达到0.388,优于领先的商业大型语言模型(LLM)。
展示了空间模块的多功能性,可以无缝集成到其他VLN框架中以提升性能。
提出了MSNav框架,它在Room-to-Room(R2R)数据集的子集上实现了5.1%的成功率(SR)提升和5.0%的成功率加权路径长度(SPL)提升。
构建了包含28414个样本的Instruction-Object-Space(I-O-S)数据集,能够对导航指令进行细粒度分析。
开发了Qwen-Sp模型,在I-O-S测试集上的F1分数达到0.316,NDCG分数达到0.388,优于领先的商业大型语言模型(LLM)。
展示了空间模块的多功能性,可以无缝集成到其他VLN框架中以提升性能。
视觉语言导航(VLN)任务要求智能体能够根据自然语言指令在复杂环境中导航。
现有的基于LLM的零样本VLN(ZS-VLN)解决方案在复杂、长距离任务以及目标点模糊的场景中表现不佳,存在空间推理能力差、跨模态对齐能力弱以及在长时域任务中记忆过载等问题。
视觉语言导航(VLN)任务要求智能体能够根据自然语言指令在复杂环境中导航。
现有的基于LLM的零样本VLN(ZS-VLN)解决方案在复杂、长距离任务以及目标点模糊的场景中表现不佳,存在空间推理能力差、跨模态对齐能力弱以及在长时域任务中记忆过载等问题。
VLN任务要求智能体根据自然语言指令 在3D环境中导航到目标位置。
在每一步 ,给定当前姿态 ,模拟器提供当前可导航的邻近视点。智能体观察其状态 ,包括可导航视点集合 (是可导航视点的数量)和视觉观测 ,然后从离散动作空间 中选择一个动作 (例如,导航到相邻视点或停止)。动作被发送到控制模块以执行相应的移动。
挑战在于将语言指令与视觉场景对齐,以生成动作序列 。
VLN任务要求智能体根据自然语言指令 在3D环境中导航到目标位置。
在每一步 ,给定当前姿态 ,模拟器提供当前可导航的邻近视点。智能体观察其状态 ,包括可导航视点集合 (是可导航视点的数量)和视觉观测 ,然后从离散动作空间 中选择一个动作 (例如,导航到相邻视点或停止)。动作被发送到控制模块以执行相应的移动。
挑战在于将语言指令与视觉场景对齐,以生成动作序列 。
MSNav采用模块化框架,将记忆、空间推理和决策制定三个关键过程集成在一起,如图1所示。这些模块相互协作,在复杂的室内环境中实现稳健有效的导航。
记忆模块
构建导航地图并维护强大的记忆系统,以帮助智能体在复杂环境中完成导航任务。与以往方法不同,该模块动态过滤与导航任务不相关的节点,从而减轻LLM上下文限制并维持性能。
地图构建:智能体使用观测结果实时构建不熟悉环境的地图。遵循先前工作,使用拓扑图 ,其中 表示到时间步 为止观察到的视点节点,表示它们之间的可导航连接。
动态地图修剪:为了保持紧凑且与任务相关的拓扑图,记忆模块从中间图 中动态评估并修剪不相关的节点。修剪过程从初始探索阶段之后开始(),通过移除过时或不相关的信息来确保地图的效率。
地图表示:记忆模块将过滤后的拓扑图 结构化为决策模块的提示,包括轨迹、节点连接和来自空间模块的增强视觉观测等信息。
地图构建:智能体使用观测结果实时构建不熟悉环境的地图。遵循先前工作,使用拓扑图 ,其中 表示到时间步 为止观察到的视点节点,表示它们之间的可导航连接。
动态地图修剪:为了保持紧凑且与任务相关的拓扑图,记忆模块从中间图 中动态评估并修剪不相关的节点。修剪过程从初始探索阶段之后开始(),通过移除过时或不相关的信息来确保地图的效率。
地图表示:记忆模块将过滤后的拓扑图 结构化为决策模块的提示,包括轨迹、节点连接和来自空间模块的增强视觉观测等信息。
I-O-S数据集:包含从室内环境中的专家轨迹中提取的指令、对象及其空间布局,用于支持指令分析和空间推理。
空间推理模型:通过在I-O-S数据集上使用低秩适应(LoRA)对Qwen3-4B进行微调,开发出Qwen-Sp模型。该模型能够从导航指令中提取任务相关对象,并推断目标位置的对象空间布局。
视觉输入增强:通过在视觉观测中突出显示空间推理模型的对象列表中的任务相关对象,增强视觉观测,为智能体提供导航所需的地标信息。
I-O-S数据集:包含从室内环境中的专家轨迹中提取的指令、对象及其空间布局,用于支持指令分析和空间推理。
空间推理模型:通过在I-O-S数据集上使用低秩适应(LoRA)对Qwen3-4B进行微调,开发出Qwen-Sp模型。该模型能够从导航指令中提取任务相关对象,并推断目标位置的对象空间布局。
视觉输入增强:通过在视觉观测中突出显示空间推理模型的对象列表中的任务相关对象,增强视觉观测,为智能体提供导航所需的地标信息。
利用先进的LLM(如GPT-4o)进行高层次的决策制定。在每个时间步 ,决策模块处理自然语言指令、记忆模块上下文、目标空间布局以及其他提示信息,并输出一个动作 ,该动作可以是选择一个邻近视点或决定停止。
提示设计:决策模块的提示设计借鉴了先前工作,并针对MSNav框架进行了调整。完整的提示结构在附录中提供。
提示设计:决策模块的提示设计借鉴了先前工作,并针对MSNav框架进行了调整。完整的提示结构在附录中提供。
实验实验设置
数据集:在Room-to-Room(R2R)和REVERIE数据集上评估MSNav,这两个数据集是零样本VLN(ZS-VLN)设置中广泛使用的基准。
比较方法:将MSNav与NavGPT、DiscussNav和MapGPT进行比较,并使用GPT-4o作为决策模块的LLM以确保公平比较。
评估指标:
成功率(SR):智能体在3米内停止的场景百分比。
路径长度加权成功率(SPL):平衡成功和路径效率的指标。
Oracle成功率(OSR):假设Oracle停止策略时的SR。
导航误差(NE):智能体最终位置与目标位置之间的平均欧几里得距离(以米为单位)。
F1分数:用于评估对象列表提取任务的精度和召回率。
归一化折扣累积增益(NDCG):评估提取对象的排名质量。
地图效率(ME):评估VLN任务中拓扑地图质量的新指标,定义为:
其中,表示智能体的轨迹,表示专家路径节点集合,是智能体的地图节点集合,。
数据集:在Room-to-Room(R2R)和REVERIE数据集上评估MSNav,这两个数据集是零样本VLN(ZS-VLN)设置中广泛使用的基准。
比较方法:将MSNav与NavGPT、DiscussNav和MapGPT进行比较,并使用GPT-4o作为决策模块的LLM以确保公平比较。
评估指标:
成功率(SR):智能体在3米内停止的场景百分比。
路径长度加权成功率(SPL):平衡成功和路径效率的指标。
Oracle成功率(OSR):假设Oracle停止策略时的SR。
导航误差(NE):智能体最终位置与目标位置之间的平均欧几里得距离(以米为单位)。
F1分数:用于评估对象列表提取任务的精度和召回率。
归一化折扣累积增益(NDCG):评估提取对象的排名质量。
地图效率(ME):评估VLN任务中拓扑地图质量的新指标,定义为:
其中,表示智能体的轨迹,表示专家路径节点集合,是智能体的地图节点集合,。
成功率(SR):智能体在3米内停止的场景百分比。
路径长度加权成功率(SPL):平衡成功和路径效率的指标。
Oracle成功率(OSR):假设Oracle停止策略时的SR。
导航误差(NE):智能体最终位置与目标位置之间的平均欧几里得距离(以米为单位)。
F1分数:用于评估对象列表提取任务的精度和召回率。
归一化折扣累积增益(NDCG):评估提取对象的排名质量。
地图效率(ME):评估VLN任务中拓扑地图质量的新指标,定义为:
其中,表示智能体的轨迹,表示专家路径节点集合,是智能体的地图节点集合,。
在R2R-ZS基准测试中,MSNav实现了50.9%的SR和42.6%的SPL,超过了MapGPT(45.8%的SR和37.6%的SPL)。
MSNav的Oracle成功率(OSR)比MapGPT高出7.3%,表明记忆模块的修剪有助于在Oracle停止条件下进行后期探索。
MSNav的地图效率(ME)为40.4%,表明其能够维持紧凑的地图,从而在长轨迹中稳定探索。
在R2R-ZS基准测试中,MSNav实现了50.9%的SR和42.6%的SPL,超过了MapGPT(45.8%的SR和37.6%的SPL)。
MSNav的Oracle成功率(OSR)比MapGPT高出7.3%,表明记忆模块的修剪有助于在Oracle停止条件下进行后期探索。
MSNav的地图效率(ME)为40.4%,表明其能够维持紧凑的地图,从而在长轨迹中稳定探索。
在R2R完整验证未见集上,MSNav实现了46%的SR和40%的SPL,超过了MapGPT(44%的SR和35%的SPL)。
由于11个场景子集的场景多样性有限,限制了记忆模块的修剪和空间模块的空间推理能力的有效性,因此与R2R-ZS相比,改进幅度相对较小。
在R2R完整验证未见集上,MSNav实现了46%的SR和40%的SPL,超过了MapGPT(44%的SR和35%的SPL)。
由于11个场景子集的场景多样性有限,限制了记忆模块的修剪和空间模块的空间推理能力的有效性,因此与R2R-ZS相比,改进幅度相对较小。
在REVERIE-ZS子集上,MSNav实现了45.7%的SR和32.8%的SPL,超过了MapGPT(41.4%的SR和28.4%的SPL)。
这表明记忆模块在处理REVERIE的复杂、长距离任务方面具有优势,同时空间模块的对象提取和视点选择也做出了贡献。
在REVERIE-ZS子集上,MSNav实现了45.7%的SR和32.8%的SPL,超过了MapGPT(41.4%的SR和28.4%的SPL)。
这表明记忆模块在处理REVERIE的复杂、长距离任务方面具有优势,同时空间模块的对象提取和视点选择也做出了贡献。
在I-O-S测试集上,Qwen-Sp在对象提取任务中优于其他模型,F1分数为0.316,NDCG分数为0.388,显著优于GPT-4o(F1分数为0.270,NDCG分数为0.325)。
这表明通过在I-O-S数据集上进行针对性的微调,可以有效地为语言模型注入专门的空间智能。
在I-O-S测试集上,Qwen-Sp在对象提取任务中优于其他模型,F1分数为0.316,NDCG分数为0.388,显著优于GPT-4o(F1分数为0.270,NDCG分数为0.325)。
这表明通过在I-O-S数据集上进行针对性的微调,可以有效地为语言模型注入专门的空间智能。
在R2R-ZS上进行的消融研究表明,移除MSNav的每个模块都会对性能产生负面影响。
移除记忆模块会显著降低Oracle成功率(OSR),这与其设计目标一致,即在Oracle停止条件下改善长距离探索。
空间模块可以无缝集成到其他框架中,通过简单的提示修改(例如,将目标空间布局应用于NavGPT)即可显著提升性能,证实了其作为可插拔模块的有效性。
在R2R-ZS上进行的消融研究表明,移除MSNav的每个模块都会对性能产生负面影响。
移除记忆模块会显著降低Oracle成功率(OSR),这与其设计目标一致,即在Oracle停止条件下改善长距离探索。
空间模块可以无缝集成到其他框架中,通过简单的提示修改(例如,将目标空间布局应用于NavGPT)即可显著提升性能,证实了其作为可插拔模块的有效性。
在25个长距离任务(超过10步)中,MSNav成功了11次,而MapGPT成功了6次,MSNav的成功率提高了20.0%。
这主要归功于记忆模块的动态修剪,它丢弃了过时和不相关的信息,使LLM能够专注于最新数据,并在延长的轨迹下做出准确的判断。
在25个长距离任务(超过10步)中,MSNav成功了11次,而MapGPT成功了6次,MSNav的成功率提高了20.0%。
这主要归功于记忆模块的动态修剪,它丢弃了过时和不相关的信息,使LLM能够专注于最新数据,并在延长的轨迹下做出准确的判断。
处理一个样本的成本为0.10-0.14美元,耗时3-5分钟。这主要是由于提示长度从900-1000个标记开始,并且每步增加100-250个标记。
尽管成本较高,但记忆模块通过动态修剪地图来缓解这种成本增长,确保提示大小可管理,从而在长时域任务中保持性能。
处理一个样本的成本为0.10-0.14美元,耗时3-5分钟。这主要是由于提示长度从900-1000个标记开始,并且每步增加100-250个标记。
尽管成本较高,但记忆模块通过动态修剪地图来缓解这种成本增长,确保提示大小可管理,从而在长时域任务中保持性能。
结论:
MSNav通过动态记忆、LLM空间推理和基于LLM的规划,实现了零样本视觉语言导航任务的最新性能。
I-O-S数据集和Qwen-Sp模型为提升大型模型的空间理解能力提供了有价值的资源。
未来工作:
未来的工作可以集中在进一步优化LLM的输出实盘配资,以提高导航决策的质量,以及将这种训练方法扩展到更多样化的环境中,例如户外场景,以提高模型的泛化能力。
结论:
MSNav通过动态记忆、LLM空间推理和基于LLM的规划,实现了零样本视觉语言导航任务的最新性能。
I-O-S数据集和Qwen-Sp模型为提升大型模型的空间理解能力提供了有价值的资源。
MSNav通过动态记忆、LLM空间推理和基于LLM的规划,实现了零样本视觉语言导航任务的最新性能。
I-O-S数据集和Qwen-Sp模型为提升大型模型的空间理解能力提供了有价值的资源。
未来工作:
未来的工作可以集中在进一步优化LLM的输出,以提高导航决策的质量,以及将这种训练方法扩展到更多样化的环境中,例如户外场景,以提高模型的泛化能力。
未来的工作可以集中在进一步优化LLM的输出,以提高导航决策的质量,以及将这种训练方法扩展到更多样化的环境中,例如户外场景,以提高模型的泛化能力。
发布于:安徽省力创配资提示:文章来自网络,不代表本站观点。