Memanto：用信息论检索颠覆Agent记忆架构，零索引、亚90毫秒响应登顶SOTA

核心发现

Memanto通过13类预定义语义记忆类型+信息论检索引擎Moorcheh，在 LongMemEval（89.8%） 和 LoCoMo（87.1%） 两项基准上斩获SOTA，且仅需单次查询、零摄入代价，彻底抛弃传统混合图神经网络的复杂度包袱。

长时Agent的记忆系统正面临性能与可扩展性的双重瓶颈。现有方案依赖LLM驱动的实体提取和动态图维护，导致摄入延迟高、检索代价大。Memanto另辟蹊径，提出的类型化语义内存抛弃了知识图的杂糅结构，转而通过13个固定记忆槽+自动冲突解决+时间版本控制，实现确定性、低延迟的检索。

核心变革在于：其底层引擎 Moorcheh 是一个零索引的语义数据库，利用信息论原理将检索响应时间压缩至 < 90ms 的同时，完全消除了摄入阶段的时间消耗。

与传统图数据库不同，Memanto定义了13种明确的记忆类型（如事件、实体、关系、计划等），每类拥有独立的语义模式和版本链。当新信息摄入时，自动触发类型匹配与冲突检测，生成版本化记录而非模糊嵌入。

架构优势

采用互信息最大化与条件熵最小化策略，Moorcheh在查询时直接在原始语义空间中进行匹配，而非通过向量索引或图路径搜索。其工作原理如下：

点击展开Moorcheh检索原理

1. 查询被分解为**原子语义单位**（如主语、谓语、时间戳）。 2. 引擎使用**点互信息（PMI）** 评估每个记忆条目与查询的相关性。 3. 通过**贪心剪枝**保留Top-K候选，并应用条件熵过滤消除歧义。 4. 最终结果在 **90ms内** 返回，且无需预处理。

下表清晰展示Memanto如何用简单结构碾压复杂混合系统：

维度	Memanto（Ours）	Graph-RAG（混合图）	MemGPT（向量+LLM）	传统RAG（纯向量）
LongMemEval Accuracy	89.8%	82.1%	77.4%	65.3%
LoCoMo Accuracy	87.1%	80.5%	74.9%	62.8%
摄入延迟	0ms	~2.5s/条	~1.8s/条	~0.1s/条
查询延迟	<90ms	1.2s	0.8s	0.3s
查询次数	1	3-5	2	1
架构复杂度	极低	高	中	低

数据来源：Memanto原始论文表3-5。注意：Graph-RAG和MemGPT均需预处理阶段进行实体提取和图构建。

混合语义图系统（如Graph-RAG）试图通过构建动态知识图谱来捕捉实体间关系，但这带来了三个致命问题：

图结构陷阱

论文中指出，对于超过100万条记忆的Agent系统，Graph-RAG的摄入延迟会膨胀到不可接受的水平（每增加10万条记录，延迟增加约40%），而Memanto的摄入延迟恒为0。

作者设计了逐步增强架构的消融流程：

关键发现

Memanto的成功揭示了Agent记忆系统的一个关键趋势：从“数据结构复杂性”转向“检索算法效率”。随着Agent任务的持续周期拉长（如跨周、跨月任务），零摄入延迟和确定性检索将成为刚需。

未来方向

不过，Memanto目前对记忆类型的静态定义（13类）能否覆盖所有域？在开放式任务中，当Agent需要创建全新的记忆类别时，系统如何适应？这些问题可能推动下一代 可扩展类型语义内存 的研究。

阅读原文：https://arxiv.org/abs/2604.22085