论文阅读¶ LaMer — Meta-RL 诱导 LLM Agent 主动探索 2026-04-26 · 跨 episode 信用分配 + 自反思内环上下文适应 MAGE — Meta-RL 实现 LLM 多智能体策略性探索与利用 2026-04-26 · final-episode optimization + 种群训练 + 优势归一化 ExpRAG — 检索增强的 LLM 智能体 2026-04-26 · 检索增强 + 经验学习机制