Idea2Paper是什么?

Idea2Paper 是 AgentAlpha 团队开发的开源端到端研究代理框架,目标是把模糊的研究想法变成符合顶级学术会议标准的完整科学叙事。它的核心子模块 Idea2Story 提出了"预计算驱动"(Pre-computation–driven)的范式,把文献理解从在线运行时推理转移到离线知识图谱构建,让自主科学发现变得更高效、更可靠。

Idea2Paper(图1)

Idea2Paper核心创新点

  • 离线知识构建:提前收集同行评审论文和审稿反馈,提取核心方法论单元,搭建包含 8000+ 研究想法与写作模板 的结构化知识图谱

  • 锚定多智能体评审:采用锚定比较机制(不是随意评分),通过对比已知分数的锚定论文,实现可审计、基于真实数据的客观反馈

Idea2Paper功能特征

🧠 知识图谱驱动:基于 ICLR 数据搭建全面的方法论知识图谱,存储研究模式和审稿反馈

📝 Idea2Story 核心模块:把用户研究意图对齐到已建立的研究范式,生成连贯、方法论严谨的科学叙事

🤖 锚定多智能体评审:多阶段分解 + 锚定评审机制,保证生成内容的学术质量和可审计性

🔄 RAG 去重与智能修订:自动检测新颖性,通过检索增强生成(RAG)避免重复已有研究

🌐 本地 Web UI 界面:提供可视化操作界面(目前不太稳定,建议先用命令行)

⚙️ 高度可配置:支持自定义嵌入模型、API 端点、索引目录等参数

Idea2Paper应用场景

学术研究辅助

  • 有初步研究想法但不知道怎么组织成论文框架的研究者

  • 需要快速生成符合 ICLR 等顶会标准的论文初稿

  • 希望借助 AI 进行学术写作和叙事构建的学者

方法论创新探索

  • 通过知识图谱发现新的研究模式组合

  • 基于已有审稿反馈优化研究设计

  • 自动化文献综述与研究缺口识别

教学与培训

  • 指导研究生理解顶会论文的叙事结构

  • 作为学术写作教学的工具示例

Idea2Paper使用方法

环境要求

  • Python 3.10+

安装步骤

1. 克隆仓库并安装依赖

git clone https://github.com/AgentAlphaAGI/Idea2Paper.git
cd Idea2Paper
pip install -r Paper-KG-Pipeline/requirements.txt

2. 配置 API 密钥

# 复制环境变量模板
cp .env.example .env
# 编辑 .env 文件,填入 SILICONFLOW_API_KEY

3. (可选)高级配置

# 复制配置文件模板进行自定义设置
cp i2p_config.example.json i2p_config.json

4. 准备预构建索引(可选但推荐)

从 Hugging Face 下载 paper-embedding 中的两个文件夹,放置到:

Paper-KG-Pipeline/output/
├── recall_index__siliconflow__Qwen_Qwen3-Embedding-8B__184936e8/
└── novelty_index__siliconflow__Qwen_Qwen3-Embedding-8B__184936e8/

5. 运行 Pipeline

python Paper-KG-Pipeline/scripts/idea2story_pipeline.py "你的研究想法"

6. 启动 Web UI(可选)

python frontend/server/app.py --host 127.0.0.1 --port 8080
# 然后在浏览器打开 http://127.0.0.1:8080

输出文件

运行完成后,在 output/ 目录生成:

  • final_story.json —— 最终生成的论文故事

  • pipeline_result.json —— 完整的 Pipeline 执行结果

  • log.json —— 详细执行日志

常见问题与解决方案

🔧 配置与安装问题

Q1: 嵌入模型配置错误

症状:维度不匹配或索引加载失败

解决:确保使用 4096 维向量的模型(如 Qwen/Qwen3-Embedding-8B)。切换模型时需要重建索引或设置 I2P_INDEX_DIR_MODE=auto_profile 自动管理

Q2: 索引目录不匹配

症状:找不到索引文件或维度错误

解决:确保索引文件夹命名和当前配置的嵌入模型完全一致,或者用 auto_profile 模式自动映射

🐛 运行时问题

Q3: Phase 3 Critic 运行缓慢或失败

症状:第三阶段评审耗时过长或 JSON 验证失败

解决:设置 I2P_ANCHOR_DENSIFY_ENABLE=0 跳过自适应密集化;如果持续遇到 JSON 错误,设置 I2P_CRITIC_STRICT_JSON=0 禁用严格模式

Q4: API 调用失败

解决:确认 SILICONFLOW_API_KEY 和 LLM_API_URL 配置正确。目前主要支持 SiliconFlow、OpenAI 等 OpenAI 兼容的嵌入 API(/v1/embeddings 端点)

📝 功能与限制

Q5: 前端界面不稳定

现状:Web UI 目前不太稳定,建议优先用命令行运行 Pipeline

Q6: 生成内容的学术诚信

注意:Idea2Paper 生成的是研究叙事框架和初稿,必须经过人工审核、验证和深度修改。直接提交 AI 生成内容可能违反学术伦理和期刊政策

Q7: 支持哪些嵌入模型?

支持:OpenAI 兼容的嵌入 API(SiliconFlow、OpenAI 等)

不支持:DashScope 原生嵌入端点(/api/v1/services/embeddings/...)需要适配器

📚 资源获取

Q8: 如何获取预构建索引?

从 Hugging Face 下载 paper-embedding 数据集,确保使用 SiliconFlow Qwen/Qwen3-Embedding-8B 模型配置

相关资源

GitHub 仓库:https://github.com/AgentAlphaAGI/Idea2Paper.git

论文预印本:https://arxiv.org/html/2601.20833v1