PaperBanana是什么?

PaperBanana是谷歌云AI研究院和北京大学一起做的开源工具,能帮AI科研人员自动做论文配图。

PaperBanana(图1)

PaperBanana核心功能

PaperBanana是个多智能体协作的系统,5个专业AI分工,把文字描述变成符合NeurIPS这类顶会标准的学术插图:

  • Retriever(检索器):从精选的顶会论文图库里找最相关的参考图;

  • Planner(策划师):把方法论文字写成详细的视觉蓝图描述;

  • Stylist(风格师):按学术审美(配色、字体、布局)来弄,这审美是从NeurIPS 2025论文反推的;

  • Visualizer(可视化器):用Gemini-3-Pro渲染图,或生成Python代码画准统计图;

  • Critic(评审员):给生成的图挑错,反复改。3轮改完,忠实度能从4.5升到45.8。

PaperBanana工作原理

PaperBanana是参考驱动的“智能代理框架”,靠5个专业代理把原始文字或数据变成能直接用的学术插图。

系统让5个智能体一起干活:先检索,在参考库找和用户主题、想做的图匹配的现有图表;再规划,结合源文字和找的参考,写目标插图的详细文字描述,说清组件和逻辑;然后定风格,让图看着专业好看;接着可视化,把改好的文字描述变成图;最后审核,查质量。

它把逻辑规划和美学渲染分开,还加了评审环节,所以生成的图在忠实度、简洁性、美观度上,比普通“黑盒”图像生成模型好很多。

PaperBanana主要特点

  • 双模式生成:能做架构图/流程图(直接生成图),也能做统计图表(用代码生成,数据100%准);

  • 自动优化:能“美化”用户已有的草图或初稿,内容不变,图更好看;

  • 学术标准:内置AI/计算机科学领域的NeurIPS风格指南;

  • 开源免费:代码已开,能用CLI、Python API、MCP服务器这些方式。

PaperBanana应用场景

  • 文本转插图:输方法描述和标题,系统找类似参考,生成图;

  • 美学升级:输粗糙或“过时”的手绘图,系统自动优化;

  • UI/UX设计:按特定设计系统标准做界面原型;

  • 专利起草:做符合法律格式要求的技术图;

  • 工业制图:自动做工程示意图。

另外,它还能从原始表格或代码生成统计图表。代码模式适合要准的任务,用Python(比如Matplotlib)画,不会“编”数据;图像模式适合优先好看的简单图,可能数据有点小误差。

性能表现

在PaperBanana Bench(292个跨领域测试)里,它在忠实度、简洁性、可读性、美观性上,比现有模型都好,整体提升17%,简洁性升了37.2%。人类盲测里,72.7%的研究人员说它比传统方法好。

PaperBanana项目资源

  • 项目主页:https://dwzhu-pku.github.io/PaperBanana/

  • GitHub:https://github.com/dwzhu-pku/PaperBanana

  • 论文arXiv:https://arxiv.org/abs/2601.23265

要注意,PaperBanana是2026年1月刚出的早期项目,现在主要优化AI和计算机科学的方法图,其他学科支持还在完善。官方代码和数据集计划2周内发,现在GitHub有社区做的非官方版能试。