PaperBanana是什么?
PaperBanana是谷歌云AI研究院和北京大学一起做的开源工具,能帮AI科研人员自动做论文配图。

PaperBanana核心功能
PaperBanana是个多智能体协作的系统,5个专业AI分工,把文字描述变成符合NeurIPS这类顶会标准的学术插图:
Retriever(检索器):从精选的顶会论文图库里找最相关的参考图;
Planner(策划师):把方法论文字写成详细的视觉蓝图描述;
Stylist(风格师):按学术审美(配色、字体、布局)来弄,这审美是从NeurIPS 2025论文反推的;
Visualizer(可视化器):用Gemini-3-Pro渲染图,或生成Python代码画准统计图;
Critic(评审员):给生成的图挑错,反复改。3轮改完,忠实度能从4.5升到45.8。
PaperBanana工作原理
PaperBanana是参考驱动的“智能代理框架”,靠5个专业代理把原始文字或数据变成能直接用的学术插图。
系统让5个智能体一起干活:先检索,在参考库找和用户主题、想做的图匹配的现有图表;再规划,结合源文字和找的参考,写目标插图的详细文字描述,说清组件和逻辑;然后定风格,让图看着专业好看;接着可视化,把改好的文字描述变成图;最后审核,查质量。
它把逻辑规划和美学渲染分开,还加了评审环节,所以生成的图在忠实度、简洁性、美观度上,比普通“黑盒”图像生成模型好很多。
PaperBanana主要特点
双模式生成:能做架构图/流程图(直接生成图),也能做统计图表(用代码生成,数据100%准);
自动优化:能“美化”用户已有的草图或初稿,内容不变,图更好看;
学术标准:内置AI/计算机科学领域的NeurIPS风格指南;
开源免费:代码已开,能用CLI、Python API、MCP服务器这些方式。
PaperBanana应用场景
文本转插图:输方法描述和标题,系统找类似参考,生成图;
美学升级:输粗糙或“过时”的手绘图,系统自动优化;
UI/UX设计:按特定设计系统标准做界面原型;
专利起草:做符合法律格式要求的技术图;
工业制图:自动做工程示意图。
另外,它还能从原始表格或代码生成统计图表。代码模式适合要准的任务,用Python(比如Matplotlib)画,不会“编”数据;图像模式适合优先好看的简单图,可能数据有点小误差。
性能表现
在PaperBanana Bench(292个跨领域测试)里,它在忠实度、简洁性、可读性、美观性上,比现有模型都好,整体提升17%,简洁性升了37.2%。人类盲测里,72.7%的研究人员说它比传统方法好。
PaperBanana项目资源
项目主页:https://dwzhu-pku.github.io/PaperBanana/
GitHub:https://github.com/dwzhu-pku/PaperBanana
论文arXiv:https://arxiv.org/abs/2601.23265
要注意,PaperBanana是2026年1月刚出的早期项目,现在主要优化AI和计算机科学的方法图,其他学科支持还在完善。官方代码和数据集计划2周内发,现在GitHub有社区做的非官方版能试。




















简历求职
效率办公
文档转换
图片处理
视频工具
AI+科研
AI智能体
休闲游戏
Ai+学习
英语学习
考研考公
出国留学
资格考试
学习平台
宝藏网站 