searchthearXiv是一个与arXiv相关的语义搜索引擎,可搜索arXiv上超过 300,000篇ML论文。主要提供两种搜索方式:可以插入arXiv链接找相似论文,也能用自然语言描述需求搜索。页面有“Papers”和“People”两个主要检索方向,方便用户找学术资源。

searchthearXiv(图1)

searchthearXiv功能特点

  • 语义搜索:用OpenAI的text - embedding - ada - 002模型计算查询和论文嵌入的余弦相似度,给出相关性高的搜索结果。

  • 数据覆盖:现在有超过30万篇机器学习论文,数据量还在增加。

  • 相似论文查找:输入arXiv链接就能找相似论文。

  • 自动更新:数据库定期更新,保证用户能获取最新论文。

searchthearXiv技术架构

  • 代码结构:代码分“app”和“data”两部分。app包含前端和后端,负责用户界面和搜索请求处理;data负责定期更新数据库,用OpenAI模型处理新论文嵌入并存在Pinecone的向量数据库里。

  • 环境变量:运行代码需要Kaggle、OpenAI和Pinecone的API密钥。

searchthearXiv使用场景

  • 研究人员:能快速找到研究方向相关的最新论文。

  • 学生:更容易理解论文,找到适合学习的文献。

  • 从业者:在实际项目中获取相关领域最新成果。

searchthearXiv核心搜索功能

  • 基于arXiv链接的搜索:用户插入已有的arXiv论文链接,能快速找到和该论文内容相似的其他论文,有助于学术关联研究和拓展文献。

  • 基于自然语言的搜索:用户用日常语言描述需求(比如“研究深度学习在图像识别中应用的论文”),不用专业检索格式就能精准找到目标内容。

searchthearXiv检索内容分类

  • Papers:主要检索学术论文资源,是工具的核心板块,满足用户找论文的需求。

  • People:围绕学术领域相关人员(如研究者、作者)检索,帮助用户关联特定人员的研究成果或学术背景。

项目主页:https://github.com/augustwester/searchthearxiv