searchthearXiv是一个与arXiv相关的语义搜索引擎,可搜索arXiv上超过 300,000篇ML论文。主要提供两种搜索方式:可以插入arXiv链接找相似论文,也能用自然语言描述需求搜索。页面有“Papers”和“People”两个主要检索方向,方便用户找学术资源。
searchthearXiv功能特点
语义搜索:用OpenAI的text - embedding - ada - 002模型计算查询和论文嵌入的余弦相似度,给出相关性高的搜索结果。
数据覆盖:现在有超过30万篇机器学习论文,数据量还在增加。
相似论文查找:输入arXiv链接就能找相似论文。
自动更新:数据库定期更新,保证用户能获取最新论文。
searchthearXiv技术架构
代码结构:代码分“app”和“data”两部分。app包含前端和后端,负责用户界面和搜索请求处理;data负责定期更新数据库,用OpenAI模型处理新论文嵌入并存在Pinecone的向量数据库里。
环境变量:运行代码需要Kaggle、OpenAI和Pinecone的API密钥。
searchthearXiv使用场景
研究人员:能快速找到研究方向相关的最新论文。
学生:更容易理解论文,找到适合学习的文献。
从业者:在实际项目中获取相关领域最新成果。
searchthearXiv核心搜索功能
基于arXiv链接的搜索:用户插入已有的arXiv论文链接,能快速找到和该论文内容相似的其他论文,有助于学术关联研究和拓展文献。
基于自然语言的搜索:用户用日常语言描述需求(比如“研究深度学习在图像识别中应用的论文”),不用专业检索格式就能精准找到目标内容。
searchthearXiv检索内容分类
Papers:主要检索学术论文资源,是工具的核心板块,满足用户找论文的需求。
People:围绕学术领域相关人员(如研究者、作者)检索,帮助用户关联特定人员的研究成果或学术背景。
项目主页:https://github.com/augustwester/searchthearxiv