Skip to content

新增 DBLP 搜索适配器 #314

@jerry609

Description

@jerry609

动机

DBLP 是计算机科学领域最全的文献索引, 覆盖所有顶会 (NeurIPS, ICML, ACL, EMNLP, CVPR, ICLR 等) 和期刊。与 arXiv (预印本) 互补, 提供正式发表的会议/期刊版本信息。

API 信息

  • URL: https://dblp.org/search/publ/api
  • 认证: 免费, 无需 API key
  • 限流: 无官方限制
  • 返回: title, authors, year, venue, doi, ee (外部链接)

涉及文件

文件 改动
infrastructure/harvesters/dblp_harvester.py 新建 — DBLPHarvester, 使用 SharedHTTPClient
infrastructure/adapters/dblp_adapter.py 新建 — DBLPAdapter(SearchPort)
infrastructure/adapters/__init__.py 注册 dblp adapter
tests/unit/test_dblp_adapter.py 新建 — respx mock 测试

注意事项

  • authors 字段格式不统一: 可能是 str / list[str] / list[dict] / dict, 需分别处理
  • doi 字段可能包含 "db/..." 前缀 (非真实 DOI), 需过滤只保留 "10." 开头的
  • title 末尾常带 ., 需 strip
  • DBLP 没有 abstract, 但 venue 信息最权威
  • ee 字段可能是 strlist[str]

验收标准

  • DBLPAdapter 实现 SearchPort protocol
  • 搜索 "large language model" 返回 ≥ 10 篇有 venue 的论文
  • mock 测试通过

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or requestsearchSearch infrastructure

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions