动机
DBLP 是计算机科学领域最全的文献索引, 覆盖所有顶会 (NeurIPS, ICML, ACL, EMNLP, CVPR, ICLR 等) 和期刊。与 arXiv (预印本) 互补, 提供正式发表的会议/期刊版本信息。
API 信息
- URL:
https://dblp.org/search/publ/api
- 认证: 免费, 无需 API key
- 限流: 无官方限制
- 返回: title, authors, year, venue, doi, ee (外部链接)
涉及文件
| 文件 |
改动 |
infrastructure/harvesters/dblp_harvester.py |
新建 — DBLPHarvester, 使用 SharedHTTPClient |
infrastructure/adapters/dblp_adapter.py |
新建 — DBLPAdapter(SearchPort) |
infrastructure/adapters/__init__.py |
注册 dblp adapter |
tests/unit/test_dblp_adapter.py |
新建 — respx mock 测试 |
注意事项
- authors 字段格式不统一: 可能是
str / list[str] / list[dict] / dict, 需分别处理
- doi 字段可能包含
"db/..." 前缀 (非真实 DOI), 需过滤只保留 "10." 开头的
- title 末尾常带
., 需 strip
- DBLP 没有 abstract, 但 venue 信息最权威
ee 字段可能是 str 或 list[str]
验收标准
DBLPAdapter 实现 SearchPort protocol
- 搜索 "large language model" 返回 ≥ 10 篇有 venue 的论文
- mock 测试通过
动机
DBLP 是计算机科学领域最全的文献索引, 覆盖所有顶会 (NeurIPS, ICML, ACL, EMNLP, CVPR, ICLR 等) 和期刊。与 arXiv (预印本) 互补, 提供正式发表的会议/期刊版本信息。
API 信息
https://dblp.org/search/publ/api涉及文件
infrastructure/harvesters/dblp_harvester.pyinfrastructure/adapters/dblp_adapter.pyinfrastructure/adapters/__init__.pytests/unit/test_dblp_adapter.py注意事项
str/list[str]/list[dict]/dict, 需分别处理"db/..."前缀 (非真实 DOI), 需过滤只保留"10."开头的., 需 stripee字段可能是str或list[str]验收标准
DBLPAdapter实现SearchPortprotocol