AIPaperNotes

Record daily reading of papers and related reproduction results in Chinese.

For more notes, please follow the blog: https://nopsled.blog.csdn.net/

Paper Catalog

Architecture

Diffusion:
- DiT [Link]
Flow:
- Flow Matching [Link]
MOE:
- Switch Transformer [Link]
- DeepSeekMoE [Link]
- Loss-Free Balancing [Link]
Vision Transformer:
- ViT [Link]
- NaViT [Link]

Embedding

NV-EMBED [Link]
Qwen3 Embedding [Link]

LLM

Agent: LLM-based Single/Multi Agent model/system
- DeepResearch:
  - WebSailor [Link]
  - WebWatcher [Link]
  - RE-TRAC [Link]
- Memory:
  - Dynamic Cheatsheet [Link]
  - EgoMem [Link]
  - ReasoningBank [Link]
- Multi Agent Optimization
  - OWL [Link]
  - Multi-Agent Design [Link]
- RAG
  - BookRAG [Link]
- Reflection:
  - Reflexion [Link]
  - Metacognitive Reuse [Link]
- Router:
  - Router-R1 [Link]
- Visual Agent
  - PixelCraft [Link]
  - SWE-Vision [Link]
Base Model: Large Language Model
- DeepSeek
  - DeepSeek-V2 [Link]
  - DeepSeek-V3 [Link]
  - DeepSeek-V3.2 [Link]
- Google
  - Gemma 3
  - Gemma 4
- Moonshot AI
  - KIMI LINEAR [Link]
- Zhipu AI
  - GLM 4.5 [Link]
  - GLM 5 [Link]
- OpenAI
  - gpt-oss [Link]
Dataset: Data building and processing for Model training
- Pretrain:
  - DELT [Link]
- SFT:
  - OpenSeeker [Link]
Long Sequence
- RLM [Link]
Prompt: Prompt Engineering
- Context Learning
  - ACE [Link]
- Skills
  - Extending Claude’s capabilities with skills and MCP servers [Link]
  - Building agents with Skills: Equipping agents for specialized work [Link]
Omni: LLM-based full modal model
- Qwen2.5 - Omni [Link]
- M3 - Agent [Link]
Quantization: Model Weight/Optimizer/Activation Compressing
- COAT [Link]
Speech: Speech LLM
- ALM: Audio LLM for auido Input
  - Audio Flamingo 3 [Link]
Survey
- DeepRearch [Link]
- Vibe Coding [Link]
Training: LLM Model Training:
- Ptrtrain
  - FIM (fill-in-the-middle) [Link]
- RL
  - RLHF: Reinforcement Learning from Human Feedback
    - BCO [Link]
  - RLRF: Reinforcement Learning with Rich Feedback
    - SDPO [Link]
  - RLVR: Reinforcement Learning with Verifiable Rewards
    - Deepseek - R1 [Link]
    - Dr.GRPO [Link]
    - DAPO [Link]
    - GCG [Link]
    - LUFFY [Link]
    - GSPO [Link]
    - DeepSeek - R1 v2 [Link]
    - Truncated Importance Sampling (TIS)
- SFT:
  - EAFT
- Speculative Decoding or MTP: Speculative Decoding or Multi-token Prediction
  - Better & Faster Large Language Models via Multi-token Prediction [Link]
  - CAFT [Link]
  - EAGLE3 [Link]
VLM: Visual LLM
- LLaVA [Link]
- Qwen - VL [Link]
- Qwen2 - VL [Link]
- Qwen2.5 - VL [Link]
- Qwen3 - VL [Link]
- MiniCPM-V 4.5 [Link]
- DeepSeek - OCR [Link]
- DeepSeek - OCR2
- Kimi K2.5 [Link]

Visual Encoder

Image Segment Pretraining
- SAM [Link]
- SAM2 [Link]
Language-Image Representation Learning:
- CLIP [Link]
- SigLIP [Link]
- SigLIP2 [Link]
- LIFT [Link]

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AIPaperNotes

Paper Catalog

Architecture

Embedding

LLM

Visual Encoder

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

AIPaperNotes

Paper Catalog

Architecture

Embedding

LLM

Visual Encoder