From 36a93874f2b2503bb72a7961caa627db5c60c27e Mon Sep 17 00:00:00 2001 From: ArcaLunar Date: Thu, 26 Feb 2026 16:19:21 +0800 Subject: [PATCH 1/5] doc: 2026.2.2 ~ 2026.2.15 weekly report --- .../[WeeklyReports]2026.2.2-2026.2.15.md | 30 +++++++++++++++++++ 1 file changed, 30 insertions(+) create mode 100644 WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2-2026.2.15.md diff --git a/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2-2026.2.15.md b/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2-2026.2.15.md new file mode 100644 index 00000000..b325bf54 --- /dev/null +++ b/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2-2026.2.15.md @@ -0,0 +1,30 @@ +### 姓名 + +徐启越 + +### 实习项目 + +FlashAttention 低精度训练算法研究与 Kernel 开发 + +### 本周工作 + +1. 搭建 CUDA Kernel + PyTorch Baseline 的统一测试框架 (ArcaLunar/kernel-bench) + - 基于 PyTorch C++/CUDA Extension 设计 kernel adapter,便于后续 SageAttention / FA+FlashMask/ Sage+FlashMask 算子的统一接入和测试 + - 设计 metric registry,便于后续对所有算子在不同指标上进行统一测试,且易于拓展 + - 设计 reporter,便于导出为 csv,json 供进一步分析 +2. 研读 SageAttention 算法细节与实现 +3. 研读 FlashMask 算法细节与实现 +4. 基于已有 Sage Attention 和 FlashMask 实现,开发 Sage+FlashMask(尚未进行测试) + +### 下周计划 + +1. 进一步添加 metric 支持(如速度,FLOPs 等等) +2. Sage+FlashMask 算子开发 +3. 将 Sage+FlashMask, Sage, FA+FlashMask 接入框架进行测试 +4. 根据测试结果和性能分析,对算子进行优化 + +### 导师点评 + + + + From 07fb50a62d3bdcda0ffde1236e7d0c926f536420 Mon Sep 17 00:00:00 2001 From: ArcaLunar Date: Thu, 26 Feb 2026 16:20:00 +0800 Subject: [PATCH 2/5] doc: rename --- ...2026.2.2-2026.2.15.md => [WeeklyReports]2026.2.2~2026.2.15.md} | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename WeeklyReports/hackathon_10th/ArcaLunar/{[WeeklyReports]2026.2.2-2026.2.15.md => [WeeklyReports]2026.2.2~2026.2.15.md} (100%) diff --git a/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2-2026.2.15.md b/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md similarity index 100% rename from WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2-2026.2.15.md rename to WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md From 87e9436250775ca9ab0f4219a0c4757fd5a31fc4 Mon Sep 17 00:00:00 2001 From: ArcaLunar Date: Fri, 27 Feb 2026 11:20:55 +0800 Subject: [PATCH 3/5] doc: update pushed repo link --- .../ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md b/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md index b325bf54..394d565c 100644 --- a/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md +++ b/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md @@ -14,7 +14,7 @@ FlashAttention 低精度训练算法研究与 Kernel 开发 - 设计 reporter,便于导出为 csv,json 供进一步分析 2. 研读 SageAttention 算法细节与实现 3. 研读 FlashMask 算法细节与实现 -4. 基于已有 Sage Attention 和 FlashMask 实现,开发 Sage+FlashMask(尚未进行测试) +4. 基于已有 Sage Attention 和 FlashMask 实现,开发 Sage+FlashMask(尚未进行测试,ArcaLunar/sage-flashmask) ### 下周计划 From c6785e1ee12e90d705e9b98d0abcc8ba65c3b310 Mon Sep 17 00:00:00 2001 From: ArcaLunar Date: Sun, 8 Mar 2026 18:20:03 +0800 Subject: [PATCH 4/5] doc: weekly report 2.23-3.8 --- .../[WeeklyReport]2026.2.23~2026.3.8.md | 28 +++++++++++++++++++ 1 file changed, 28 insertions(+) create mode 100644 WeeklyReports/Hackathon_10th/ArcaLunar/[WeeklyReport]2026.2.23~2026.3.8.md diff --git a/WeeklyReports/Hackathon_10th/ArcaLunar/[WeeklyReport]2026.2.23~2026.3.8.md b/WeeklyReports/Hackathon_10th/ArcaLunar/[WeeklyReport]2026.2.23~2026.3.8.md new file mode 100644 index 00000000..b693dbab --- /dev/null +++ b/WeeklyReports/Hackathon_10th/ArcaLunar/[WeeklyReport]2026.2.23~2026.3.8.md @@ -0,0 +1,28 @@ +### 姓名 + +徐启越 + +### 实习项目 + +FlashAttention 低精度训练算法研究与 Kernel 开发 + +### 本周工作 + +1. 完善 kernel benchmark + - 补齐输入构造,benchmark 计时等,支持 causal/mask/scale 等 benchmarking 重要参数 + - 新增多项测评指标并接入自动注册体系 +2. 继续实现 SageAttention + FlashMask + - 新增 cuda/c++ 侧测试,检测精度、性能与显存占用 + - 目前编译可通过,小测试可通过 + +### 下周计划 + +1. 继续完善 sage attention+flashmask + - 检查不同输入下的边界处理并添加相关测试 + - 完善测试数据 + - 将算子接入 kernel-bench 框架 +2. 尝试利用已有实现而绕过编译的 cuda kernel 集成到 kernel-bench 的流程 +3. 基于后续 benchmark 结果,对 kernel 进行 profiling 并分析 bottleneck + +### 导师点评 + From 1afddabb6384a63ec2e944578b2f14e7d44f34da Mon Sep 17 00:00:00 2001 From: ArcaLunar Date: Sun, 8 Mar 2026 18:22:35 +0800 Subject: [PATCH 5/5] update branch --- .../[WeeklyReports]2026.2.2~2026.2.15.md | 30 ------------------- 1 file changed, 30 deletions(-) delete mode 100644 WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md diff --git a/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md b/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md deleted file mode 100644 index 394d565c..00000000 --- a/WeeklyReports/hackathon_10th/ArcaLunar/[WeeklyReports]2026.2.2~2026.2.15.md +++ /dev/null @@ -1,30 +0,0 @@ -### 姓名 - -徐启越 - -### 实习项目 - -FlashAttention 低精度训练算法研究与 Kernel 开发 - -### 本周工作 - -1. 搭建 CUDA Kernel + PyTorch Baseline 的统一测试框架 (ArcaLunar/kernel-bench) - - 基于 PyTorch C++/CUDA Extension 设计 kernel adapter,便于后续 SageAttention / FA+FlashMask/ Sage+FlashMask 算子的统一接入和测试 - - 设计 metric registry,便于后续对所有算子在不同指标上进行统一测试,且易于拓展 - - 设计 reporter,便于导出为 csv,json 供进一步分析 -2. 研读 SageAttention 算法细节与实现 -3. 研读 FlashMask 算法细节与实现 -4. 基于已有 Sage Attention 和 FlashMask 实现,开发 Sage+FlashMask(尚未进行测试,ArcaLunar/sage-flashmask) - -### 下周计划 - -1. 进一步添加 metric 支持(如速度,FLOPs 等等) -2. Sage+FlashMask 算子开发 -3. 将 Sage+FlashMask, Sage, FA+FlashMask 接入框架进行测试 -4. 根据测试结果和性能分析,对算子进行优化 - -### 导师点评 - - - -