Important
個人立場聲明: 本專案僅為個人技術研究分享,所有內容與參數調校均基於公開開源數據(Open Source Data)。專案內容不代表任何機關立場,亦不涉及任何公務機敏資料與軟體。
這是一個旨在協助開發者在本地環境快速部署高效能大語言模型(LLM)的實戰指南。我們專注於如何透過 Llama.cpp 與精準的參數調校,在有限的硬體資源下,榨出最大的 Context 空間與推理速度。
本專案的核心目標在於解決雲端 API 的隱私疑慮、頻繁的審查限制以及長文本處理成本,為後續銜接自動化 Agent 工具打造最堅實的底層引擎。
Note
為什麼要這樣建本地 AI?背後有一套完整的哲學框架。 本專案的設計理念源自 C.A.S.E. 框架(Constitutional Agent State Engine)——一套將 AI 協作對應到「憲法→法律→執行細則」三層分工的多智能體標準作業架構。 雲端大模型擔任「指揮所」規劃任務,本地模型擔任「基層執行」處理機密資料,所有進度以實體卷宗(資料夾+文字檔)追蹤,肉眼可見、中斷可接,並透過雙軌核實機制有效降低 AI 幻覺的影響。
Tip
測試硬體參考: NVIDIA RTX A4500 (20GB VRAM) / 64GB RAM。 硬體適應性: 只要具備 NVIDIA GPU 且 VRAM 充足(建議 12GB 以上,20GB 為完美甜蜜點),皆可參考本指南進行部署與參數調整。
寫 Code 用 AI 輔助,常常遇到 API Quota 枯竭、或是全案掃描時 Token 費用太傷本的問題嗎?💸
本專案無意取代強大的雲端大模型,而是致力於探索一套 「Hybrid AI (雲端 + 本地混合)」 的高 CP 值開發流。
我們提倡將極需高智力、龐大 Context 與關聯研究能力的「高階規劃任務」交由雲端前沿模型(如 Claude、Gemini、GPT 等各大廠旗艦模型)擔任架構師;接著,將極度消耗 Token 的「依序執行、TDD 測試、全案掃描」等苦力活,無縫轉交給這套本地生態系擔任執行者與稽核員:
- 🧠 Tier 1: 核心大腦 (Local-Agent-Workspace): 建立極致優化的 Llama.cpp 本地伺服器。作為承接雲端架構師規劃後,能無情消耗 Token 進行打底運算的強大本地算力引擎。(📍 您目前在這裡)
- 🤖 Tier 2: 代理工程師 (CK's Pi Code Agent Harness): 混合開發的指揮樞紐。負責接收雲端模型開出的「任務菜譜與 SOP」,在本地端化身為懂工程紀律的虛擬同事,按部就班地切換目標檔案、撰寫程式碼並嚴格執行 TDD 測試。
- 👁️ Tier 3: 全域修復雷達 (OmniHeal): 零安裝的全局專案健檢工具。全案掃描是最耗 Token 的環節,直接交由本工具在本地一鍵免費深潛,自動抓出技術債並開立精準的修復處方箋,讓雲端模型或代理工程師能針對性地進行修復。
核心哲學: 您過去的每一次會議、閱讀、工作經歷,都是尚未開採的「知識金礦」——問題只在於有沒有工具幫您煉出黃金。
📝 InfoGold - 經歷提煉與知識資產增值:扮演「煉金助理」的角色,將會議逐字稿、工作手稿、閱讀筆記等原始文字資產,透過四部曲系統化增值:洗礦(忠實固化原始知識)→ 精煉金磚(結構加值)→ 圓桌思辨(MECE 跨域專家辯證,發掘隱藏洞察)→ 鑄造策略貨幣(30-60-90 天可行動落地路徑)
不只是整理,更是讓「曾經發生過的事」持續產生複利——將每一份經歷轉化為可行動、可呈報、可傳承的黃金知識資產。
- 🔒 物理性資料隔離: 在正確的部署設定下,程式碼與專案架構留在本地端,不經過外部伺服器。特別適合處理具備高度機敏性、數位鑑識或 OSINT 封閉分析等高度重視資料邊界的專案。
- 🧠 高上下文容量: 透過優化的 KV 快取壓縮技術,在 20GB VRAM 下依然可支援至 128K+ Context。
- 🔓 任務連續性: 選擇特徵消融(Abliterated)模型,可避免 Agent 在執行特定分析腳本時因安全機制而強行中斷。
- 💰 成本效益: 適合頻繁開發與自動化迭代,無懼雲端 API 昂貴的 Token 費用。
我們強烈推薦使用官方版的 Llama.cpp 作為伺服器引擎,更新最快、功能最完整。
Important
Llama.cpp 官方版安裝必看:雙檔案合併解壓縮 請至 Llama.cpp Releases 下載。必須同時下載兩個檔案:
- 主程式:
llama-b...-bin-win-cuda-cu12.4-x64.zip(尋找標註 win-cuda-cu12.4 的版本) - CUDA 依賴包:
cudart-llama-bin-win-cu12.4-x64.zip
💡 強烈建議選擇 cu12.4 版本以確保最高穩定性。建立專屬資料夾(例如:C:\llama.cpp),將這兩個壓縮檔解壓縮到同一個資料夾內,確保 llama-server.exe 旁邊有 .dll 依賴檔。
在 20GB VRAM 的環境下,以下是我實測後強烈推薦的模型:
🔥 GRM-2.6-Opus.i1-IQ4_XS (約 15.2 GB)
融合頂尖的 GRM 邏輯與 Claude Opus 的推理風格。輸出極度穩定的結構化思維,大幅降低 Agent 解析指令的錯誤率。IQ4_XS 量化完美適配 20GB VRAM,留下充足餘裕給長文本運算。
🔥 Qwen3.6-27B-NEO-CODE-2T-OT-IQ4_XS (約 15.4 GB)
專為高難度程式碼任務與 JSON 格式輸出優化。若工作流偏好原生 Qwen 思維模式來進行專案重構,這是一台非常優秀的純代碼生產機器。
(新手科普:IQ 系列量化搭配 i1 矩陣技術,能在相同檔案大小下比傳統 Q 系列保留更多模型智商。檔案大小與 VRAM 之間務必保留 4~5GB 以上作為 Context 運算空間。)
以下是我針對 20GB VRAM (如 RTX A4500) 所調校出的最佳化啟動腳本。它能最大化吞吐量、開啟 Flash Attention,並使用 4-bit 壓縮 KV Cache 以換取更大的 Context 空間。
請將以下程式碼存成 start_server.bat,並確保修改變數路徑:
@echo off
chcp 65001 > nul
setlocal
title GRM-2.6-Opus IQ4_XS 128K - RTX A4500
:: ==========================================
:: ⚠️ 請修改以下兩個路徑為您電腦中的實際位置
:: ==========================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\GRM-2.6-Opus.i1-IQ4_XS.gguf
set CTX_SIZE=131072
set PORT=8080
echo Starting Local LLM Server...
echo ========================================================
echo Model : %MODEL%
echo Server : [http://127.0.0.1](http://127.0.0.1):%PORT%
echo GPU : RTX A4500 20GB
echo Context: %CTX_SIZE% (128K)
echo KV : q4_0 / q4_0
echo Batch : 1024 / 256
echo ========================================================
"%LLAMA_EXE%" ^
-m "%MODEL%" ^
-ngl 999 ^
-c %CTX_SIZE% ^
--host 127.0.0.1 ^
--port %PORT% ^
--parallel 1 ^
-b 4096 ^
-ub 1024 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--flash-attn on ^
--context-shift ^
--no-mmap ^
--mlock ^
--no-warmup ^
--jinja ^
--cache-prompt ^
--cache-reuse 512 ^
--threads 8 ^
--threads-batch 12 ^
--prio 2 ^
--timeout 900
pause
伺服器啟動完成後(預設運行於 http://127.0.0.1:8080),您就可以將其接入各類 Coding Agent。
雖然本指南過去以 Claude Code 為主,但實戰中我們發現 Claude Code 難以自訂 Auto-compact 的大小,容易在本地模型中造成 Context 溢位或效能衰退。
因此,我們強烈建議改用 Pi Coding Agent,並搭配我們的專屬套件: 👉 前往 CK's Pi Code Agent Harness
該套件解決了上述痛點,不僅更輕量,還注入了全球頂尖專家的開發直覺(TDD、BDD)與紀律,是目前實測下在本地環境效果很好的搭配選擇。
(若您仍需使用 Claude Code,只需在專案目錄下設定環境變數 set ANTHROPIC_BASE_URL=http://127.0.0.1:8080 與假 Token 即可啟動。)
請將以下程式碼存成 start_local_claude.bat,並複製到想要啟動的資料夾內啟動即可 (注意 "ANTHROPIC_BASE_URL=http://127.0.0.1:8080" 要修改成你 llama.cpp 指定的 URL 與 port):
@echo off
setlocal
title Claude Local
color 0A
set ANTHROPIC_BASE_URL=http://127.0.0.1:8080
set CLAUDE_CODE_ATTRIBUTION_HEADER=0
set CLAUDE_CODE_ENABLE_TELEMETRY=0
set CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
claude --dangerously-skip-permissions
endlocal
如果您在部署過程中有任何技術問題或參數優化的建議,歡迎透過以下管道聯繫:
May the Local AI be with you.