Skip to content

Chiakai-Chang/Local-Agent-Workspace

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 

Repository files navigation

🚀 Local-Agent-Workspace

Important

個人立場聲明: 本專案僅為個人技術研究分享,所有內容與參數調校均基於公開開源數據(Open Source Data)。專案內容不代表任何機關立場,亦不涉及任何公務機敏資料與軟體。

開發者本地 AI 部署指南:Llama.cpp 極致壓榨與模型推薦

這是一個旨在協助開發者在本地環境快速部署高效能大語言模型(LLM)的實戰指南。我們專注於如何透過 Llama.cpp 與精準的參數調校,在有限的硬體資源下,榨出最大的 Context 空間與推理速度。

本專案的核心目標在於解決雲端 API 的隱私疑慮、頻繁的審查限制以及長文本處理成本,為後續銜接自動化 Agent 工具打造最堅實的底層引擎。

Note

為什麼要這樣建本地 AI?背後有一套完整的哲學框架。 本專案的設計理念源自 C.A.S.E. 框架(Constitutional Agent State Engine)——一套將 AI 協作對應到「憲法→法律→執行細則」三層分工的多智能體標準作業架構。 雲端大模型擔任「指揮所」規劃任務,本地模型擔任「基層執行」處理機密資料,所有進度以實體卷宗(資料夾+文字檔)追蹤,肉眼可見、中斷可接,並透過雙軌核實機制有效降低 AI 幻覺的影響。

👉 進入 C.A.S.E. 框架說明

Tip

測試硬體參考: NVIDIA RTX A4500 (20GB VRAM) / 64GB RAM。 硬體適應性: 只要具備 NVIDIA GPU 且 VRAM 充足(建議 12GB 以上,20GB 為完美甜蜜點),皆可參考本指南進行部署與參數調整。


🧩 CK 的 AI 開發生態系 (The Ecosystem)

寫 Code 用 AI 輔助,常常遇到 API Quota 枯竭、或是全案掃描時 Token 費用太傷本的問題嗎?💸

本專案無意取代強大的雲端大模型,而是致力於探索一套 「Hybrid AI (雲端 + 本地混合)」 的高 CP 值開發流。

我們提倡將極需高智力、龐大 Context 與關聯研究能力的「高階規劃任務」交由雲端前沿模型(如 Claude、Gemini、GPT 等各大廠旗艦模型)擔任架構師;接著,將極度消耗 Token 的「依序執行、TDD 測試、全案掃描」等苦力活,無縫轉交給這套本地生態系擔任執行者與稽核員

CK's AI Development Ecosystem

  • 🧠 Tier 1: 核心大腦 (Local-Agent-Workspace) 建立極致優化的 Llama.cpp 本地伺服器。作為承接雲端架構師規劃後,能無情消耗 Token 進行打底運算的強大本地算力引擎。(📍 您目前在這裡
  • 🤖 Tier 2: 代理工程師 (CK's Pi Code Agent Harness) 混合開發的指揮樞紐。負責接收雲端模型開出的「任務菜譜與 SOP」,在本地端化身為懂工程紀律的虛擬同事,按部就班地切換目標檔案、撰寫程式碼並嚴格執行 TDD 測試。
  • 👁️ Tier 3: 全域修復雷達 (OmniHeal) 零安裝的全局專案健檢工具。全案掃描是最耗 Token 的環節,直接交由本工具在本地一鍵免費深潛,自動抓出技術債並開立精準的修復處方箋,讓雲端模型或代理工程師能針對性地進行修復。

🏅 延伸工具:知識資產提煉

核心哲學: 您過去的每一次會議、閱讀、工作經歷,都是尚未開採的「知識金礦」——問題只在於有沒有工具幫您煉出黃金。

📝 InfoGold - 經歷提煉與知識資產增值:扮演「煉金助理」的角色,將會議逐字稿、工作手稿、閱讀筆記等原始文字資產,透過四部曲系統化增值:洗礦(忠實固化原始知識)→ 精煉金磚(結構加值)→ 圓桌思辨(MECE 跨域專家辯證,發掘隱藏洞察)→ 鑄造策略貨幣(30-60-90 天可行動落地路徑)

不只是整理,更是讓「曾經發生過的事」持續產生複利——將每一份經歷轉化為可行動、可呈報、可傳承的黃金知識資產。


💎 部署本地環境的優勢

  • 🔒 物理性資料隔離: 在正確的部署設定下,程式碼與專案架構留在本地端,不經過外部伺服器。特別適合處理具備高度機敏性、數位鑑識或 OSINT 封閉分析等高度重視資料邊界的專案。
  • 🧠 高上下文容量: 透過優化的 KV 快取壓縮技術,在 20GB VRAM 下依然可支援至 128K+ Context
  • 🔓 任務連續性: 選擇特徵消融(Abliterated)模型,可避免 Agent 在執行特定分析腳本時因安全機制而強行中斷。
  • 💰 成本效益: 適合頻繁開發與自動化迭代,無懼雲端 API 昂貴的 Token 費用。

🛠️ 1. 運算引擎準備:Llama.cpp

我們強烈推薦使用官方版的 Llama.cpp 作為伺服器引擎,更新最快、功能最完整。

Important

Llama.cpp 官方版安裝必看:雙檔案合併解壓縮 請至 Llama.cpp Releases 下載。必須同時下載兩個檔案:

  1. 主程式: llama-b...-bin-win-cuda-cu12.4-x64.zip (尋找標註 win-cuda-cu12.4 的版本)
  2. CUDA 依賴包: cudart-llama-bin-win-cu12.4-x64.zip

💡 強烈建議選擇 cu12.4 版本以確保最高穩定性。建立專屬資料夾(例如:C:\llama.cpp),將這兩個壓縮檔解壓縮到同一個資料夾內,確保 llama-server.exe 旁邊有 .dll 依賴檔。


📦 2. 模型權重推薦 (GGUF)

在 20GB VRAM 的環境下,以下是我實測後強烈推薦的模型:

🌟 穩定首選 (代理橋接與複雜自動化)

🔥 GRM-2.6-Opus.i1-IQ4_XS (約 15.2 GB)

融合頂尖的 GRM 邏輯與 Claude Opus 的推理風格。輸出極度穩定的結構化思維,大幅降低 Agent 解析指令的錯誤率。IQ4_XS 量化完美適配 20GB VRAM,留下充足餘裕給長文本運算。

💻 程式開發特化 (純代碼生成與 JSON 結構化)

🔥 Qwen3.6-27B-NEO-CODE-2T-OT-IQ4_XS (約 15.4 GB)

專為高難度程式碼任務與 JSON 格式輸出優化。若工作流偏好原生 Qwen 思維模式來進行專案重構,這是一台非常優秀的純代碼生產機器。

(新手科普:IQ 系列量化搭配 i1 矩陣技術,能在相同檔案大小下比傳統 Q 系列保留更多模型智商。檔案大小與 VRAM 之間務必保留 4~5GB 以上作為 Context 運算空間。)


🚀 3. 一鍵啟動伺服器 (RTX A4500 極致優化版)

以下是我針對 20GB VRAM (如 RTX A4500) 所調校出的最佳化啟動腳本。它能最大化吞吐量、開啟 Flash Attention,並使用 4-bit 壓縮 KV Cache 以換取更大的 Context 空間。

請將以下程式碼存成 start_server.bat,並確保修改變數路徑:

@echo off
chcp 65001 > nul
setlocal

title GRM-2.6-Opus IQ4_XS 128K - RTX A4500

:: ==========================================
:: ⚠️ 請修改以下兩個路徑為您電腦中的實際位置
:: ==========================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\GRM-2.6-Opus.i1-IQ4_XS.gguf
set CTX_SIZE=131072
set PORT=8080

echo Starting Local LLM Server...
echo ========================================================
echo Model  : %MODEL%
echo Server : [http://127.0.0.1](http://127.0.0.1):%PORT%
echo GPU    : RTX A4500 20GB
echo Context: %CTX_SIZE% (128K)
echo KV     : q4_0 / q4_0
echo Batch  : 1024 / 256
echo ========================================================

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 999 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  --parallel 1 ^
  -b 4096 ^
  -ub 1024 ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --flash-attn on ^
  --context-shift ^
  --no-mmap ^
  --mlock ^
  --no-warmup ^
  --jinja ^
  --cache-prompt ^
  --cache-reuse 512 ^
  --threads 8 ^
  --threads-batch 12 ^
  --prio 2 ^
  --timeout 900

pause

🤖 4. 銜接自動化 Agent

伺服器啟動完成後(預設運行於 http://127.0.0.1:8080),您就可以將其接入各類 Coding Agent。

🌟 首選推薦:Pi Coding Agent + Harness 套件

雖然本指南過去以 Claude Code 為主,但實戰中我們發現 Claude Code 難以自訂 Auto-compact 的大小,容易在本地模型中造成 Context 溢位或效能衰退。

因此,我們強烈建議改用 Pi Coding Agent,並搭配我們的專屬套件: 👉 前往 CK's Pi Code Agent Harness

該套件解決了上述痛點,不僅更輕量,還注入了全球頂尖專家的開發直覺(TDD、BDD)與紀律,是目前實測下在本地環境效果很好的搭配選擇。

(若您仍需使用 Claude Code,只需在專案目錄下設定環境變數 set ANTHROPIC_BASE_URL=http://127.0.0.1:8080 與假 Token 即可啟動。)

以下作法參考自: How to Run Local LLMs with Claude Code

請將以下程式碼存成 start_local_claude.bat,並複製到想要啟動的資料夾內啟動即可 (注意 "ANTHROPIC_BASE_URL=http://127.0.0.1:8080" 要修改成你 llama.cpp 指定的 URL 與 port):

@echo off
setlocal

title Claude Local
color 0A

set ANTHROPIC_BASE_URL=http://127.0.0.1:8080

set CLAUDE_CODE_ATTRIBUTION_HEADER=0
set CLAUDE_CODE_ENABLE_TELEMETRY=0
set CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1

claude --dangerously-skip-permissions

endlocal

📮 聯繫與交流

如果您在部署過程中有任何技術問題或參數優化的建議,歡迎透過以下管道聯繫:

May the Local AI be with you.

About

🧠 C.A.S.E. Hybrid Cloud+Local AI Framework ── 雲端 AI 出計畫,本地 AI 執行苦勞。Llama.cpp 部署實戰指南,資料物理隔離,讓 Token 花在刀口上、不受 Quota 所困。

Topics

Resources

Stars

Watchers

Forks