#04 工程化整理
Tech Python, CLI AI Claude Code
源起
核心功能做完了,但專案結構是邊做邊長的,根目錄很亂。每次跑分片都在根目錄生一個新資料夾,處理幾份文件後就找不到東西了。
設計
把所有 RAG 輸出統一到 rag/ 目錄下,每份文件一個子資料夾(含 chunks.json、vectordb/、報告等)。CLI 介面加上動態資料夾選擇——自動掃描 rag/ 列出可用的資料夾,標示是否已向量化,不用手打路徑。
錯誤處理補完:檢查 chunks.json 是否存在再向量化、已向量化的資料夾提醒重做確認、檔案 I/O 全包 try-except。
實現
改動不大但效果明顯。輸出目錄改一個路徑、CLI 加資料夾列舉和狀態顯示,整體使用體驗從「能用」變成「好用」。
尾聲
| 項目 | 結果 |
|---|---|
| 端到端處理(130 頁 PDF) | ~20 秒 |
| 記憶體 | ~2 GB(含 Embedding + LLM) |
| 磁碟空間 | ~600 MB(模型 + 資料庫) |
| GPU | 不需要 |
核心功能 1 天完成,工程化整理讓系統到了可日常使用的狀態。
返回 專案首頁