#04 工程化整理

Tech Python, CLI AI Claude Code

源起

核心功能做完了,但專案結構是邊做邊長的,根目錄很亂。每次跑分片都在根目錄生一個新資料夾,處理幾份文件後就找不到東西了。

設計

把所有 RAG 輸出統一到 rag/ 目錄下,每份文件一個子資料夾(含 chunks.json、vectordb/、報告等)。CLI 介面加上動態資料夾選擇——自動掃描 rag/ 列出可用的資料夾,標示是否已向量化,不用手打路徑。

錯誤處理補完:檢查 chunks.json 是否存在再向量化、已向量化的資料夾提醒重做確認、檔案 I/O 全包 try-except。

實現

改動不大但效果明顯。輸出目錄改一個路徑、CLI 加資料夾列舉和狀態顯示,整體使用體驗從「能用」變成「好用」。

尾聲

項目結果
端到端處理(130 頁 PDF)~20 秒
記憶體~2 GB(含 Embedding + LLM)
磁碟空間~600 MB(模型 + 資料庫)
GPU不需要

核心功能 1 天完成,工程化整理讓系統到了可日常使用的狀態。


返回 專案首頁