開發日誌 #4：專案優化與技術總結

經過前三個階段的開發，RAG 系統的核心功能已經完成。但一個好的系統不只是功能完整，還需要：

清晰的檔案組織
友善的操作介面
完善的錯誤處理
詳細的技術文件

這個階段就是要將「能用」提升到「好用」！

檔案結構優化

問題：根目錄混亂

一開始每次處理文檔都會在專案根目錄產生新資料夾：

rag-chunking-engine/
├── rag_01 華電聯網服務建議書_20251012_124248/
├── rag_服務建議書_112年度_20251012_130637/
├── rag_測試文檔_20251012_141523/
├── rag_另一個文檔_20251012_153045/
├── ...
├── src/
├── config/
└── test_document.py

這樣會導致：

❌ 根目錄快速變得雜亂
❌ 難以找到特定的 RAG 結果
❌ 備份和遷移不方便

解決方案：統一 `rag/` 資料夾

將所有 RAG 結果統一放在 rag/ 目錄下：

rag-chunking-engine/
├── rag/                    ← ⭐ 統一管理目錄
│   ├── 01 華電聯網服務建議書_20251012_124248/
│   │   ├── chunks.json
│   │   ├── chunks/
│   │   ├── vectordb/
│   │   └── vectordb_info.txt
│   ├── 服務建議書_112年度_20251012_130637/
│   └── ...
├── src/
├── config/
└── test_document.py

實作改動：

# test_document.py
def create_output_folder(source_file: str) -> str:
    """建立輸出資料夾"""
    filename = os.path.basename(source_file).replace('.pdf', '')
    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
 
    # 改為在 rag/ 目錄下建立
    base_folder = 'rag'
    os.makedirs(base_folder, exist_ok=True)
 
    output_folder = os.path.join(base_folder, f"{filename}_{timestamp}")
    os.makedirs(output_folder, exist_ok=True)
 
    return output_folder

優點：

✅ 集中管理，一目了然
✅ 根目錄保持乾淨
✅ 方便批次操作和備份
✅ 符合專案組織最佳實踐

CLI 介面完善

最終主選單設計

def show_main_menu():
    """顯示主選單"""
    clear_screen()
    print("=" * 60)
    print("         RAG 智能文檔檢索系統")
    print("=" * 60)
    print("\n請選擇功能:\n")
    print("  1. 📄 文檔分片    - 解析並分片文檔")
    print("  2. 🔢 向量化      - 將分片轉換為向量並存入資料庫")
    print("  3. 🔍 查詢測試    - 測試向量資料庫檢索")
    print("  4. 🤖 AI 問答     - 使用 LLM 進行智能問答")
    print("  5. 📊 查看資料夾  - 檢視所有 RAG 結果")
    print("  6. ❌ 退出")
    print()

動態資料夾選擇

不再需要手動輸入路徑，系統自動掃描 rag/ 目錄並顯示可用資料夾：

def list_rag_folders() -> list:
    """列出所有 RAG 資料夾"""
    rag_base = 'rag'
    if not os.path.exists(rag_base):
        return []
 
    folders = []
    for item in os.listdir(rag_base):
        folder_path = os.path.join(rag_base, item)
        if os.path.isdir(folder_path):
            # 檢查是否已向量化
            has_vectordb = os.path.exists(os.path.join(folder_path, 'vectordb'))
            folders.append({
                'name': item,
                'path': folder_path,
                'vectorized': has_vectordb
            })
 
    return folders
 
def select_rag_folder() -> str:
    """讓用戶選擇 RAG 資料夾"""
    folders = list_rag_folders()
 
    if not folders:
        print("❌ 找不到任何 RAG 資料夾")
        return None
 
    print("\n📁 請選擇 RAG 資料夾:\n")
    for i, folder in enumerate(folders, 1):
        status = "✅ (已向量化)" if folder['vectorized'] else "⏳ (未向量化)"
        print(f"  {i}. {folder['name']} {status}")
 
    print()
    choice = input("請選擇資料夾 (輸入編號): ").strip()
 
    try:
        idx = int(choice) - 1
        return folders[idx]['path']
    except (ValueError, IndexError):
        print("❌ 無效的選擇")
        return None

使用體驗：

📁 請選擇 RAG 資料夾:
 
  1. 01 華電聯網服務建議書_20251012_124248 ✅ (已向量化)
  2. 服務建議書_112年度_20251012_130637 ✅ (已向量化)
  3. 測試文檔_20251012_153045 ⏳ (未向量化)
 
請選擇資料夾 (輸入編號): 1

一目了然，無需記憶複雜的路徑名稱！

錯誤處理與提示

加入完善的錯誤處理和友善提示：

def option_vectorize():
    """向量化功能"""
    folder = select_rag_folder()
    if not folder:
        input("\n按 Enter 返回主選單...")
        return
 
    # 檢查是否已經向量化
    if os.path.exists(os.path.join(folder, 'vectordb')):
        print("\n⚠️  此資料夾已經向量化過了")
        choice = input("是否要重新向量化？(y/N): ").strip().lower()
        if choice != 'y':
            return
 
    # 檢查 chunks.json 是否存在
    chunks_file = os.path.join(folder, 'chunks.json')
    if not os.path.exists(chunks_file):
        print("\n❌ 錯誤: 找不到 chunks.json")
        print("請先執行「文檔分片」功能")
        input("\n按 Enter 返回主選單...")
        return
 
    # 執行向量化
    try:
        embed_to_vectordb(folder)
        print("\n✅ 向量化完成！")
    except Exception as e:
        print(f"\n❌ 向量化失敗: {str(e)}")
 
    input("\n按 Enter 返回主選單...")

性能數據總結

完整流程性能測試

測試文檔：華電聯網服務建議書.pdf（130 頁，65,000+ 字符）

階段	耗時	輸出
1. 文檔解析	~3 秒	Document 對象
2. 智能分片	~1 秒	360 個 chunks
3. 向量化	~12 秒	360 個向量 (512 維)
4. 查詢檢索	~1 秒	Top 8 相關分片
5. LLM 生成	~3-5 秒	自然語言答案
端到端	~20 秒	從文檔到答案

資源使用統計

資源	使用量	說明
記憶體	~2 GB	包含 Embedding 模型和 LLM
磁碟空間	~600 MB	模型 + 資料庫 + 分片檔案
CPU	i5/i7	無需 GPU
網路	0	完全本地運行

可擴展性評估

文檔數量	總分片數	向量化時間	資料庫大小	查詢時間
1 份	~360	~12 秒	~5 MB	~1 秒
10 份	~3,600	~2 分鐘	~50 MB	~1 秒
100 份	~36,000	~20 分鐘	~500 MB	~2 秒

結論：系統可以輕鬆處理數百份文檔，查詢性能仍然優秀。

經驗總結

成功經驗

1. 針對特定領域定制分片策略

教訓：通用方案不是萬能的

市面上的固定大小分片或語義分片，對於中文招標文件效果都不好。自己開發的 ProposalChunker 雖然工作量大，但效果顯著提升。

關鍵決策：

深入分析文檔特性
識別特殊區域（封面、目次、評選表）
基於階層式標題分片
保留完整的章節路徑

2. 完整的元數據追蹤

價值：讓檢索結果更有用

每個分片都包含豐富的元數據：

{
    "section": "參、專案需求規劃 > 二. 數位雙生系統 > 1. 使用者介面層",
    "heading": "1. 使用者介面層",
    "heading_level": 4,
    "page_number": 45,
    "is_special": false,
    "chunk_type": "正文"
}

這讓用戶能：

✅ 快速定位原文位置
✅ 理解內容的上下文
✅ 追溯答案來源

3. 模組化設計

優點：易於測試和擴展

分離的模組設計讓我能：

單獨測試每個組件
快速定位問題
輕鬆替換或升級某個模組

例如：

想換成 Word 文檔？只需改 Parser
想換向量資料庫？只需改 Embedding 層
想換 LLM？只需改 API 呼叫

4. 使用中文優化模型

效果：檢索準確率顯著提升

使用 bge-small-zh-v1.5 而不是通用的英文模型，對中文專業術語的理解明顯更好。

測試對比：

通用模型：「數位雙生」與「火場鑑識」相似度 0.32
中文模型：「數位雙生」與「火場鑑識」相似度 0.58

踩過的坑

1. Windows 編碼問題

問題：Windows 命令列預設 CP950 編碼

解決：強制使用 UTF-8

if sys.platform == 'win32':
    sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

教訓：跨平台開發要考慮編碼差異

2. ChromaDB 命名限制

問題：不支援中文和特殊字符作為集合名稱

解決：使用 UUID，中文名存在 metadata

教訓：閱讀文件很重要，不要假設資料庫功能

3. Metadata None 值

問題：ChromaDB 不接受 None 值

解決：插入前過濾 None 值

教訓：資料清理很重要，不能直接傳入原始資料

4. 返回類型不一致

問題：函數有時返回 list，有時返回單個 object

解決：使用 isinstance() 判斷後統一處理

教訓：保持函數返回類型一致，或明確文件說明

最佳實踐

1. 先小規模測試

做法：用單一文檔驗證分片效果

不要一開始就處理大量文檔，先用一份測試，確認：

分片品質是否符合預期
章節路徑是否正確
特殊區域是否識別

2. 保存中間結果

做法：輸出 JSON 和 TXT 方便除錯

rag/.../
├── chunks.json      ← JSON 格式，程式讀取
├── chunks/*.txt     ← TXT 格式，人工檢查
├── report.txt       ← 統計報告
└── preview.txt      ← 快速預覽

這樣除錯時可以直接檢視文字檔，不用寫額外的查看工具。

3. 分離關注點

做法：分片、向量化、查詢分開

# 階段 1: 分片
python test_document.py "文檔.pdf"
 
# 階段 2: 向量化
python embed_to_vectordb.py "rag/文檔_timestamp"
 
# 階段 3: 查詢
python query_vectordb.py "rag/文檔_timestamp" "問題"

每個階段都可以單獨測試和優化，問題容易定位。

4. 完善的錯誤處理

做法：預期可能的錯誤並友善提示

try:
    # 執行操作
    result = process_document(file)
except FileNotFoundError:
    print("❌ 錯誤: 找不到檔案")
    print(f"請確認路徑: {file}")
except PermissionError:
    print("❌ 錯誤: 沒有權限讀取檔案")
except Exception as e:
    print(f"❌ 未預期的錯誤: {str(e)}")
    print("請回報此問題")

特別是檔案 I/O 和編碼，錯誤處理要完善。

未來規劃

短期目標（1-2 個月）

1. Word 文檔支援改進

現況：DOCX 解析成功但分片數為 0

原因：ProposalChunker 依賴 PDF 的頁面分割標記

計畫：

分析 Word 文檔的段落結構
調整 ProposalChunker 支援無頁碼文檔
測試並優化分片效果

2. 頁首頁尾過濾

問題：重複的頁首頁尾會出現在分片中

解決方案：

識別重複出現的文本模式
統計頻率，過濾高頻重複內容
保留有意義的頁首（例如章節名）

3. ✅ 檢索效果優化（已完成）

✅ Reranking 已實作（詳見 [[05-Reranking精排序實作|日誌 #5]]）：

使用 bge-reranker-v2-m3 Cross-Encoder
兩階段檢索：向量檢索 (top 20) + 精排序 (top 8)
顯著提升檢索準確度

後續可優化：

混合搜尋：結合關鍵字搜尋和向量搜尋
相似度閾值：過濾低相關度結果
Reranking 參數調優：測試不同的 initial_k 和 final_k 組合

中期目標（3-6 個月）

4. 批次處理

功能：

批次匯入多個文檔
合併到統一的知識庫
文檔更新與版本控制

設計：

# 批次匯入
python batch_import.py "文檔目錄/" --collection "招標文件庫"
 
# 更新文檔
python update_document.py "文檔.pdf" --collection "招標文件庫"
 
# 刪除文檔
python remove_document.py "文檔名" --collection "招標文件庫"

5. Web 介面

技術棧：

後端：FastAPI
前端：React + TypeScript
UI 框架：Ant Design

功能：

拖拉上傳文檔
視覺化分片結果
互動式問答介面
歷史查詢記錄

長期目標（6-12 個月）

6. 多模態支援

功能：

圖表識別與提取
表格結構化解析
OCR 整合（處理掃描檔）

技術：

Vision-Language Models
Table Transformer
PaddleOCR

7. 生產環境部署

需求：

Docker 容器化
分散式向量庫（Qdrant）
API 服務化
監控與日誌（Prometheus + Grafana）
負載平衡

專案成果清單

✅ 已完成功能

核心功能：

多格式文檔解析（PDF/Word/Text）
ProposalChunker 智能分片引擎
階層式中文標題識別
特殊區域自動識別
向量化與持久化存儲
兩階段檢索系統（Bi-Encoder + Cross-Encoder）
Reranking 精排序（bge-reranker-v2-m3）
Ollama LLM 整合
完整 RAG 問答流程

工程化：

文件與測試：

技術文件（PROJECT_OVERVIEW.md）
建置紀錄（RAG系統建置紀錄.md）
實際文檔測試（130 頁招標文件）

🔄 進行中

Word 文檔分片優化
頁首頁尾過濾

📋 規劃中

~~Reranking 實作~~ (已完成，見 [[05-Reranking精排序實作|日誌 #5]])
Reranking 參數調優
混合搜尋（關鍵字 + 向量）
Metadata 過濾
批次文檔處理
Web 介面開發
Docker 容器化

技術指標總結

功能完整度

模組	完成度	說明
文檔解析	90%	PDF 完善，Word 待優化
智能分片	100%	ProposalChunker 功能完整
向量化	100%	支援持久化和批次處理
檢索系統	100%	兩階段檢索 + Reranking
LLM 問答	100%	完整 RAG 流程
CLI 介面	100%	友善易用

性能指標

指標	目標	實際	達成
分片速度	< 5 秒	~1 秒	✅
向量化速度	< 30 秒	~12 秒	✅
查詢回應（兩階段）	< 3 秒	~1-1.5 秒	✅
LLM 生成	< 10 秒	~3-5 秒	✅
端到端	< 30 秒	~20 秒	✅
單次問答（含 Reranking）	< 10 秒	~5-7 秒	✅

系統穩定性

項目	狀態
錯誤處理	✅ 完善
編碼支援	✅ UTF-8 完整支援
資料持久化	✅ 穩定
記憶體洩漏	✅ 無
跨平台	⚠️ Windows 已測試，Linux/macOS 待測

結語

這次從零開始建置 RAG 系統的經驗非常寶貴。我們不僅實作了完整的文檔處理流程，更針對中文招標文件的特性開發了專用的分片策略，並成功整合了本地 LLM，實現了真正可用的智能問答系統。

核心成就

技術創新：

自主開發 ProposalChunker 智能分片引擎
四層中文標題階層式解析
章節路徑完整追蹤
兩階段檢索系統（向量檢索 + Reranking）

工程品質：

模組化設計，易於擴展
完善的錯誤處理
友善的操作介面
詳細的技術文件

性能表現：

端到端處理 < 20 秒
檢索準確率優秀
本地部署，資料安全

專案價值

企業應用：

✅ 解決招標文件知識管理問題
✅ 提升文檔查詢效率
✅ 降低人工檢索成本
✅ 確保資料不外洩

技術積累：

✅ RAG 系統完整實作經驗
✅ 中文 NLP 處理技術
✅ 向量資料庫應用
✅ 本地 LLM 整合方案

展望未來

系統目前已達到生產就緒狀態，可以穩定處理公司內部招標文件。接下來將持續優化功能、提升性能，並逐步實現 Web 介面和批次處理等進階功能。

這個專案證明了：

針對特定領域的深度定制比通用方案更有效
完整的元數據追蹤是 RAG 系統的關鍵
本地部署的 AI 系統是企業級應用的最佳選擇

專案時間：2025年10月12日（1 天完成核心功能） 開發環境：Windows 11, Python 3.12.3 核心技術：RAG, Vector Database, NLP, Document Processing, LLM 專案狀態：✅ 生產就緒

← 上一篇：LLM 整合與完整 RAG 系統 | 返回專案主頁 | 下一篇：Reranking 精排序實作 →

Eason devlog

Explorer

#04 專案優化與技術總結