diff --git a/Model/README.md b/Model/README.md index d8e18f5..e6b7c6d 100644 --- a/Model/README.md +++ b/Model/README.md @@ -1,4 +1,10 @@ -# 進行檢索的主程式 +# 執行檢索的主程式 + +# 使用技術 +- Hybrid Search (Stage 1 --> Get Top 100) + - OpenAI Embedding Model (Semantic search): `text-embedding-3-large` (50% Search) + - Bm25 (Keyword search): `weaviate gse (jieba)` (50% Search) +- Voyage Reranker (Stage 2 --> Get Top 1) ## flask_app.py - `/` 是 API Docs, `/api/chat/` 是我們的 Retrieval API diff --git a/Preprocess/README.md b/Preprocess/README.md index 082c981..9088d8a 100644 --- a/Preprocess/README.md +++ b/Preprocess/README.md @@ -2,7 +2,9 @@ 包含 資料預處理 及 資料寫入資料庫 ## data_process/ -OCR & PDF 文字直接讀取 +使用 Tesseract OCR & PDF Plumber/Miner 將 PDF 轉換為文字 ## insert_data.py -此程式為寫入資料庫的程式碼,並包含建立資料庫 class、對資料進行 embedding、利用 text_splitter 去 chunk tokens 數過多的資料 +- 此程式為寫入資料庫的程式碼,並包含建立資料庫 class、對資料進行 embedding +- 利用 text_splitter 來 chunk tokens 數過多的資料 + - 2000 tokens 一切、500 tokens 重疊 diff --git a/README.md b/README.md index e2d4b7f..7397656 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,20 @@ # AI CUP 2024 玉山人工智慧公開挑戰賽-RAG與LLM在金融問答的應用 +## 使用技術 + +### Retriever + +- Hybrid Search (Stage 1 --> Get Top 100) + - OpenAI Embedding Model (Semantic search): `text-embedding-3-large` (50% Search) + - Bm25 (Keyword search): `weaviate gse (jieba)` (50% Search) +- Voyage Reranker (Stage 2 --> Get Top 1) + +### Data Preprocess + +- 使用 Tesseract OCR & PDF Plumber/Miner 將 PDF 轉換為文字 +- 利用 text_splitter 來 chunk tokens 數過多的資料 + - 2000 tokens 一切、500 tokens 重疊 + ## Repo Structure ``` .