From dde2c57f5fcb0fe0ca18764a4355aebaa9a734d3 Mon Sep 17 00:00:00 2001 From: Justin Hsu <141555665+JustinHsu1019@users.noreply.github.com> Date: Fri, 15 Nov 2024 14:59:17 +0800 Subject: [PATCH] update readmes (#9) --- Model/README.md | 8 +++++++- Preprocess/README.md | 6 ++++-- README.md | 15 +++++++++++++++ 3 files changed, 26 insertions(+), 3 deletions(-) diff --git a/Model/README.md b/Model/README.md index d8e18f5..e6b7c6d 100644 --- a/Model/README.md +++ b/Model/README.md @@ -1,4 +1,10 @@ -# 進行檢索的主程式 +# 執行檢索的主程式 + +# 使用技術 +- Hybrid Search (Stage 1 --> Get Top 100) + - OpenAI Embedding Model (Semantic search): `text-embedding-3-large` (50% Search) + - Bm25 (Keyword search): `weaviate gse (jieba)` (50% Search) +- Voyage Reranker (Stage 2 --> Get Top 1) ## flask_app.py - `/` 是 API Docs, `/api/chat/` 是我們的 Retrieval API diff --git a/Preprocess/README.md b/Preprocess/README.md index 082c981..9088d8a 100644 --- a/Preprocess/README.md +++ b/Preprocess/README.md @@ -2,7 +2,9 @@ 包含 資料預處理 及 資料寫入資料庫 ## data_process/ -OCR & PDF 文字直接讀取 +使用 Tesseract OCR & PDF Plumber/Miner 將 PDF 轉換為文字 ## insert_data.py -此程式為寫入資料庫的程式碼,並包含建立資料庫 class、對資料進行 embedding、利用 text_splitter 去 chunk tokens 數過多的資料 +- 此程式為寫入資料庫的程式碼,並包含建立資料庫 class、對資料進行 embedding +- 利用 text_splitter 來 chunk tokens 數過多的資料 + - 2000 tokens 一切、500 tokens 重疊 diff --git a/README.md b/README.md index e2d4b7f..7397656 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,20 @@ # AI CUP 2024 玉山人工智慧公開挑戰賽-RAG與LLM在金融問答的應用 +## 使用技術 + +### Retriever + +- Hybrid Search (Stage 1 --> Get Top 100) + - OpenAI Embedding Model (Semantic search): `text-embedding-3-large` (50% Search) + - Bm25 (Keyword search): `weaviate gse (jieba)` (50% Search) +- Voyage Reranker (Stage 2 --> Get Top 1) + +### Data Preprocess + +- 使用 Tesseract OCR & PDF Plumber/Miner 將 PDF 轉換為文字 +- 利用 text_splitter 來 chunk tokens 數過多的資料 + - 2000 tokens 一切、500 tokens 重疊 + ## Repo Structure ``` .