From dde2c57f5fcb0fe0ca18764a4355aebaa9a734d3 Mon Sep 17 00:00:00 2001
From: Justin Hsu <141555665+JustinHsu1019@users.noreply.github.com>
Date: Fri, 15 Nov 2024 14:59:17 +0800
Subject: [PATCH] update readmes (#9)

---
 Model/README.md      |  8 +++++++-
 Preprocess/README.md |  6 ++++--
 README.md            | 15 +++++++++++++++
 3 files changed, 26 insertions(+), 3 deletions(-)

diff --git a/Model/README.md b/Model/README.md
index d8e18f5..e6b7c6d 100644
--- a/Model/README.md
+++ b/Model/README.md
@@ -1,4 +1,10 @@
-# 進行檢索的主程式
+# 執行檢索的主程式
+
+# 使用技術
+- Hybrid Search (Stage 1 --> Get Top 100)
+    - OpenAI Embedding Model (Semantic search): `text-embedding-3-large` (50% Search)
+    - Bm25 (Keyword search): `weaviate gse (jieba)` (50% Search)
+- Voyage Reranker (Stage 2 --> Get Top 1)
 
 ## flask_app.py
 - `/` 是 API Docs, `/api/chat/` 是我們的 Retrieval API
diff --git a/Preprocess/README.md b/Preprocess/README.md
index 082c981..9088d8a 100644
--- a/Preprocess/README.md
+++ b/Preprocess/README.md
@@ -2,7 +2,9 @@
 包含 資料預處理 及 資料寫入資料庫
 
 ## data_process/
-OCR & PDF 文字直接讀取
+使用 Tesseract OCR & PDF Plumber/Miner 將 PDF 轉換為文字
 
 ## insert_data.py
-此程式為寫入資料庫的程式碼，並包含建立資料庫 class、對資料進行 embedding、利用 text_splitter 去 chunk tokens 數過多的資料
+- 此程式為寫入資料庫的程式碼，並包含建立資料庫 class、對資料進行 embedding
+- 利用 text_splitter 來 chunk tokens 數過多的資料
+   - 2000 tokens 一切、500 tokens 重疊
diff --git a/README.md b/README.md
index e2d4b7f..7397656 100644
--- a/README.md
+++ b/README.md
@@ -1,5 +1,20 @@
 # AI CUP 2024 玉山人工智慧公開挑戰賽－RAG與LLM在金融問答的應用
 
+## 使用技術
+
+### Retriever
+
+- Hybrid Search (Stage 1 --> Get Top 100)
+    - OpenAI Embedding Model (Semantic search): `text-embedding-3-large` (50% Search)
+    - Bm25 (Keyword search): `weaviate gse (jieba)` (50% Search)
+- Voyage Reranker (Stage 2 --> Get Top 1)
+
+### Data Preprocess
+
+- 使用 Tesseract OCR & PDF Plumber/Miner 將 PDF 轉換為文字
+- 利用 text_splitter 來 chunk tokens 數過多的資料
+   - 2000 tokens 一切、500 tokens 重疊
+
 ## Repo Structure
 ```
 .