🔍📚 TextDoe: Thai Document Domain Classification Model Based on Bow, LSTM, Pre-trained Roberta-Base

This project is supported by the AI Builder program. The main objective is to classify Thai documents into eight different domains, including:

🗂️ Data Information

Source: TNC:Thai National Corpus
Organization: Department of Linguistics, Faculty of Arts, Chulalongkorn University
After data cleaning, the dataset originally consisting of 45,000 articles has been refined to 36,000 articles
📚 Article Sources

Sources	Proportion (%)
Physical Book	60%
Journal	25%
Newspaper	5-10%
Other publications (e.g. advertising brochures)	5-10%
Online content	<5%

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.github/workflows		.github/workflows
Dataset		Dataset
assets		assets
module		module
notebook		notebook
1-TextDoe-SplitData.ipynb		1-TextDoe-SplitData.ipynb
2-TextDoe-BoW.ipynb		2-TextDoe-BoW.ipynb
3-TextDoe-LSTM.ipynb		3-TextDoe-LSTM.ipynb
4-textDoe-WangchanBEERTa.ipynb		4-textDoe-WangchanBEERTa.ipynb
README.md		README.md
TNC_Dataset_info.txt		TNC_Dataset_info.txt
app.py		app.py
requirements.txt		requirements.txt