README

Dataset

Dataset yang digunakan adalah wiki_150.csv yang berisi dokumen teks dari Wikipedia. Dataset ini diambil dari dataset good.csv dan dislice karena terlalu berat.

Permasalahan dan Tujuan Eksperimen

Permasalahan yang ingin diselesaikan adalah bagaimana mencari dokumen yang relevan dengan teks input. Tujuan eksperimen adalah untuk mengetahui seberapa bagus algoritma yang digunakan untuk mencari dokumen yang relevan.

Model dan Alur Tahapan

Model yang digunakan adalah Cosine Similarity. Alur tahapan eksperimen adalah sebagai berikut:

Pelatihan Vectorizer:

Membuat objek vectorizer dari TfidfVectorizer(), yang digunakan untuk menghitung TF-IDF (Term Frequency-Inverse Document Frequency). Melatih vectorizer dengan seluruh teks yang ada dalam dataframe df['text'].

Transformasi Teks:

Mengubah teks input ke dalam bentuk vektor menggunakan vectorizer.transform([input_text]). Mengubah teks dalam filtered_df['text'] menjadi vektor.

Perhitungan Kesamaan Kosinus:

Kesamaan kosinus dihitung antara vektor teks input dan vektor dokumen yang telah difilter menggunakan cosine_similarity().

Pengurutan Berdasarkan Kesamaan:

Nilai kesamaan ditambahkan ke dalam filtered_df dan diurutkan dari nilai kesamaan tertinggi ke terendah.

Performa Model / Uji Performa Model

Untuk mengukur performa model, digunakan metric Relevance. Relevance didefinisikan sebagai rasio antara jumlah dokumen yang relevan dengan jumlah total dokumen yang direkomendasikan.

Pada eksperimen ini, didapatkan bahwa Relevance sebesar 0,8. Artinya, 80% dari dokumen yang direkomendasikan adalah dokumen yang relevan dengan teks input.

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.streamlit		.streamlit
README.md		README.md
document_search.py		document_search.py
requirements.txt		requirements.txt
wiki_150.csv		wiki_150.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

README

Dataset

Permasalahan dan Tujuan Eksperimen

Model dan Alur Tahapan

Pelatihan Vectorizer:

Transformasi Teks:

Perhitungan Kesamaan Kosinus:

Pengurutan Berdasarkan Kesamaan:

Performa Model / Uji Performa Model

About

Releases

Packages

Languages

Harisdinus/projectakhirstki

Folders and files

Latest commit

History

Repository files navigation

README

Dataset

Permasalahan dan Tujuan Eksperimen

Model dan Alur Tahapan

Pelatihan Vectorizer:

Transformasi Teks:

Perhitungan Kesamaan Kosinus:

Pengurutan Berdasarkan Kesamaan:

Performa Model / Uji Performa Model

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages