clustering-alogrithms-from-scratch

K-Means and Hierarchical Clustering Algorithms from scratch in Python. Analysis and Results on MNIST data included.

Dataset: MNIST Digit Dataset The MNIST data consists of 20,000 examples of 28 × 28 images of digits (i.e., numbers from 0-9). digits-raw.csv contains the pixel information for each image (first column: image id, second column: class label, remaining 784 columns: pixel features).

digits-embedding.csv contains a precomputed 2-dimensional embedding of each image using t-Distributed Stochastic Neighbor Embedding (tSNE) (first column: image id, second column: class label, third and fourth columns: image embedding features).

28*28 pixel MNIST-Digits:

Visualizing MNIST Digits in 2D using t-SNE embedding:

Algorithms Implemented:

K-Means Clustering
Hierarchical Clustering

Analysis of both the algorithms is done using (1) within-cluster sum of squared distances, (2) silhouette coefficient, and (3) normalized mutual information gain (based on image labels).

K-Means Clusters after 50 iterations with K=10:

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
CS_573_Assignment_5.pdf		CS_573_Assignment_5.pdf
README.md		README.md
assg5.pdf		assg5.pdf
digits-embedding.csv		digits-embedding.csv
digits-embedding.png		digits-embedding.png
digits-raw.csv		digits-raw.csv
digits-raw.png		digits-raw.png
exploration.py		exploration.py
hierarchical.py		hierarchical.py
kmeans.png		kmeans.png
kmeans.py		kmeans.py
kmeans_analysis.py		kmeans_analysis.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

clustering-alogrithms-from-scratch

About

Releases

Packages

Languages

guptav96/clustering-algorithms-from-scratch

Folders and files

Latest commit

History

Repository files navigation

clustering-alogrithms-from-scratch

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages