GitHub - Gusreis7/Cat-Dogs_audio-classification-cnn

English

Hey, this is a basic implementation of a CNN for audio classification purpuses. The propose of this repository is to study how CNNs works and improve my skills on this field The implemention was made in Pytorch, using OOP for better writen code and usage for my experiments.

For this work, I used a public dataset of audio classification, who contains 2 classes, dogs and cats, the dataset is avaible at https://www.kaggle.com/datasets/mmoreaux/audio-cats-and-dogs .

There is some data preparation on-the-fly for training,the audio is padded to 5s and resampled to 16Khz if necessary, after that, there is a feature extraction and data augmentation using time masking with a 0.25 probability, that transforms the raw audio into a spectrogram, using n_ffts = 600, and then the spectogram is feeded to the folowing neural network

    self.conv_layer = nn.Sequential(
        nn.Conv2d(1,128, kernel_size=3, stride=1, padding=2),
        nn.ReLU(),
        nn.MaxPool2d(kernel_size=2, stride=2),
        nn.Conv2d(128,64, kernel_size=3, stride=1, padding=2),
        nn.ReLU(),
        nn.MaxPool2d(kernel_size=2, stride=2),
        nn.Conv2d(64,32, kernel_size=3, stride=1, padding=2),
        nn.ReLU(),
        nn.MaxPool2d(kernel_size=2, stride=2),
        nn.BatchNorm2d(32),
        nn.Conv2d(32,16, kernel_size=3, stride=1, padding=2),
        nn.ReLU(),
        nn.MaxPool2d(kernel_size=2, stride=2)

    )
    
    self.flatten = nn.Flatten()
    self.linear_relu_stack = nn.Sequential(
        nn.Linear(16*20*18,256),
        nn.ReLU(),
        nn.Linear(256, 64),
        nn.ReLU(),
        nn.Linear(64, 32),
        nn.Linear(32, 4),
        nn.ReLU(),
        nn.Linear(4, 2)
    )

Confusion Matrix:

The model is trained for 150 epochs, after that the model is reaching a plato, and the network don't learn anymore, even with more epochs. Feel free to use this code to implement your own audio classifier

Português

Ei, esta é uma implementação básica de uma CNN para fins de classificação de áudio. A proposta deste repositório é estudar como as CNNs funcionam e melhorar minhas habilidades neste campo. A implementação foi feita em Pytorch, usando POO para melhor escrita de código e nos meus experimentos.

Para este trabalho, utilizei um conjunto de dados público de classificação de áudio, que contém 2 classes, cães e gatos, o conjunto de dados está disponível em https://www.kaggle.com/datasets/mmoreaux/audio-cats-and-dogs .

Há alguma preparação de dados on-the-fly para treinamento, o áudio é preenchido/truncado para 5s e reamostrado para 16Khz se necessário, depois disso, há uma etapa de feature extraction e aplicação de dada augmentation usando time masking com 0.25 de probabilidade de ser aplicado , que transformam o áudio bruto em um espectrograma usando n_ffts = 600, e então o espectograma é alimentado para a seguinte rede neural

self.conv_layer = nn.Sequential(
        nn.Conv2d(1,128, kernel_size=3, stride=1, padding=2),
        nn.ReLU(),
        nn.MaxPool2d(kernel_size=2, stride=2),
        nn.Conv2d(128,64, kernel_size=3, stride=1, padding=2),
        nn.ReLU(),
        nn.MaxPool2d(kernel_size=2, stride=2),
        nn.Conv2d(64,32, kernel_size=3, stride=1, padding=2),
        nn.ReLU(),
        nn.MaxPool2d(kernel_size=2, stride=2),
        nn.BatchNorm2d(32),
        nn.Conv2d(32,16, kernel_size=3, stride=1, padding=2),
        nn.ReLU(),
        nn.MaxPool2d(kernel_size=2, stride=2)

    )
    
    self.flatten = nn.Flatten()
    self.linear_relu_stack = nn.Sequential(
        nn.Linear(16*20*18,256),
        nn.ReLU(),
        nn.Linear(256, 64),
        nn.ReLU(),
        nn.Linear(64, 32),
        nn.Linear(32, 4),
        nn.ReLU(),
        nn.Linear(4, 2)
    )

Matriz de confusão

O modelo é treinado por 150 épocas, depois disso o modelo atinge um plato e a rede não aprende mais, mesmo com mais épocas Sinta-se à vontade para usar este código para implementar seu próprio classificador de áudio

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
.gitignore		.gitignore
CatsxDogs_CNN.ipynb		CatsxDogs_CNN.ipynb
analysis.ipynb		analysis.ipynb
best-model_parameters.pt		best-model_parameters.pt
fix_dataset.ipynb		fix_dataset.ipynb
image-1.png		image-1.png
image.png		image.png
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

English

Português

About

Releases

Packages

Languages

Gusreis7/Cat-Dogs_audio-classification-cnn

Folders and files

Latest commit

History

Repository files navigation

English

Português

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages