🎵 Classification of Musical Instruments

This is the **Italian version by default**. Switch to: 🇬🇧 English

Questo progetto si occupa della classificazione automatica di strumenti musicali a partire da dati audio trasformati in immagini (spettrogrammi). Il problema è affrontato come una classificazione multilabel, confrontando le prestazioni di una CNN (modello di deep learning) con modelli tradizionali di machine learning: XGBoost e Random Forest.

📁 Struttura del Dataset

Il dataset è stato raccolto manualmente e comprende registrazioni audio di 5 strumenti musicali:

Chitarra
Pianoforte
Violino
Viola
Flauto

I file .wav sono stati convertiti in spettrogrammi grigi con la libreria librosa.

Ogni spettrogramma è poi salvato come immagine .png e suddiviso in:

train (70%)
val (15%)
test (15%)

Organizzati nella seguente struttura:

data/
├── train/
│   └── <strumento>/immagini/*.png
├── val/
│   └── <strumento>/immagini/*.png
├── test/
│   └── <strumento>/immagini/*.png
│
├── models/
│   └── model_immagini.py
│
├── pre data/
│   ├── audio.py
│   ├── clone.ipynb
│   └── segmentaion.py
│
├── utils/
│   ├── dataset_immagini.py
│   ├── evaluate_immagini.py
│   ├── train_immagini.py
│   └── test_immagini.py
│
├── main_immagini.ipynb
├── main.ipynb
│
├── extract_features.ipynb
├── ispezione.ipynb
│
├── requirement.txt
├── environment.yml
│
└── Readme.md

🔧 Preprocessing: Da Audio a Spettrogrammi

Il preprocessing converte i file .wav in spettrogrammi tramite:

librosa.feature.melspectrogram()
librosa.power_to_db()

I file risultanti vengono salvati come immagini monocromatiche.

🧠 Modelli Utilizzati

Nel nostro progetto di classificazione multilabel degli strumenti musicali a partire da immagini spettrogrammi, abbiamo adottato e confrontato tre approcci differenti per valutare l’efficacia di modelli basati su deep learning rispetto a metodi tradizionali di machine learning.

1. Convolutional Neural Network (CNN)

Abbiamo sviluppato un modello CNN personalizzato utilizzando PyTorch. Il modello è composto da tre blocchi convoluzionali con Batch Normalization, MaxPooling e Dropout per prevenire l'overfitting. La rete termina con due layer fully connected.

Input: spettrogrammi in scala di grigi (1 x 224 x 224)
Output: probabilità per ciascuna delle 5 classi (strumenti)
Funzione di perdita: CrossEntropyLoss
Ottimizzatore: Adam con learning rate di 0.001
Early Stopping: monitorato sulla validation accuracy con patience = 5

Durante l'addestramento, salviamo il modello con la migliore accuracy sulla validation e generiamo:

Curva di loss e accuracy per training e validation
Matrice di confusione finale
Classificazione dettagliata per classe

2. XGBoost (XGBClassifier)

Come approccio alternativo, abbiamo estratto feature statistiche dagli spettrogrammi (es. media, deviazione standard, skewness) e le abbiamo utilizzate per addestrare un classificatore XGBClassifier.

Modello: Gradient Boosting (XGBoost)
Vantaggi: veloce da addestrare, interpretabilità delle feature
Limiti: richiede estrazione manuale delle caratteristiche e non sfrutta pienamente la struttura spaziale dell’immagine

3. Random Forest

Abbiamo infine testato un classificatore Random Forest, anch’esso basato su feature estratte manualmente dagli spettrogrammi. È stato utilizzato come baseline classico:

Modello: ensemble di alberi decisionali
Punti di forza: robustezza a overfitting e facilità di interpretazione
Limiti: prestazioni inferiori rispetto alla CNN

🔍 Confronto

Tabella comparativa delle prestazioni dei modelli

Modello	Dataset	Accuracy	Precision (macro)	Recall (macro)	F1-score (macro)
CNN (immagini)	Val	86.71%	0.9050	0.8777	0.8696
CNN (immagini)	Test	98.33%	0.9830	0.9852	0.9840
Random Forest (ViT – immagini)	Val	71.68%	–	–	–
Random Forest (ViT – immagini)	Test	82.22%	0.83	0.84	0.82
XGBoost (ViT – immagini)	Val	77.46%	–	–	–
XGBoost (ViT – immagini)	Test	82.78%	0.83	0.84	0.83
Random Forest (ViT – audio)	Test	92%	0.96	0.93	0.94
XGBoost (ViT – audio)	Test	67%	0.57	0.57	0.52

🛠 Requisiti

torch
torchvision
matplotlib
seaborn
pandas
scikit-learn
librosa

Puoi installarli con:

pip install -r requirements.txt

Oppure puoi configurare un ambiente conda con:

conda env create -f environment.yml
conda activate classification_instruments

📎 Licenza

Questo progetto è distribuito con licenza Apache License 2.0.
Puoi utilizzarlo liberamente, a patto di citare gli autori originali.

📩 Contatti

Per qualsiasi domanda o richiesta di chiarimento, non esitare a contattarci:

📧 Giovanni Giuseppe Iacuzzo
📧 Chiara Maria Milazzo

Name		Name	Last commit message	Last commit date
Latest commit History 71 Commits
models		models
pre data		pre data
test2		test2
utils		utils
.gitignore		.gitignore
AudioTrasformers.py		AudioTrasformers.py
Confronto_classification_instruments.csv		Confronto_classification_instruments.csv
LICENSE		LICENSE
Readme.md		Readme.md
Readme_En.md		Readme_En.md
VIT_Model_Music.py		VIT_Model_Music.py
environment.yml		environment.yml
extract_features.ipynb		extract_features.ipynb
ispezione.ipynb		ispezione.ipynb
main.ipynb		main.ipynb
main.py		main.py
main_immagini.ipynb		main_immagini.ipynb
requirement.txt		requirement.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🎵 Classification of Musical Instruments

📁 Struttura del Dataset

🔧 Preprocessing: Da Audio a Spettrogrammi

🧠 Modelli Utilizzati

1. Convolutional Neural Network (CNN)

2. XGBoost (XGBClassifier)

3. Random Forest

🔍 Confronto

🛠 Requisiti

📎 Licenza

📩 Contatti

About

Uh oh!

Releases

Contributors 2

Uh oh!

Languages

License

GiovanniIacuzzo/Classification-instruments

Folders and files

Latest commit

History

Repository files navigation

🎵 Classification of Musical Instruments

📁 Struttura del Dataset

🔧 Preprocessing: Da Audio a Spettrogrammi

🧠 Modelli Utilizzati

1. Convolutional Neural Network (CNN)

2. XGBoost (XGBClassifier)

3. Random Forest

🔍 Confronto

🛠 Requisiti

📎 Licenza

📩 Contatti

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Contributors 2

Uh oh!

Languages