Projet réalisé dans le cadre du cours TC3 du Master 2 AIC à l'Université Paris-Sud.
Auteurs : Nicolas Cadart et Benoit Sarthou
Date : Novembre 2018
Les transcripts des sous-titres de la série "The Big Bang Theory" sont nécessaires.
- Créer un dossier
data
dans ce répertoire. - Générer le jeu de données :
python3 create_database.py
, puispython3 create_train_test_scenes_split.py
- Pré-calculer les features sur les entités nommées :
python3 named_entities_features.py
. Attention, l'exécution nécessite au moins 4GB de RAM et peut prendre au delà d'1h. - Lancer l'entraînement des modèles et la prédiction sur le jeu de test :
python3 train_models_and_predict_locutors.py