Détection des personnages présents dans les scènes d'une série

Projet réalisé dans le cadre du cours TC3 du Master 2 AIC à l'Université Paris-Sud.

Auteurs : Nicolas Cadart et Benoit Sarthou

Date : Novembre 2018

Utilisation

Les transcripts des sous-titres de la série "The Big Bang Theory" sont nécessaires.

Créer un dossier data dans ce répertoire.
Générer le jeu de données : python3 create_database.py, puis python3 create_train_test_scenes_split.py
Pré-calculer les features sur les entités nommées : python3 named_entities_features.py. Attention, l'exécution nécessite au moins 4GB de RAM et peut prendre au delà d'1h.
Lancer l'entraînement des modèles et la prédiction sur le jeu de test : python3 train_models_and_predict_locutors.py

Name		Name	Last commit message	Last commit date
Latest commit History 80 Commits
data		data
.gitignore		.gitignore
Prediction with word embeddings.ipynb		Prediction with word embeddings.ipynb
README.md		README.md
create_database.py		create_database.py
create_train_test_scenes_split.py		create_train_test_scenes_split.py
embeddings_toolbox.py		embeddings_toolbox.py
encoding.py		encoding.py
gridsearch_embeddings.py		gridsearch_embeddings.py
gridsearch_training.py		gridsearch_training.py
named_entities_features.py		named_entities_features.py
parsing_toolbox.py		parsing_toolbox.py
train_embeddings.py		train_embeddings.py
train_models_and_predict_locutors.py		train_models_and_predict_locutors.py
vocabulary_features.py		vocabulary_features.py