Skip to content

akaday/friendly-enigma

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Tokenizer Project

Description

Ce projet est conçu pour fournir une implémentation rapide et efficace de tokenizers pour la recherche et la production. Il utilise des modèles de pointe pour le traitement du langage naturel (NLP).

Fonctionnalités

  • Tokenisation rapide : Capable de tokeniser un gigaoctet de texte en moins de 20 secondes.
  • Support de plusieurs modèles : Inclut Byte-Pair Encoding (BPE), WordPiece, et Unigram.
  • Personnalisation facile : Permet de personnaliser la pré-tokenisation et la normalisation.
  • Compatibilité multi-langages : Fournit des bindings pour Python, Node.js, et plus encore.

Installation

Pour installer ce projet, vous pouvez cloner le dépôt et installer les dépendances nécessaires :

git clone https://github.com/akaday/tokenizer-project.git
cd tokenizer-project
npm install

Releases

No releases published

Packages

No packages published

Languages