Tokenizer Project

Description

Ce projet est conçu pour fournir une implémentation rapide et efficace de tokenizers pour la recherche et la production. Il utilise des modèles de pointe pour le traitement du langage naturel (NLP).

Fonctionnalités

Tokenisation rapide : Capable de tokeniser un gigaoctet de texte en moins de 20 secondes.
Support de plusieurs modèles : Inclut Byte-Pair Encoding (BPE), WordPiece, et Unigram.
Personnalisation facile : Permet de personnaliser la pré-tokenisation et la normalisation.
Compatibilité multi-langages : Fournit des bindings pour Python, Node.js, et plus encore.

Installation

Pour installer ce projet, vous pouvez cloner le dépôt et installer les dépendances nécessaires :

git clone https://github.com/akaday/tokenizer-project.git
cd tokenizer-project
npm install

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.github		.github
README.md		README.md
SECURITY.md		SECURITY.md
tokenizer.py		tokenizer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tokenizer Project

Description

Fonctionnalités

Installation

About

Releases

Packages

Languages

akaday/friendly-enigma

Folders and files

Latest commit

History

Repository files navigation

Tokenizer Project

Description

Fonctionnalités

Installation

About

Resources

Security policy

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages