Awesome Pretrained Chinese NLP Models

在自然语言处理领域中，预训练语言模型（Pretrained Language Models）已成为非常重要的基础技术，本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬)，并将持续更新......

模型开源平台

🤗huggingface: The AI community building the future.

模型下载地址: https://huggingface.co/models

ModelScope: ModelScope平台是以模型为中心的模型开源社区

模型下载地址:https://modelscope.cn/models

Expand Table of Contents

更新日志
LLM
NLU系列
- BERT
- RoBERTa
- ALBERT
- NEZHA
- XLNET
- MacBERT
- WoBERT
- ELECTRA
- ZEN
- ERNIE
- ERNIE3
- RoFormer
- StructBERT
- Lattice-BERT
- Mengzi-BERT
- ChineseBERT
- TaCL
- MC-BERT
- 二郎神
- PERT
- MobileBERT
- GAU-α
- DeBERTa
- GlyphBERT
- CKBERT
- LERT
NLG系列
- GPT
- GPT-3
- NEZHA-GEN
- CPM-Generate
- T5
- T5-PEGASUS
- Mengzi-T5
- 盘古α
- EVA
- BART
- 闻仲
- 余元
- RWKV
- Bloom
- PromptCLUE
- ChatYuan
- SkyText
NLU-NLG系列
- UniLM
- Simbert
- RoFormer-sim
- CPM-2
- CPT
- 周文王
- GLM
- PLUG
- OPD
Multi-Modal
- WenLan
- CogView
- 紫东太初
- Mengzi-oscar
- R2D2
- Chinese-CLIP
- TaiYi-CLIP
- AltCLIP
- AltDiffusion
- Taiyi-Stable-Diffusion
- wukong
Table
- SDCUP

NLU系列

BERT

2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv | PDF
2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
BERT-Base	base	Google Drive		Google Research	github	通用
BERT-wwm	base	Google Drive 讯飞云-07Xj	Google Drive	Yiming Cui	github	通用
BERT-wwm-ext	base	Google Drive 讯飞云-4cMG	Google Drive	Yiming Cui	github	通用
bert-base-民事	base	阿里云		THUNLP	github	司法
bert-base-刑事	base	阿里云		THUNLP	github	司法
BAAI-JDAI-BERT	base	京东云		JDAI	github	电商客服对话
FinBERT	base	Google Drive 百度网盘-1cmp	Google Drive 百度网盘-986f	Value Simplex	github	金融科技领域
EduBERT	base	好未来AI	好未来AI	tal-tech	github	教育领域
guwenbert-base	base		百度网盘-4jng huggingface	Ethan	github	古文领域
guwenbert-large	large		百度网盘-m5sz huggingface	Ethan	github	古文领域
BERT-CCPoem	small		thunlp	THUNLP-AIPoet	github	古典诗歌

备注:

wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask

ext表示在更多数据集下训练

ChineseBERT

2021 | ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information | Zijun Sun, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
ChineseBERT	base		huggingface	ShannonAI	github	通用
ChineseBERT	large		huggingface	ShannonAI	github	通用

RoBERTa

2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
RoBERTa-tiny-clue	tiny	Google Drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-tiny-pair	tiny	google drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-tiny3L768-clue	tiny	Google Drive		CLUE	github	通用
RoBERTa-tiny3L312-clue	tiny	google drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-large-pair	large	Google Drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-large-clue	large	google drive	百度网盘-8qvb	CLUE	github	通用
RBT3	3层base	Google Drive 讯飞云-b9nx	Google Drive	Yiming Cui	github	通用
RBTL3	3层large	Google Drive 讯飞云-vySW	Google Drive	Yiming Cui	github	通用
RBTL4	4层large	讯飞云-e8dN		Yiming Cui	github	通用
RBTL6	6层large	讯飞云-XNMA		Yiming Cui	github	通用
RoBERTa-wwm-ext	base	Google Drive 讯飞云-Xe1p	Google Drive	Yiming Cui	github	通用
RoBERTa-wwm-ext-large	large	Google Drive 讯飞云-u6gC	Google Drive	Yiming Cui	github	通用
RoBERTa-base	base	Google Drive 百度网盘	Google Drive 百度网盘	brightmart	github	通用
RoBERTa-Large	large	Google Drive 百度网盘	Google Drive	brightmart	github	通用
RoBERTa-tiny	tiny	huggingface	huggingface	DBIIR @ RUC	UER	通用
RoBERTa-mini	mini	huggingface	huggingface	DBIIR @ RUC	UER	通用
RoBERTa-small	small	huggingface	huggingface	DBIIR @ RUC	UER	通用
RoBERTa-medium	medium	huggingface	huggingface	DBIIR @ RUC	UER	通用
RoBERTa-base	base	huggingface	huggingface	DBIIR @ RUC	UER	通用

ALBERT

2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Albert_tiny	tiny	Google Drive	Google Drive	brightmart	github	通用
Albert_base_zh	base	Google Drive	Google Drive	brightmart	github	通用
Albert_large_zh	large	Google Drive	Google Drive	brightmart	github	通用
Albert_xlarge_zh	xlarge	Google Drive	Google Drive	brightmart	github	通用
Albert_base	base	Google Drive		Google Research	github	通用
Albert_large	large	Google Drive		Google Research	github	通用
Albert_xlarge	xlarge	Google Drive		Google Research	github	通用
Albert_xxlarge	xxlarge	Google Drive		Google Research	github	通用

NEZHA

2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
NEZHA-base	base	Google Drive 百度网盘-ntn3	lonePatient	HUAWEI	github	通用
NEZHA-base-wwm	base	Google Drive 百度网盘-f68o	lonePatient	HUAWEI	github	通用
NEZHA-large	large	Google Drive 百度网盘-7thu	lonePatient	HUAWEI	github	通用
NEZHA-large-wwm	large	Google Drive 百度网盘-ni4o	lonePatient	HUAWEI	github	通用
WoNEZHA (word-base)	base	百度网盘-qgkq		ZhuiyiTechnology	github	通用

MacBERT

2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
MacBERT-base	base	Google Drive 讯飞云-E2cP		Yiming Cui	github	通用
MacBERT-large	large	Google Drive 讯飞云-3Yg3		Yiming Cui	github	通用

WoBERT

2020 | 提速不掉点：基于词颗粒度的中文WoBERT | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
WoBERT	base	百度网盘-kim2		ZhuiyiTechnology	github	通用
WoBERT-plus	base	百度网盘-aedw		ZhuiyiTechnology	github	通用

XLNET

2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
XLNet-base	base	Google Drive 讯飞云-uCpe	Google Drive	Yiming Cui	github	通用
XLNet-mid	middle	Google Drive 讯飞云-68En	Google Drive	Yiming Cui	github	通用
XLNet_zh_Large	large	百度网盘		brightmart	github	通用

ELECTRA

2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv | PDF

模型	版本	TensorFlow	作者	源地址	应用领域
ELECTRA-180g-large	large	Google Drive 讯飞云-Yfcy	Yiming Cui	github	通用
ELECTRA-180g-small-ex	small	Google Drive 讯飞云-GUdp	Yiming Cui	github	通用
ELECTRA-180g-base	base	Google Drive 讯飞云-Xcvm	Yiming Cui	github	通用
ELECTRA-180g-small	small	Google Drive 讯飞云-qsHj	Yiming Cui	github	通用
legal-ELECTRA-large	large	Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
legal-ELECTRA-base	base	Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
legal-ELECTRA-small	small	Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
ELECTRA-tiny	tiny	Google Drive 百度网盘-rs99	CLUE	github	通用

ZEN

2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
ZEN-Base	base		Google Drive 百度网盘	Sinovation Ventures AI Institute	github	通用
Erlangshen-ZEN2	large		huggingface	IDEA-CCNL	github	通用

ERNIE

2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv | PDF
2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv | PDF
2020 | ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding | Dongling Xiao, et al. | arXiv | PDF

模型	版本	PaddlePaddle	作者	源地址	应用领域
ernie-1.0-base	base	link	PaddlePaddle	github	通用
ernie_1.0_skep_large	large	link	Baidu	github	情感分析
ernie-gram	base	link	Baidu	github	通用

备注:

PaddlePaddle转TensorFlow可参考: tensorflow_ernie

PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

ERNIE3

2021 | ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Yu Sun, et al. | arXiv | PDF
2021 | ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Shuohuan Wang, et al. | arXiv | PDF

模型	版本	PaddlePaddle	PyTorch	作者	源地址	应用领域
ernie-3.0-base	12-layer, 768-hidden, 12-heads	link	huggingface	PaddlePaddle	github	通用
ernie-3.0-medium	6-layer, 768-hidden, 12-heads	link	huggingface	PaddlePaddle	github	通用
ernie-3.0-mini	6-layer, 384-hidden, 12-heads	link	huggingface	PaddlePaddle	github	通用
ernie-3.0-micro	4-layer, 384-hidden, 12-heads	link	huggingface	PaddlePaddle	github	通用
ernie-3.0-nano	4-layer, 312-hidden, 12-heads	link	huggingface	PaddlePaddle	github	通用

PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

RoFormer

2021 | RoFormer: Enhanced Transformer with Rotary Position Embedding | Jianlin Su, et al. | arXiv | PDF
2021 | Transformer升级之路：2、博采众长的旋转式位置编码 | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	作者	源地址	应用领域
roformer	base(L12)	百度网盘-xy9x	ZhuiyiTechnology	github	通用
roformer	small(L6)	百度网盘-gy97	ZhuiyiTechnology	github	通用
roformer-char	base(L12)	百度网盘-bt94	ZhuiyiTechnology	github	通用
roformerV2	small(L6)	百度网盘-ttn4 追一	ZhuiyiTechnology	github	通用
roformerV2	base(L12)	百度网盘-pfoh 追一	ZhuiyiTechnology	github	通用
roformerV2	large(L24)	百度网盘-npfv 追一	ZhuiyiTechnology	github	通用

StructBERT

2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
StructBERT	large(L24)		阿里云	Alibaba	github	通用

Lattice-BERT

2021 | Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models | Yuxuan Lai, et al. | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
LatticeBERT	tiny(L4)	阿里云	Alibaba	github	通用
LatticeBERT	small(L6)	阿里云	Alibaba	github	通用
LatticeBERT	base(L12)	阿里云	Alibaba	github	通用

Mengzi-BERT

2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-BERT	base(L12)		huggingface	Langboat	github	通用
Mengzi-BERT-fin	base(L12)		huggingface	Langboat	github	金融财经

Bloom

2022 | Bloom: BigScience Large Open-science Open-access Multilingual Language Model | huggingface bigscience | - | BLOG

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
bloom-6b4-zh	6B(L30)		huggingface	Langboat (作者另有bloom-389m-zh到bloom-2b5-zh等多个中文模型)	github	通用

TaCL

2021 | TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning | Yixuan Su, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
TaCL	base(L12)		huggingface	yxuansu	github	通用

MC-BERT

2021 | MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining | alibaba-research | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
MC-BERT	base(L12)		link	alibaba-research	github	生物医疗

二郎神

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Erlangshen	large(L24)	bert		huggingface	IDEA-CCNL	github	中文通用

PERT

2022 | PERT: Pre-Training BERT with Permuted Language Model | Yiming Cui, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
PERT-base	base(12L)	百度网盘-rcsw	huggingface	Yiming Cui	github	通用
PERT-large	large(24L)	百度网盘-e9hs	huggingface	Yiming Cui	github	通用

MobileBERT

2020 | MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices | Zhiqing Sun, et al. | arXiv | PDF

模型	版本	TensorFlow	作者	源地址	应用领域
Chinese-MobileBERT-base-f2	base	百度网盘-56bj	Yiming Cui	github	通用
Chinese-MobileBERT-base-f4	base	百度网盘-v2v7	Yiming Cui	github	通用
Chinese-MobileBERT-large-f2	large	百度网盘-6m5a	Yiming Cui	github	通用
Chinese-MobileBERT-large-f4	large	百度网盘-3h9b	Yiming Cui	github	通用

GAU-α

2022 | GAU-α: (FLASH) Transformer Quality in Linear Time | Weizhe Hua, et al. | arXiv | PDF | blog

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
chinese_GAU-alpha-char_L-24_H-768	base	下载		ZhuiyiTechnology	github	通用

DeBERTa

2020 | DeBERTa: Decoding-enhanced BERT with Disentangled Attention | Pengcheng He, et al. | arXiv | PDF |

模型	版本	PyTorch	作者	源地址	应用领域
DeBERTa-v2-Large	large	huggingface	IDEA-CCNL	github	通用
DeBERTa-v2-xLarge	xlarge	huggingface	IDEA-CCNL	github	通用
DeBERTa-v2	base	huggingface	IDEA-CCNL	github	通用

GlyphBERT

2021 | GlyphCRM: Bidirectional Encoder Representation for Chinese Character with its Glyph | Yuxin li, et al. | arXiv | PDF |

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
GlyphCRM-base	base		huggingface	HITsz-TMG	github	通用

CKBERT

2022 | Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training | Zhang, Taolin, et al. | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
pai-ckbert-base-zh	base	huggingface	Alibaba	github	通用
pai-ckbert-large-zh	large	huggingface	Alibaba	github	通用
pai-ckbert-huge-zh	huge	huggingface	Alibaba	github	通用

LERT

2022 | LERT: A Linguistically-motivated Pre-trained Language Model | Yiming Cui et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Chinese-LERT-small	15m	百度网盘-4vuy	huggingface	Yiming Cui	github	通用
Chinese-LERT-base	400m	百度网盘-9jgi	huggingface	Yiming Cui	github	通用
Chinese-LERT-large	1.2G	百度网盘-s82t	huggingface	Yiming Cui	github	通用

NLG系列

GPT

2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF
2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
GPT2	30亿语料		Google Drive 百度网盘-ffz6	Caspar ZHANG	gpt2-ml	通用
GPT2	15亿语料		Google Drive 百度网盘-q9vr	Caspar ZHANG	gpt2-ml	通用
CDial-GPTLCCC-base	base		huggingface	thu-coai	CDial-GPT	中文对话
CDial-GPT2LCCC-base	base		huggingface	thu-coai	CDial-GPT	中文对话
CDial-GPTLCCC-large	large		huggingface	thu-coai	CDial-GPT	中文对话
GPT2-dialogue	base		Google Drive 百度网盘-osi6	yangjianxin1	GPT2-chitchat	闲聊对话
GPT2-mmi	base		Google Drive 百度网盘-1j88	yangjianxin1	GPT2-chitchat	闲聊对话
GPT2-散文模型	base		Google Drive 百度网盘-fpyu	Zeyao Du	GPT2-Chinese	散文
GPT2-诗词模型	base		Google Drive 百度网盘-7fev	Zeyao Du	GPT2-Chinese	诗词
GPT2-对联模型	base		Google Drive 百度网盘-i5n0	Zeyao Du	GPT2-Chinese	对联
roformer-gpt	base(L12)	百度网盘-2nnn		ZhuiyiTechnology	github	通用

GPT-3

2019 | Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context | Zihang Dai, et al. | arXiv | PDF
2020 | Language Models are Few-Shot Learners | Tom B. Brown, et al. | arXiv | PDF

模型	版本	介绍	PyTorch	作者	源地址	应用领域
Chinese-Transformer-XL	29亿参数(GPT-3)	项目首页	模型下载	THUDM	github	通用

NEZHA-Gen

2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF
2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
NEZHA-Gen	base	Google Drive 百度网盘-rb5m		HUAWEI	github	通用
NEZHA-Gen	base	Google Drive 百度网盘-ytim		HUAWEI	github	诗歌

CPM-Generate

2020 | CPM: A Large-scale Generative Chinese Pre-trained Language Model | Zhengyan Zhang, et al. | arXiv | PDF

模型	版本	资源	PyTorch	作者	源地址	应用领域
CPM	26亿参数	项目首页	模型下载	Tsinghua AI	github	通用

备注:

PyTorch转TensorFlow可参考: CPM-LM-TF2

PyTorch转PaddlePaddle可参考: CPM-Generate-Paddle

T5

2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
T5	small	huggingface	huggingface	DBIIR @ RUC	UER	通用

T5-PEGASUS

2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv | PDF
2019 | PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization | Jingqing Zhang, et al. | arXiv | PDF
2021 | T5 PEGASUS：开源一个中文生成式预训练模型 | 苏剑林. | spaces | Blog post

模型	版本	Keras	PyTorch	作者	源地址	应用领域
T5 PEGASUS	base	百度网盘-3sfn		ZhuiyiTechnology	github	通用
T5 PEGASUS	small	百度网盘-qguk		ZhuiyiTechnology	github	通用

Keras转PyTorch可参考: t5-pegasus-pytorch

Mengzi-T5

2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-T5	base(L12)		huggingface	Langboat	github	通用

PanGu-Alpha

2021 | PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation | Wei Zeng, et al. | arXiv | PDF

模型	版本	资源	下载地址	作者	源地址	应用领域
盘古α-2.6B	2.6G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用
盘古α-13B	12G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用
盘古α-2.6B pytorch版本	2.6G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用
盘古α-13B pytorch版本	12G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用

EVA

2021 | EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training | Hao Zhou, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
EVA	28亿参数	项目首页	模型下载	thu-coai	github	中文开放域对话	需要登陆才能下载
EVA2.0-xLarge	xlarge	项目首页	huggingface	thu-coai	github	中文开放域对话
EVA2.0-large	large	项目首页	huggingface	thu-coai	github	中文开放域对话
EVA2.0-base	base	项目首页	huggingface	thu-coai	github	中文开放域对话

BART

2019 | BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension | Mike Lewis, et al. | arxiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
BART-base	base		huggingface	fastNLP	github	中文通用
BART-large	large		huggingface	fastNLP	github	中文通用

闻仲

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Wenzhong	large(L24)	GPT2		huggingface	IDEA-CCNL	github	中文通用

余元

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Yuyuan	large(L24)	GPT2		huggingface	IDEA-CCNL	github	医学领域

RWKV

2021 | An Attention Free Transformer | Shuangfei Zhai, et al. | arxiv | PDF
2022 | The RWKV Language Model . | github

模型	版本	PyTorch	作者	源地址	应用领域
RWKV	base(L12)	github	PENG Bo	github	小说
RWKV	7B	huggingface	PENG Bo	github	小说
RWKV	14B	huggingface	PENG Bo	github	小说

PromptCLUE

模型	版本	PyTorch	作者	源地址	应用领域
PromptCLUE	base(L12)	huggingface	ClueAI	github	通用
PromptCLUE-v1-5	base(L12)	huggingface	ClueAI	github	通用
PromptCLUE-large	large	API在线调用	ClueAI	github	通用

ChatYuan

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
ChatYuan	large	T5		huggingface	ClueAI	github	元语功能型对话

SkyText

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
SkyText	large	GPT3		huggingface	SkyWorkAIGC	github	通用

NLU-NLG系列

UniLM

2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Unilm	base	百度网盘-tblr	百度网盘-etwf	YunwenTechnology	github	通用

Simbert

2020 | 鱼与熊掌兼得：融合检索和生成的SimBERT模型 | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	作者	源地址	应用领域
SimBERT Tiny	tiny	百度网盘-1tp7	ZhuiyiTechnology	github	通用
SimBERT Small	small	百度网盘-nu67	ZhuiyiTechnology	github	通用
SimBERT Base	base	百度网盘-6xhq	ZhuiyiTechnology	github	通用

RoFormer-sim

2021 | SimBERTv2来了！融合检索和生成的RoFormer-Sim模型 | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	作者	源地址	应用领域
roformer-sim	base(L12)	百度网盘-2cgz	ZhuiyiTechnology	github	通用
roformer-sim	small(L6)	百度网盘-h68q	ZhuiyiTechnology	github	通用
roformer-sim-v2	base(L12)	百度网盘-w15n	ZhuiyiTechnology	github	通用

周文王

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Zhouwenwang	base(L12)	roformer		huggingface	IDEA-CCNL	github	中文通用
Zhouwenwang	large(L24)	roformer		huggingface	IDEA-CCNL	github	中文通用

CPM-2

2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | Zhengyan Zhang, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
CPM-2	110亿参数	项目首页	模型下载	BAAI-WuDao	github	通用	需要申请才能下载
CPM-2	100亿参数	项目首页	模型下载	BAAI-WuDao	github	中英	需要申请才能下载
CPM-2	1980亿参数	项目首页	模型下载	BAAI-WuDao	github	中英	需要申请才能下载

CPT

2021 | CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation | Yunfan Shao, et al. | arxiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
CPT-base	base(L12)		huggingface	fastNLP	github	通用
CPT-large	large(L24)		huggingface	fastNLP	github	通用

GLM

2022 | GLM: General Language Model Pretraining with Autoregressive Blank Infilling | Zhengxiao Du, et al. | arXiv | PDF
2022 | GLM-130B: An Open Bilingual Pre-trained Model | Aohan Zeng, et al. | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
GLM	large	Huggingface	THUDM	github	通用
GLM	xxlarge	Huggingface	THUDM	github	通用
GLM-130B	130B	申请地址1 申请地址2	THUDM	github	通用

PLUG

2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv | PDF
2020 | PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation | Bin Bi, et al. | ACL| PDF

模型	版本	模型下载	作者	源地址	应用领域
PLUG	27B	AliceMind-需要申请	Alibaba	github	通用

OPD

2022 | 待定 | , et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
OPD	6.3B	项目首页	模型下载	thu-coai	github	中文开放域对话	需要申请才能下载

Multi-Modal

WenLan

2021 | WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training | Yuqi Huo, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
BriVL(WenLan)	10亿参数	项目首页	模型下载	BAAI-WuDao	github	中文通用图文	需要登陆才能下载

CogView

2021 | CogView: Mastering Text-to-Image Generation via Transformers | Ming Ding, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
CogView	40亿参数	项目首页	模型下载	THUDM	github	中文多模态生成模型	需要登陆才能下载

紫东太初

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
紫东太初- light_vision_text		项目首页	模型下载	中科院自动化所	github	中文图像-文本领域	紫东太初多模态大模型中的图像-文本预训练模型
紫东太初-text[GPT]	32亿参数	项目首页	百度网盘-nos5	中科院自动化所	github	中文通用	紫东太初多模态大模型中的文本预训练模型
紫东太初-vision		项目首页	模型下载	中科院自动化所	github	视觉领域	紫东太初多模态大模型中的视觉预训练模型
紫东太初-speech		项目首页	模型下载	中科院自动化所	github	语音领域	紫东太初多模态大模型中的语音检测与识别多任务模型

Mengzi-oscar

2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-oscar	base(L12)		huggingface	Langboat	github	中文多模态-图文

R2D2

2022 | Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework | Chunyu Xie, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	首页	应用领域
R2D2ViT-L	large		Google	yuxie11	github	zero	中文多模态-图文
PRD2ViT-L	large		Google	yuxie11	github	zero	中文多模态-图文

Chinese-CLIP

2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv | PDF
2022 | Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese | An Yang, et al. | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
CN-CLIP_RN50	77M	aliyuncs	OFA-Sys	github	中文多模态-图文
CN-CLIP_ViT-B/16	188M	aliyuncs	OFA-Sys	github	中文多模态-图文
CN-CLIP_ViT-L/14	406M	aliyuncs	OFA-Sys	github	中文多模态-图文
CN-CLIP_{ViT-L/14@336px}	407M	aliyuncs	OFA-Sys	github	中文多模态-图文
CN-CLIP_ViT-H/14	958M	aliyuncs	OFA-Sys	github	中文多模态-图文

TaiYi-CLIP

2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv | PDF
2022 | Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence | Junjie Wang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Taiyi-CLIP-Roberta-large-326M-Chinese	base		huggingface	IDEA-CCNL	github	中文多模态-图文

AltCLIP

2022 | AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities | Chen, Zhongzhi, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
AltCLIP	3.22G		huggingface	FlagAI	github	中文多模态-图文

AltDiffusion

2022 | AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities | Chen, Zhongzhi, et al. | arXiv | PDF
2022 | High-Resolution Image Synthesis With Latent Diffusion Models | Rombach, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
AltDiffusion	8.0G		huggingface	FlagAI	github	中文多模态-图文

Taiyi-Stable-Diffusion

2022 | Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence | Junjie Wang, et al. | arXiv | PDF
2022 | High-Resolution Image Synthesis With Latent Diffusion Models | Rombach, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Taiyi-Stable-Diffusion	1B		huggingface	IDEA-CCNL	github	中文多模态-图文

wukong

2022 | Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark | Jiaxi Gu, et al. | arXiv | PDF

模型	PyTorch	作者	源地址	应用领域
CLIP	url	HUAWEI	github	中文多模态-图文
FILIP	url	HUAWEI	github	中文多模态-图文
wukong	url	HUAWEI	github	中文多模态-图文

Table

SDCUP

2021 | Improving Text-to-SQL with Schema Dependency Learning | Binyuan Hui, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
sdcup	base		阿里云	Alibaba	github	中文表格
sdcup	large		阿里云	Alibaba	github	中文表格

LLM

大规模语言模型：表格中只罗列出参数量大于10B以上模型。

模型	大小	结构	语言	下载	作者	项目地址	时间	文献
CPM-Bee	10B	Decoder	中英文	待发布	OpenBMB	CPM-Live	2023-01
BLOOM	176B	Decoder	多语言	ckpt-95000	BigScience	Megatron-DeepSpeed	2022-11	paper
BLOOMZ	176B	Decoder	多语言	ckpt-498	BigScience	Megatron-DeepSpeed	2022-11	paper
CPM-Ant+	10B	Decoder	中英文	ckpt	OpenBMB	CPM-Live	2022-10	blog
GLM	130B	Decoder	中英文	申请下载	清华大学	GLM-130B	2022-10	paper
CPM-Ant	10B	Decoder	中文	ckpt	OpenBMB	CPM-Live	2022-09	blog
GLM	10B	Decoder	中文	ckpt	清华大学	GLM	2022-09	paper
CodeGeeX	13B	Decoder	多语言code	申请下载	清华大学	CodeGeeX	2022-06	blog
CPM-2	11B	encoder-decoder	中文	申请下载	智源研究院	CPM	2021-06	paper
CPM-2	11B	encoder-decoder	中英文	申请下载	智源研究院	CPM	2021-06	paper
CPM-2	200B	encoder-decoder,MOE	中英文	申请下载	智源研究院	CPM	2021-06	paper
PanGu-Alpha	13B	Decoder	中文	ckpt	鹏城实验室	PanGu-Alpha	2021-05	paper
PanGu-Alpha	200B	Decoder	中文	待发布	鹏城实验室	PanGu-Alpha	2021-05	paper
PLUG	27B	encoder-decoder	中文	申请下载	阿里巴巴	AliceMind	2021-04
GPT-3	13B	Decoder	中文	待发布	达摩院	GPT-3预训练生成模型	2021-04
GPT-3	30B	Decoder	中文	待发布	达摩院	GPT-3预训练生成模型	2021-04

更新

2023.02.21 增加LLM,大规模语言模型列表，只罗列出参数量大于10B以上模型，其余量级模型，可参考对应的项目地址。
2023.01.14 增加SkyText,SkyText是由奇点智源发布的中文GPT3预训练大模型，可以进行聊天、问答、中英互译等不同的任务.
2023.01.14 增加ChatYuan,ChatYuan模型可以用于问答、结合上下文做对话、做各种生成任务，包括创意性写作，也能回答一些像法律、新冠等领域问题。
2022.12.10 增加PromptCLUE,全中文任务零样本学习模型,基于1000亿token中文语料上预训练，并且在数百种任务上进行Prompt任务式训练。
2022.12.01 增加wukong,基于一个名为「悟空」的大型中文跨模态数据集，其中包含来自网络的 1 亿个图文对，预训练的多模态模型。
2022.11.30 增加AltDiffusion，使用 AltCLIP 作为text encoder，基于 Stable Diffusion 训练了中英双语Diffusion模型(AltDiffusion)
2022.11.30 增加AltCLIP,一个简单高效的方法去训练更加优秀的双语CLIP模型,名为AltCLIP。AltCLIP基于 OpenAI CLIP 训练。
2022.11.30 增加Taiyi-Stable-Diffusion,首个开源的中英双语Stable Diffusion模型，基于0.2亿筛选过的中文图文对训练。
2022.11.9 增加OPD,OPD是一个中文开放域对话预训练模型，拥有63亿参数，在70GB高质量对话数据上进行训练而成.大规模 & 高性能
2022.11.8 更新Chinese-CLIP,Chinese-CLIP是中文多模态图文表征模型，更新后Chinese-CLIP扩充到5个模型规模，同时增加了技术报告论文以及检索demo，同时在达摩院ModelScope平台同步集成。
2022.10.31 增加LERT,为了验证通过显式注入语言学知识预训练模型能否获得进一步性能提升，HFL提出了一种语言学信息增强的预训练模型LERT，融合了多种语言学知识。大量实验结果表明，在同等训练数据规模下，LERT能够带来显著性能提升。
2022.10.14 增加CKBERT，中文知识库增强BERT预训练语言模型。
2022.10.01 增加GlyphBERT, GlyphBERT是一个包含了汉字字形特征中文预训练模型。它通过将输入的字符渲染成图像并设计成多通道位置特征图的形式，并设计了一个两层残差卷积神经网络模块来提取字符的图像特征进行训练。
2022.09.30 增加DeBERTa，一个中文版的DeBERTa-v2，我们用悟道语料库(180G版本)进行预训练，在预训练阶段中使用了封神框架。
2022.09.30 增加TaiYi-CLIP,首个开源的中文CLIP模型，1.23亿图文对上进行预训练的文本端RoBERTa-large。
2022.09.27 增加PLUG,PLUG集语言理解与生成能力于一身，支持文本生成、问答、语义理解等多类下游任务，PLUG开源将助力开发者在语言理解和语言生成上做出更多延拓。
2022.09.11 增加bloom-6b4,多语言预训练bloom系列生成模型7b1参数(https://huggingface.co/bigscience/bloom-7b1 )的中文vocab提取，bloom系列另有最大176B模型(https://huggingface.co/bigscience/bloom).
2022.09.11 增加GLM-130B,提出了开源的双语预训练生成模型 GLM(General Language Model)。
2022.09.11 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation 2.6B和13B 生成模型pytorch版
2022.06.29 增加ERNIE 3.0,大规模知识增强预训练语言理解和生成.
2022.06.22 增加Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework，基于大规模中文跨模态基准数据集Zero，训练视觉语言预训练框架 R2D2，用于大规模跨模态学习。
2022.06.15 增加GLM: General Language Model Pretraining with Autoregressive Blank Infilling,提出了一种新的通用语言模型 GLM(General Language Model)。使用自回归填空目标进行预训练，可以针对各种自然语言理解和生成任务进行微调。
2022.05.16 增加GAU-α,主要提出了一个融合了Attention层和FFN层的新设计GAU（Gated Attention Unit，门控注意力单元），它是新模型更快、更省、更好的关键，此外它使得整个模型只有一种层，也显得更为优雅。
2022.03.27 增加RoFormer-V2,RoFormer升级版，主要通过结构的简化来提升速度，并通过无监督预训练和有监督预训练的结合来提升效果，从而达到了速度与效果的“双赢”。
2022.03.02 增加MobileBERT,MobileBERT是BERT-large模型更“苗条”的版本，使用了瓶颈结构（bottleneck）并且对自注意力和前馈神经网络之间的平衡做了细致的设计。
2022.02.24 增加PERT: Pre-Training BERT with Permuted Language Model,一种基于乱序语言模型的预训练模型（PERT），在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。
2021.12.06 增加SDCUP: Improving Text-to-SQL with Schema Dependency Learning,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP。
2021.11.27 增加RWKV中文预训练生成模型,类似 GPT-2,模型参考地址：RWKV-LM
2021.11.27 增加IDEA研究院开源的封神榜系列语言模型，包含二郎神、周文王、闻仲、余元。
2021.11.25 增加MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining, 生物医学领域的中文预训练模型.
2021.11.24 增加TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning, Token-aware对比学习预训练模型.
2021.10.18 增加Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese,基于语言学信息融入和训练加速等方法研发了 Mengzi 系列模型.
2021.10.14 增加中文版BART,训练比较可靠的中文版BART，为中文生成类任务如摘要等提供Baseline.
2021.10.14 增加CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation,CPT：兼顾理解和生成的中文预训练模型.
2021.10.13 增加紫东太初多模态大模型: 全球首个多模态图文音预训练模型,实现了视觉-文本-语音三模态统一表示，构建了三模态预训练大模型。
2021.09.19 增加CogView: Mastering Text-to-Image Generation via Transformers,世界最大的中文多模态生成模型,模型支持文生成图为基础的多领域下游任务.
2021.09.10 增加WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training，首个中文通用图文多模态大规模预训练模型。
2021.09.10 增加EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training，一个开放领域的中文对话预训练模型。
2021.08.19 增加Chinese-Transformer-XL：基于中文预训练语料WuDaoCorpus（290G）训练的GPT-3模型。
2021.08.16 增加CPM-2: Large-scale Cost-effective Pre-trained Language Models
2021.08.16 增加Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
2021.07.19 增加roformer-sim-v2：利用标注数据增强版本
2021.07.15 增加BERT-CCPoem：古典诗歌语料训练的BERT
2021.07.06 增加ChineseBERT：Chinese Pretraining Enhanced by Glyph and Pinyin Information
2021.06.22 增加StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
2021.06.14 增加RoFormer：Enhanced Transformer with Rotary Position Embedding
2021.05.25 增加ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding
2021.04.28 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation
2021.03.16 增加T5-PEGASUS: 开源一个中文生成式预训练模型
2021.03.09 增加UER系列模型
2021.03.04 增加WoBERT: 基于词颗粒度的中文
2020.11.11 初始化BERT系列模型BERT

Name		Name	Last commit message	Last commit date
Latest commit History 130 Commits
LICENSE		LICENSE
README.md		README.md

License

ZouRuia/awesome-pretrained-chinese-nlp-models

Folders and files

Latest commit

History

Repository files navigation

Awesome Pretrained Chinese NLP Models

模型开源平台

Expand Table of Contents

NLU系列

BERT

ChineseBERT

RoBERTa

ALBERT

NEZHA

MacBERT

WoBERT

XLNET

ELECTRA

ZEN

ERNIE

ERNIE3

RoFormer

StructBERT

Lattice-BERT

Mengzi-BERT

Bloom

TaCL

MC-BERT

二郎神

PERT

MobileBERT

GAU-α

DeBERTa

GlyphBERT

CKBERT

LERT

NLG系列

GPT

GPT-3

NEZHA-Gen

CPM-Generate

T5

T5-PEGASUS

Mengzi-T5

PanGu-Alpha

EVA

BART

闻仲

余元

RWKV

PromptCLUE

ChatYuan

SkyText

NLU-NLG系列

UniLM

Simbert

RoFormer-sim

周文王

CPM-2

CPT

GLM

PLUG

OPD

Multi-Modal

WenLan

CogView

紫东太初

Mengzi-oscar

R2D2

Chinese-CLIP

TaiYi-CLIP

AltCLIP

AltDiffusion

Taiyi-Stable-Diffusion

wukong

Table

SDCUP

LLM

更新

Packages