Skip to content

Releases: pass-lin/bert4keras3

1.6

20 Sep 13:21
4b03529
Compare
Choose a tag to compare

增加了deberta3和qwen2.5的支持,并且把roformer权重转成keras3的形式

1.5

04 Aug 09:26
d80d61b
Compare
Choose a tag to compare
1.5

添加了gemma2的支持,添加了llama3.1-8B的权重

1.4

30 Jul 10:49
f817aa5
Compare
Choose a tag to compare
1.4

新版本可以在build_transformer_model时添加penalty,penalty_window ,max_penalty_range,temperature四个参数。
详情可以参考文档
增加了RWKV6的层及其模型的支持,关于层的详细介绍可以查看文档RWKV_layer.
对于RWKV6更详细的介绍,我们单独创建了一个RWKV6仓库,在这里你可以看到关于本库对RWKV6的详细介绍

1.3

25 Apr 09:21
462d141
Compare
Choose a tag to compare
1.3

重新整理了苏神的代码
更新了对 Gemma,Qwen,和llama系列模型(llama3)的支持

1.2

17 Mar 12:05
1b925d3
Compare
Choose a tag to compare
1.2

增加了对weights.h5的读取支持
增加了lora支持,可以通过设置os.environ["ENABLE_LORA"]='1' 启动lora训练,注意的是除了lora之外的参数全部会被冻结
增加了flash-attention支持,可以通过设置os.environ["FLASH_ATTN"]='1'使用flash-attention
但是需要注意的是,tensorflow不支持。而jax在https://github.com/nshepperd/flash_attn_jax/releases 下载,torch则是
https://github.com/Dao-AILab/flash-attention

1.1

31 Jan 10:51
48d8e7d
Compare
Choose a tag to compare
1.1

更新了支持批量运算的t5-cache推理版本,详细使用参考t5-cache的使用example 。里面较为详细地列出了cache模型要如何使用。
除了T5,还增加了bert
roformer/roformer-v2的cache支持,用法和t5一样,example里只是测试一下与greedy是否一致

1.0

30 Dec 13:47
95eaa45
Compare
Choose a tag to compare
1.0

bert4keras3的第一个版本,实现对bert4keras除了优化器外的keras3实现,同时兼容keras2、tf.keras和keras3