GOT-OCR-2-GUI

See English version here

⚠️CLI 版本暂时停止更新，在 GUI 做好后，我需要将其重做成能够从命令行接受参数的形式，以便适应自动化操作⚠️
⚠️这两周我要做课设，更新得停一下了⚠️

关于此项目

模型权重：镜像站，原站点
原GitHub：GOT-OCR2.0
感谢 GLM4 提供的一部分代码（技术太菜了，所以不得不用一下 AI ）
这个项目是在 Windows 下开发的，我本人没用过也不会 Linux，不能确保它能够在 Linux 下正常运行，如果你要在 Linux 下部署，可以参考一下这个 issue

点个star吧

使用方法

如果这里面提到的文件夹你没有，那就新建一个

依赖

此环境在python 3.11.9下经过测试能够正常工作

torch

从torch官网选择适合自己的GPU版本的torch安装即可
我用的是 Stable 2.4.1 + cu124 ，建议你也用这个版本

FlashAttention

不是强制要求，不过如果你想安装的话可以看#12

PyMuPDF

实测如果直接从requirements.txt里安装的话会报ModuleNotFoundError: No module named 'frontend' ，但单独安装的话就不会这样，具体原因不清楚
另外，如果还是报ModuleNotFoundError的话就先卸载fitz和PyMuPDF，再重新安装一次应该能解决，实测pip install -U PyMuPDF 是没用的

pip install fitz
pip install PyMuPDF

使用`pip`安装

pip install -r requirements.txt

另，有人提到了自己使用requirements.txt安装依赖时出现了冲突问题，但我这里没有发现问题，pipdeptree 也没有显示任何冲突项，requirements.txt是直接pip freeze的我自己的虚拟环境的，按理来说应该没问题。
但由于确实出现了这样的问题，这里再提供一个不带版本号的requirements-noversion.txt，你可以试试看：更多信息请查看这个 issue #4

pip install -r requirements-noversion.txt

其他

Edge WebDriver ，下载压缩包，放进edge_driver文件夹中

大伙的电脑里应该都有 edge 吧？应该吧？这玩意可是预装的来着......
文件结构应该是：
GOT-OCR-2-GUI
└─edge_driver
   ├─msedgedriver.exe
   └─...

下载模型文件

下载到models文件夹中
别少下载文件了

文件结构应该是：

GOT-OCR-2-GUI
└─models
   ├─config.json
   ├─generation_config.json
   ├─got_vision_b.py
   ├─model.safetensors
   ├─modeling_GOT.py
   ├─qwen.tiktoken
   ├─render_tools.py
   ├─special_tokens_map.json
   ├─tokenization_qwen.py
   └─tokenizer_config.json

开始使用

如果你想用命令行，那就用CLI.py
如果你想用图形界面，那就用GUI.py
如果你想修改设置，那就用Config Manager.py
如果你想执行自动化的渲染操作，那就用Renderer.py，它会自动渲染imgs文件夹里所有的.jpg和.png图片

用 GUI 的可以不管，不过用 CLI 的各位记得把要OCR的图放进imgs文件夹里（ CLI 目前只检测.jpg和.png图片）

本地化支持

你可以在Locales文件夹中找到各种语言的.json文件，CLI 和 GUI 的语言文件是分开存储的
在gui子文件夹中，除了语言.json文件，还有一个instructions文件夹，里面是 GUI 的内置教程，命名为语言.md
要修改语言支持，只需要修改config.json中的'language'的值，可用的选择就是语言.json的不带扩展名的文件名
如果要添加语言支持，在 CLI 中，只需要添加新的语言.json（我强烈建议你使用已经存在的文件作为起点），在 GUI 中，还需要配套的语言.md文件
你可以使用Config Manager.py来管理语言及其他配置文件

注意事项

脚本闪退的话可以试一下用cmd跑python +文件名，我自己测试时会出现闪退的情况，我也不知道为什么
result文件夹里的markdown-it.js不要删除，否则 pdf 导出会出错！

如果你不小心删除了，可以在scripts文件夹里找到备份，复制一份过去就行了

确保你安装的torch是 gpu 版本，因为脚本里用了device_map='cuda'

常见问题

Q：什么是“HTML本地文件”？难道还有没保存在本地的HTML文件吗？
A：因为模型输出的HTML文件虽然保存在本地，但使用了外部脚本，因此即使文件在本地，还是需要网络来打开它。于是我把外部脚本下载了进来，就是前面提到的 mardown-it.js 。这么做主要是防止网络问题造成的PDF导出失败。
Q：为什么我的模型加载失败了？
A：检查一下你是不是少了文件。从百度云下载的模型文件似乎缺少了文件，我建议你去前面提到的 Huggingface 下载。
Q：有什么部署这个项目的建议吗？
A：看这个issue #5

简单的教程

GUI 的教程已经内置到了 UI 中，直接打开 GUI 就能看到了，这里给 CLI 用户提供教程

模式

`OCR` 模式

ocr: 标准OCR
format: 带格式的OCR

`fine-grained` 模式

fine-grained-ocr: 在特定框内进行OCR内容识别
fine-grained-format: 在特定框内进行OCR内容及格式识别
fine-grained-color-ocr: 在特定颜色的框内进行OCR内容识别（我还没尝试过，但看起来你需要先画一个红/绿/蓝框，然后在GUI中选择颜色）
fine-grained-color-format: 在特定颜色的框内进行OCR内容及格式识别

`multi-crop` 模式

适用于更复杂的图像

`render` 模式

已存在的文件将被覆盖！！！点击按钮前请检查文件路径！！！
渲染OCR内容并将其保存为HTML文件
将保存为UTF8编码和GB2312编码文件
你可以将HTML转换为PDF

如何渲染

CLI将自动获取图像名称
HTML文件将保存在 result 文件夹中
如果你想将HTML转换为PDF，只需在CLI询问时输入 y

Name		Name	Last commit message	Last commit date
Latest commit History 270 Commits
.github/ISSUE_TEMPLATE		.github/ISSUE_TEMPLATE
Configs		Configs
Locales		Locales
gguf		gguf
result		result
scripts		scripts
.gitattributes		.gitattributes
.gitignore		.gitignore
CLI.py		CLI.py
Config Manager.py		Config Manager.py
GUI.py		GUI.py
LICENSE		LICENSE
README-en.md		README-en.md
README.md		README.md
Renderer.py		Renderer.py
requirements-noversion.txt		requirements-noversion.txt
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GOT-OCR-2-GUI

See English version here

关于此项目

最新开发进度

使用方法

依赖

torch

FlashAttention

PyMuPDF

使用`pip`安装

其他

下载模型文件

开始使用

本地化支持

注意事项

常见问题

简单的教程

模式

`OCR` 模式

`fine-grained` 模式

`multi-crop` 模式

`render` 模式

如何渲染

Star History

About

Releases

Packages

Contributors 2

Languages

License

XJF2332/GOT-OCR-2-GUI

Folders and files

Latest commit

History

Repository files navigation

GOT-OCR-2-GUI

See English version here

关于此项目

最新开发进度

使用方法

依赖

torch

FlashAttention

PyMuPDF

使用pip安装

其他

下载模型文件

开始使用

本地化支持

注意事项

常见问题

简单的教程

模式

OCR 模式

fine-grained 模式

multi-crop 模式

render 模式

如何渲染

Star History

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

使用`pip`安装

`OCR` 模式

`fine-grained` 模式

`multi-crop` 模式

`render` 模式

Packages