根据语义相似度搜索电影台词
当时想找电影某句台词的上下文,看了现有几个网站(如:找台词等),虽然可以实现功能,但都是关键字匹配,所以才有了这个项目
项目运行分为两步:
- 将电影字幕向量化,本项目使用的是
bge-m3
,需要手动下载到model
目录下。sh run_vectorization.sh
- 根据某一句话搜索台词,
query
参数为要搜索的查询。示例:sh search_subtitle.sh
conf/
:项目配置文件data/subtitles
:字幕数据,支持单个文件或者文件夹model/
:向量化模型文件位置sbin/
:运行脚本src/
:项目源码文件
- 目前结搜索果展示上下5句台词
- 仅支持srt格式的字幕
- 字幕文件编码格式为
utf-8