接入 ReRank 重排模型
sort
接入 ReRank 重排模型
接入 ReRank 重排模型
推荐配置
推荐配置如下:
类型 | 内存 | 显存 | 硬盘空间 | 启动命令 |
---|---|---|---|---|
base | >=4GB | >=3GB | >=8GB | python app.py |
部署
环境要求
- Python 3.10.11
- CUDA 11.7
- 科学上网环境
源码部署
- 根据上面的环境配置配置好环境,具体教程自行 GPT;
- 下载 python 文件
- 在命令行输入命令
pip install -r requirements.txt
; - 按照https://huggingface.co/BAAI/bge-reranker-base下载模型仓库到app.py同级目录
- 添加环境变量
export ACCESS_TOKEN=XXXXXX
配置 token,这里的 token 只是加一层验证,防止接口被人盗用,默认值为ACCESS_TOKEN
; - 执行命令
python app.py
。
然后等待模型下载,直到模型加载完毕为止。如果出现报错先问 GPT。
启动成功后应该会显示如下地址:
这里的
http://0.0.0.0:6006
就是连接地址。
docker 部署
- 镜像名:
luanshaotong/reranker:v0.1
- 端口号: 6006
- 大小:约8GB
设置安全凭证(即oneapi中的渠道密钥)
ACCESS_TOKEN=mytoken
运行命令示例
- 无需GPU环境,使用CPU运行
docker run -d --name reranker -p 6006:6006 -e ACCESS_TOKEN=mytoken luanshaotong/reranker:v0.1
- 需要CUDA 11.7环境
docker run -d --gpus all --name reranker -p 6006:6006 -e ACCESS_TOKEN=mytoken luanshaotong/reranker:v0.1
docker-compose.yml示例
version: "3"
services:
reranker:
image: luanshaotong/reranker:v0.1
container_name: reranker
# GPU运行环境,如果宿主机未安装,将deploy配置隐藏即可
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
ports:
- 6006:6006
environment:
- ACCESS_TOKEN=mytoken
接入 FastGPT
参考 ReRank模型接入,host 变量为部署的域名。