前言
最近因为B站达到了6级,可以升级 - 【硬核会员】,但是它的题却难倒了我!
总共 100 道题,可以选择各个方面的,例如:动画/动漫、知识、影视、音乐、鬼畜、文史、游戏、体育等!
如果使用 搜索引擎或者 AI 问答,还得自己手动输入问题,查找、问答,不仅慢、还烦琐!!!
在经过一阵思索后,决定借用 AI 的图片识别,然后提取问题,结合 AI 问答,得到答案。
使用
项目已上传至 GitHub:https://github.com/junyangfan/ai-image-qa
该项目可以应用于任何问答相关场景,项目使用 Python 语言,会按时轮询截取你的屏幕内容,通过 AI 进行识别,提取出图片中的问题及答案,然后进行问答。
目前已经接入讯飞星火、通义千问模型,其他 AI 模型正在接入中,也欢迎大家提 PR!
注:手机端可以通过投屏到电脑进行问答操作!
- 克隆仓库
git clone https://github.com/junyangfan/ai-image-qa.git
如果你的网络访问不了 GitHub,可以参考文章使用GitHub Proxy代理API:免费 API 代理服务
- 进入目录并安装所需依赖(需要使用 python3.x 环境)
cd ai-image-qa
pip install -r requirements.txt
如果是 Mac M 系列芯片,需要在命令之前加上 arch -arm64
,如下:
arch -arm64 pip install -r requirements.txt
- 配置参数
修改 config.py
文件中的配置参数:
# 通用配置
# 屏幕截图区域配置 (x, y, width, height)
SCREENSHOT_REGION = (100, 280, 300, 400)
# 描述
IMAGE_QA = "提取出图片中的问题和选项,从A、B、C、D四个选项中选择一个正确的答案,并给出选择的原因。"
# 截图间隔配置 (秒)
CAPTURE_INTERVAL = 5
# 星火大模型API的配置,申请地址:https://xinghuo.xfyun.cn/sparkapi
# 修改 SPARKAI_APP_ID、SPARKAI_API_SECRET、SPARKAI_API_KEY 参数,SPARKAI_URL、SPARKAI_DOMAIN 参数无需修改
SPARKAI_APP_ID = 'appId'
SPARKAI_API_SECRET = 'apiSecret'
SPARKAI_API_KEY = 'apiKey'
SPARKAI_URL = 'wss://spark-api.cn-huabei-1.xf-yun.com/v2.1/image'
SPARKAI_DOMAIN = 'image'
# 通义千问大模型API的配置,文档/申请地址:https://help.aliyun.com/zh/model-studio/user-guide/vision
# 修改 ALIYUN_API_KEY 参数,ALIYUN_BASE_URL、ALIYUN_MODEL 参数无需修改
ALIYUN_API_KEY = 'apiKey'
ALIYUN_BASE_URL = 'https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions'
ALIYUN_MODEL = 'qwen-vl-max-latest'
- 运行程序
在本地生成图片,用来测试图片是否符合要求(需要保证问题和答案全都在图片内)
python -m ssi
通义千问 AI 轮询问答
python -m model.qw
讯飞星火 AI 轮询问答
python -m model.xf
- 终止程序
直接在终端中按 Ctrl + C
, 即可终止程序(Mac 为 command + C
)。
其他问题
Q:哪个大模型好点?
A:从我使用国内讯飞星火和通义千问回答知识、文史来说,通义千问正确率在 70% - 80%,而讯飞星火正确率只有 40% - 50%,【仅供参考,不同场景可能会有不同的正确率】
评论区