本帖最后由 eefocus_3945884 于 2024-1-25 12:08 编辑
本项目在树莓派上部署CNN卷积神经网络,利用webcam获取实时图像,实现物体识别。同时利用USB声卡实现语音输入与文字识别。当触发语音识别后,会同时进行语音识别与图像识别操作。识别完成后将结果整合,整合后再输入ChatGPT或其他大语言模型。最后再将大语言模型的输出结果利用TTS转化为语音,使用USB声卡进行播放。实现Chatgpt多模态输入(图像输入,语音输入),在赋予ChatGPT视觉的同时添加语音对话能力。
具体实现步骤如下:
1,使用speech_recognition进行语音输入,完成后将语音数据导入google语音识别模型中进行语音识别。
2,检测到语音输入完成后,opencv会从webcam视频流中截取最新的一帧,并利用YOLOv8模型进行图像识别。
3,图像识别的信息与语音识别都得到后进行整合,通过GPT 提示词训练,将所有信息整合成文本并输入ChatGPT。
4,将ChatGPT返回的回复利用Edge-TTS进行播放,完成与具备视觉能力的ChatGPT进行语音交互。
项目一共分为几个部分: 1、IP camera模块制作。 2、驱动,实现用python控制的语音输入输出。 3、语音识别模型调试。 4、OpenCV获取webcam视频流。 5、在树莓派上搭建YOLOv8。 6、基于爬虫的ChatGPT API调试。 7、TTS功能实现。
具体请参考附件中的文档,视频和源代码。
SeeingGPT.rar
(20.01 MB, 下载次数: 1)
|