查看: 183|回复: 0

[项目提交] 给ChatGPT装上眼睛,并且还可以语音对话

[复制链接]
  • TA的每日心情
    开心
    2024-2-1 11:48
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]初来乍到

    发表于 2024-1-22 12:10:38 | 显示全部楼层 |阅读模式
    分享到:
    本帖最后由 eefocus_3945884 于 2024-1-25 12:08 编辑

    本项目在树莓派上部署CNN卷积神经网络,利用webcam获取实时图像,实现物体识别。同时利用USB声卡实现语音输入与文字识别。当触发语音识别后,会同时进行语音识别与图像识别操作。识别完成后将结果整合,整合后再输入ChatGPT或其他大语言模型。最后再将大语言模型的输出结果利用TTS转化为语音,使用USB声卡进行播放。实现Chatgpt多模态输入(图像输入,语音输入),在赋予ChatGPT视觉的同时添加语音对话能力。

    图片1.png
    具体实现步骤如下:

    1,使用speech_recognition进行语音输入,完成后将语音数据导入google语音识别模型中进行语音识别。

    2,检测到语音输入完成后,opencv会从webcam视频流中截取最新的一帧,并利用YOLOv8模型进行图像识别。

    3,图像识别的信息与语音识别都得到后进行整合,通过GPT 提示词训练,将所有信息整合成文本并输入ChatGPT。

    4,将ChatGPT返回的回复利用Edge-TTS进行播放,完成与具备视觉能力的ChatGPT进行语音交互。

    项目一共分为几个部分:
    1、IP camera模块制作。
    2、驱动,实现用python控制的语音输入输出。
    3、语音识别模型调试。
    4、OpenCV获取webcam视频流。
    5、在树莓派上搭建YOLOv8。
    6、基于爬虫的ChatGPT API调试。
    7、TTS功能实现。

    具体请参考附件中的文档,视频和源代码。


    SeeingGPT.rar (20.01 MB, 下载次数: 1)
    回复

    使用道具 举报

    您需要登录后才可以回帖 注册/登录

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条

    手机版|小黑屋|与非网

    GMT+8, 2024-5-2 22:17 , Processed in 0.130088 second(s), 17 queries , MemCache On.

    ICP经营许可证 苏B2-20140176  苏ICP备14012660号-2   苏州灵动帧格网络科技有限公司 版权所有.

    苏公网安备 32059002001037号

    Powered by Discuz! X3.4

    Copyright © 2001-2024, Tencent Cloud.