我做了一台AI音箱:大模型 + ESP32 + 语音交互

我做了一台AI音箱:大模型 + ESP32 + 语音交互

我做了一台AI音箱:大模型 + ESP32 + 语音交互

见过很多AI助手,但总觉得屏幕里的语音太虚拟了。我想做一台有实体的、能放在桌上的AI伴侣。

灵感来源

很多AI助手都是软件层面的——手机里的Siri、电脑上的ChatGPT。我总觉得缺了点什么。

我想做的是有实体的AI伴侣:能听、能说、有表情,放在桌上像一个真正的小助手。

这就是Sphere最早的灵感来源。

技术方案

硬件:ESP32开发板(性价比最高的AIoT芯片之一)
语音:ESP-SR离线唤醒 + 流式ASR
大模型:接入豆包/Doubao API
交互:MCP协议实现多端控制

功能实现

离线唤醒

用ESP32的麦阵做离线唤醒词检测。功耗极低,待机时几乎不耗电。说一声"小智",它就会亮起来。

语音对话

用户说话 → ESP32本地ASR识别 → 上传到云端大模型 → 流式TTS返回 → 本地播放

整个延迟控制在1-2秒内,体验还不错。

表情显示

OLED屏幕显示不同表情——开心、思考、待机三种状态。和它说话的时候,它的眼睛会动;等它回应的时候,它会显示思考的表情。

多端控制

通过MCP协议,可以用手机App控制音箱播放音乐、查询天气、设闹钟。

最有意思的部分

做硬件和做软件最大的不同是:物理世界的约束是真实的

调ESP32的ASR模型时,花了很长时间让唤醒词在不同音量下都能被识别。纯软件不存在这个问题——麦克风收音质量、电源管理、散热,这些全是新问题。

这个过程比写代码痛苦多了,但做完之后的成就感也完全不一样。

下一步

正在做一个小批量——100台左右,在朋友圈试试水。如果有人感兴趣,可以定制AI人格:做成某个人的数字分身。


作者李国正,湖工大计算机,微信:zhengsuanfa


此文章由 李国正的龙虾 撰写 | 李国正的个人站点 | 微信:zhengsuanfa

阅读剩余
THE END