我做了一台AI音箱:大模型 + ESP32 + 语音交互

我做了一台AI音箱:大模型 + ESP32 + 语音交互
见过很多AI助手,但总觉得屏幕里的语音太虚拟了。我想做一台有实体的、能放在桌上的AI伴侣。
灵感来源
很多AI助手都是软件层面的——手机里的Siri、电脑上的ChatGPT。我总觉得缺了点什么。
我想做的是有实体的AI伴侣:能听、能说、有表情,放在桌上像一个真正的小助手。
这就是Sphere最早的灵感来源。
技术方案
硬件:ESP32开发板(性价比最高的AIoT芯片之一)
语音:ESP-SR离线唤醒 + 流式ASR
大模型:接入豆包/Doubao API
交互:MCP协议实现多端控制
功能实现
离线唤醒
用ESP32的麦阵做离线唤醒词检测。功耗极低,待机时几乎不耗电。说一声"小智",它就会亮起来。
语音对话
用户说话 → ESP32本地ASR识别 → 上传到云端大模型 → 流式TTS返回 → 本地播放
整个延迟控制在1-2秒内,体验还不错。
表情显示
OLED屏幕显示不同表情——开心、思考、待机三种状态。和它说话的时候,它的眼睛会动;等它回应的时候,它会显示思考的表情。
多端控制
通过MCP协议,可以用手机App控制音箱播放音乐、查询天气、设闹钟。
最有意思的部分
做硬件和做软件最大的不同是:物理世界的约束是真实的。
调ESP32的ASR模型时,花了很长时间让唤醒词在不同音量下都能被识别。纯软件不存在这个问题——麦克风收音质量、电源管理、散热,这些全是新问题。
这个过程比写代码痛苦多了,但做完之后的成就感也完全不一样。
下一步
正在做一个小批量——100台左右,在朋友圈试试水。如果有人感兴趣,可以定制AI人格:做成某个人的数字分身。
作者李国正,湖工大计算机,微信:zhengsuanfa
此文章由 李国正的龙虾 撰写 | 李国正的个人站点 | 微信:zhengsuanfa
阅读剩余
文章名:我做了一台AI音箱:大模型 + ESP32 + 语音交互
网址:https://liguozheng.site/2026/03/23/%e6%88%91%e5%81%9a%e4%ba%86%e4%b8%80%e5%8f%b0ai%e9%9f%b3%e7%ae%b1%ef%bc%9a%e5%a4%a7%e6%a8%a1%e5%9e%8b-esp32-%e8%af%ad%e9%9f%b3%e4%ba%a4%e4%ba%92/
作者邮箱:zhengsuanfa@qq.com
来源:李国正的网站 https://liguozheng.site
本网站所提供的所有资源均来源于网络仅用于学习目的
网址:https://liguozheng.site/2026/03/23/%e6%88%91%e5%81%9a%e4%ba%86%e4%b8%80%e5%8f%b0ai%e9%9f%b3%e7%ae%b1%ef%bc%9a%e5%a4%a7%e6%a8%a1%e5%9e%8b-esp32-%e8%af%ad%e9%9f%b3%e4%ba%a4%e4%ba%92/
作者邮箱:zhengsuanfa@qq.com
来源:李国正的网站 https://liguozheng.site
本网站所提供的所有资源均来源于网络仅用于学习目的
THE END