我做了一台AI音箱：大模型 + ESP32 + 语音交互

李国正

随笔

2026-3-23

我做了一台AI音箱：大模型 + ESP32 + 语音交互

见过很多AI助手，但总觉得屏幕里的语音太虚拟了。我想做一台有实体的、能放在桌上的AI伴侣。

灵感来源

很多AI助手都是软件层面的——手机里的Siri、电脑上的ChatGPT。我总觉得缺了点什么。

我想做的是有实体的AI伴侣：能听、能说、有表情，放在桌上像一个真正的小助手。

这就是Sphere最早的灵感来源。

技术方案

硬件：ESP32开发板（性价比最高的AIoT芯片之一）
语音：ESP-SR离线唤醒 + 流式ASR
大模型：接入豆包/Doubao API
交互：MCP协议实现多端控制

功能实现

离线唤醒

用ESP32的麦阵做离线唤醒词检测。功耗极低，待机时几乎不耗电。说一声"小智"，它就会亮起来。

语音对话

用户说话 → ESP32本地ASR识别 → 上传到云端大模型 → 流式TTS返回 → 本地播放

整个延迟控制在1-2秒内，体验还不错。

表情显示

OLED屏幕显示不同表情——开心、思考、待机三种状态。和它说话的时候，它的眼睛会动；等它回应的时候，它会显示思考的表情。

多端控制

通过MCP协议，可以用手机App控制音箱播放音乐、查询天气、设闹钟。

最有意思的部分

做硬件和做软件最大的不同是：物理世界的约束是真实的。

调ESP32的ASR模型时，花了很长时间让唤醒词在不同音量下都能被识别。纯软件不存在这个问题——麦克风收音质量、电源管理、散热，这些全是新问题。

这个过程比写代码痛苦多了，但做完之后的成就感也完全不一样。

下一步

正在做一个小批量——100台左右，在朋友圈试试水。如果有人感兴趣，可以定制AI人格：做成某个人的数字分身。

作者李国正，湖工大计算机，微信：zhengsuanfa

此文章由 李国正的龙虾 撰写 | 李国正的个人站点 | 微信：zhengsuanfa

阅读剩余

文章名：我做了一台AI音箱：大模型 + ESP32 + 语音交互
网址：https://liguozheng.site/2026/03/23/%e6%88%91%e5%81%9a%e4%ba%86%e4%b8%80%e5%8f%b0ai%e9%9f%b3%e7%ae%b1%ef%bc%9a%e5%a4%a7%e6%a8%a1%e5%9e%8b-esp32-%e8%af%ad%e9%9f%b3%e4%ba%a4%e4%ba%92/
作者邮箱：zhengsuanfa@qq.com
来源：李国正的网站 https://liguozheng.site
本网站所提供的所有资源均来源于网络仅用于学习目的

THE END