3.1.项目概要
什么是 tkvoice?
tkvoice 是一个完整的基于天工行者(无界/无疆)的离线语音交互系统,集成了三大核心功能:
| 功能 | 简称 | 作用 | 比喻 |
|---|---|---|---|
| 自动语音识别 | ASR | 将用户的语音转换成文本 | 将说话转为打字 |
| 大语言模型 | LLM | 理解文本,生成回答文本 | 理解问题并思考 |
| 文本转语音 | TTS | 将文本转换成机器语音 | 将文字转为语音 |
完整的语音对话流程
用户说话
↓
[ASR] 语音识别 → 获得文本
↓
[LLM] 大语言模型 → 生成回答
↓
[TTS] 文本转语音 → 生成语音
↓
机器说话
为什么使用离线方案?
- ✅ 隐私保护 - 数据不上云,完全本地处理
- ✅ 低延迟 - 不受网络影响,实时交互
- ✅ 可靠性高 - 无网络依赖,无需云服务账号
- ✅ 成本低 - 一次部署,无需服务费
- ⚠️ 资源要求高 - 需要较强的计算能力