跳到主要内容
版本:V2.0.5.x

3.7.常见问题


Q1: 如何修改唤醒词?

A:tk_audio_process.py 中修改:

self.wake_up_words = ["天工", "天空", "天宫"]  # 改成你的唤醒词

Q2: 如何增加语音响应速度?

A: 减小 LLM 模型或使用更快的模型:

# 在 llm_client.py 中
self.model = "qwen2.5:0.5b" # 改为更小的模型,但是生成回答的逻辑性会有待验证

Q3: 如何调整 TTS 语速?

A:piper_provider.py 中调整:

self.piper_syn_config = SynthesisConfig(
length_scale=0.8, # < 1.0 更快,> 1.0 更慢
...
)

Q4: 支持多语言吗?

A: 需要下载对应语言的 Piper 模型:

# 下载对应的语种语音模型
https://huggingface.co/rhasspy/piper-voices/tree/main

然后在 piper_provider.py 中修改模型路径。

B: x86上的Funasr也需要重新部署支持英文的模型,参考: https://github.com/modelscope/FunASR

Q5: 如何实现多轮对话记忆?

A: 调整 llm_client.py 中的历史记录长度:

self.history = deque(maxlen=10)  # 保存最近 5 轮(10 条消息)

Q6: 可以离线使用其他 Ollama 模型吗?

A: 可以,但 Ollama 模型需要提前下载:

ollama pull qwen2.5:1.5b

然后修改调用 llm_client 的调用,指定对应的模型。

Q7: 调用 funasr_client 进行语音识别时报错?

到x86机器上检查funasr服务对应的docker容器是否启动:

docker ps|grep asr

Q8: 如何处理网络不稳定?

A: 增加重试机制:

for attempt in range(3):
try:
result = self.asr_service.to_text(audio_bytes)
return result
except Exception as e:
if attempt < 2:
time.sleep(2 ** attempt) # 指数退避
else:
raise