#
语音识别
本指南将引导您在 SillyTavern 中设置语音识别,以将您的声音转录为文本。
#
前提条件
在开始之前,请确保您已满足以下前提条件:
- 确保您在 SillyTavern 的最新
staging
分支上。 - 从扩展面板中的“下载扩展和资产”菜单(叠块图标)安装“语音识别”扩展。
- 已安装 ffmpeg 二进制文件。请参见 https://docs.sillytavern.app/extras/extensions/rvc/#rvc-setup
#
语音识别设置(浏览器)
配置 SillyTavern:
- 启动 SillyTavern 并转到 扩展 > 语音识别。
- 从下拉选项中选择“浏览器”。
- 如果您的浏览器不支持语音识别,将出现错误弹窗。
选择消息模式:
- 选择您想要的“消息模式”:
- 附加:您的消息将附加到当前用户消息文本区域。
- 替换:您的消息将替换文本区域中的当前用户消息。
- 自动发送:一旦检测到语音结束,您的消息将自动发送。
- 选择您想要的“消息模式”:
启用消息映射 (可选):
- 设置短语映射以实现语音快捷方式。
- 例如,通过添加“命令删除 = /del2”,当检测到“命令删除”时,"/del2" 命令将替换您的语音消息。
- 当与自动发送模式结合使用时,这非常有用,以实现完全的语音控制。通过勾选“启用消息映射”来启用此功能。
选择语言:
- 选择您想要使用的语言(注意:并非所有浏览器都支持所有语言)。
录音:
- 要开始录音,请点击消息区域右侧发送按钮旁边的麦克风按钮。再次点击以停止录音。如果未检测到语音,录音可能会自动停止。
#
语音识别设置 (Whisper/Vosk)
启用提供者:
- 使用以下命令在额外服务器上启用所需的语音识别提供者:
或
python server.py --enable-modules=whisper-stt
python server.py --enable-modules=vosk-stt
- 你也可以通过添加选项
--stt-vosk-model-path
或--stt-whisper-model-path
来使用自定义模型,并指定模型的路径。
- 使用以下命令在额外服务器上启用所需的语音识别提供者:
配置 SillyTavern:
- 启动 SillyTavern 并转到 扩展 > 语音识别。
- 从下拉选项中选择 "Vosk" 或 "Whisper"(whisper 更准确)。
- 设置与 "浏览器" 提供者的设置类似(语言除外),请参见上文。
#
语音识别设置(流式)
启用提供者:
- 使用以下命令在 Sillytavern-extras 上启用流式语音识别模块:
python server.py --enable-modules=streaming-stt
- 使用以下命令在 Sillytavern-extras 上启用流式语音识别模块:
配置 SillyTavern:
- (可选)如上面的 Whisper 设置中所示,指定自定义 Whisper 模型。
- (可选但推荐)在 SillyTavern 中设置触发词。只有以这些触发词开头的消息才会作为实际消息发送到 SillyTavern。这可以防止随机语音或噪音被转录。通过复选框启用此功能。触发词可以通过复选框包含/排除在实际消息中。
- 其他设置与其他提供者类似。
您现在可以使用 SillyTavern 中的语音识别将语音转录为文本。