SpeechRecognize

SpeechRecognize[audio]

识别 audio 中的语音并以字符串形式返回.

SpeechRecognize[audio,level]

返回指定结构层级上的字符串列表.

SpeechRecognize[audio,level,prop]

返回指定层级上的文字的 prop.

更多信息和选项

  • 语音识别旨在将语音音频信号转换为文字. 它也称为语音转文字,通常用于启用语音的人机交互和数字个人助手.
  • SpeechRecognize[audio] 以单个字符串返回 audio 中所有识别的语音.
  • level 指定的结构元素包括:
  • Automatic在所有音频信号中找到的语音(默认)
    "Segment"转录片段列表
    "Sentence"句子列表
    "Word"单词列表
  • 属性 prop 可为以下内容:
  • "Audio"包含已识别文本的修剪过的音频
    "Confidence"识别出的文字的强度
    "Interval"包含特定文字的片段
    "SubtitleRules"时间段和文字列表
    "Text"识别出的文本(默认)
    {prop1,prop2,}属性列表
  • 可以给出以下选项:
  • LanguageAutomatic要识别的语种
    Masking All兴趣区间
    Method Automatic使用方法
    PerformanceGoal $PerformanceGoal优化的目标
    ProgressReporting$ProgressReporting是否报告计算进度
    TargetDevice"CPU"执行识别的设备
  • Languagelang1lang2 识别假定语言为 lang1 的语音,返回翻译成 lang2 的文本.
  • 默认情况下,识别整个信号中的语音. 使用 Masking->{int1,int2,} 限制识别为区间 inti.
  • Method 的可能设置有:
  • Automatic自动选择方法
    "GoogleSpeech"使用谷歌语音转文字
    "NeuralNetwork"使用内置神经网络
    "OpenAI"使用 OpenAI 语音转文字
  • 默认情况下,如果某种方法返回非语音 token(如 [applause]),将在结果中返回这些内容. 可通过 Method{method,"NonSpeechReplacement"replacements} 指定不同的内容进行替换. 也可用 "NonSpeechReplacement""" 删除这些内容.
  • SpeechRecognize 适用于英语语音以及各种其他语言,例如中文、荷兰语、法语、日语和西班牙语.
  • SpeechRecognize 使用机器学习. 在不同版本的 Wolfram 语言中,其方法、训练集和偏差可能会改变并给出不同的结果.
  • SpeechRecognize 可能下载资源存储在 $LocalBase 的本地对象存储并使用 LocalObjects[] 列出,使用 ResourceRemove 删除.

范例

打开所有单元关闭所有单元

基本范例  (2)

识别语音信号中的语音:

识别录音中的语音:

范围  (4)

基本用法  (2)

识别一段简短音频中的语音:

识别视频文件中音轨的语音:

识别非英文语音:

识别出的文本的语种:

识别原始音频的语种:

层级指定  (1)

默认情况下,所有识别的文本都作为一个字符串返回:

提取已识别句子的列表:

提取单词列表:

提取片段列表,通常用于分割字幕文本:

属性  (1)

默认情况下,以字符串或字符串列表的形式返回识别出的语音:

返回语音片段、相应的音频块和识别的强度:

选项  (3)

Masking  (1)

使用 Masking 选项识别部分信号:

Method  (1)

默认情况下,使用本地模型进行语音识别:

使用 OpenAI 的语音识别:

使用 GoogleSpeech 的语音识别:

PerformanceGoal  (1)

默认情况下,使用中等质量的中速模型:

快速得到结果:

质量更重要:

兼顾速度与质量:

应用  (4)

使用 AudioIntervals 选择识别的信号部分:

识别一个用语音说的城市:

在地图上显示识别的城市:

找到文本中口头问题的答案:

基于 Wolfram|Alpha 构建自动助手:

Wolfram Research (2019),SpeechRecognize,Wolfram 语言函数,https://reference.wolfram.com/language/ref/SpeechRecognize.html (更新于 2024 年).

文本

Wolfram Research (2019),SpeechRecognize,Wolfram 语言函数,https://reference.wolfram.com/language/ref/SpeechRecognize.html (更新于 2024 年).

CMS

Wolfram 语言. 2019. "SpeechRecognize." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2024. https://reference.wolfram.com/language/ref/SpeechRecognize.html.

APA

Wolfram 语言. (2019). SpeechRecognize. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/SpeechRecognize.html 年

BibTeX

@misc{reference.wolfram_2024_speechrecognize, author="Wolfram Research", title="{SpeechRecognize}", year="2024", howpublished="\url{https://reference.wolfram.com/language/ref/SpeechRecognize.html}", note=[Accessed: 24-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_speechrecognize, organization={Wolfram Research}, title={SpeechRecognize}, year={2024}, url={https://reference.wolfram.com/language/ref/SpeechRecognize.html}, note=[Accessed: 24-November-2024 ]}