SpeechRecognize

SpeechRecognize[audio]

audio 中の音声を認識し,これを文字列として返す.

SpeechRecognize[audio,level]

指定された構造レベルの文字列のリストを返す.

SpeechRecognize[audio,level,prop]

指定されたレベルにおけるテキストの prop を返す.

詳細とオプション

  • 音声認識は,発せられた音声信号をテキストに変換することを目指している.これは音声読上げとしても知られるもので,音声機能を有効にした人間と機械のインタラクションやデジタルのパーソナルアシスタントによく使われる.
  • SpeechRecognize[audio]は,audio 中の認識したすべての音声を単一の文字列として返す.
  • 次は,level で指定される構造化要素である.
  • Automatic音声信号全体で見付かった音声(デフォルト)
    "Segment"文字起こしの断片のリスト
    "Sentence"文のリスト
    "Word"単語のリスト
  • 特性 prop は,以下のいずれでもよい.
  • "Audio"認識されたテキストを含む切り取られた音声
    "Confidence"認識されたテキストの強さ
    "Interval"テキストを含んでいる区間
    "SubtitleRules"時間区間とテキストのリスト
    "Text"認識されたテキスト(デフォルト)
    {prop1,prop2,}特性のリスト
  • 次は,使用可能なオプションである.
  • LanguageAutomatic認識する言語
    Masking All関心区間
    Method Automatic使用するメソッド
    PerformanceGoal $PerformanceGoal最適化しようとするパフォーマンスの局面
    ProgressReporting$ProgressReporting計算の進捗状況を報告するかどうか
    TargetDevice"CPU"認識を実行するデバイス
  • Languagelang1lang2を使って言語 lang1であると仮定される音声を認識し,言語 lang2に翻訳されたテキストを返す.
  • デフォルトで,信号全体の音声が認識される.Masking->{int1,int2,}を使って認識を区間 intiに限定する.
  • 次は,Methodの可能な設定である.
  • Automatic自動メソッド
    "GoogleSpeech"Google speech-to-textを使う
    "NeuralNetwork"組込みのニューラルネットワークを使う
    "OpenAI"OpenAI speech-to-textを使う
  • デフォルトで,メソッドが(拍手等の)言語以外のトークンを返すと,それが結果に含まれる.Method{method,"NonSpeechReplacement"replacements}を使って代替物での置換を指定する."NonSpeechReplacement"""とすると言語以外のものが削除される.
  • SpeechRecognizeは,英語の以外にも,中国語,オランダ語,フランス語,日本語,スペイン語等のさまざまな言語に使うことができる.
  • SpeechRecognizeは機械学習を使う.含まれるメソッド,訓練集合,バイアスはWolfram言語のバージョンによって異なることが考えられる.そのため,与えられる結果も異なることがある.
  • SpeechRecognizeはリソースをダウンロードすることがある.ダウンロードされたリソースは,$LocalBaseのローカルなオブジェクトストアに保存され,LocalObjects[]でリストしたりResourceRemoveで削除したりできる.

例題

すべて開くすべて閉じる

  (2)

音声信号中の音声を認識する:

録音中の音声を認識する:

スコープ  (4)

基本的な用法  (2)

短い音声トラックの音声を認識する:

動画ファイルの音声トラックの音声を認識する:

英語以外の言語の音声を認識する:

認識されたテキストの言語を分類する:

もとの音声の言語を分類する:

レベル指定  (1)

デフォルトで,認識されたテキストはすべて1つの文字列として返される:

認識される文のリストを抽出する:

単語のリストを抽出する:

通常字幕のためにテキストを分割するために使われる,断片のリストを抽出する:

特性  (1)

デフォルトで,認識された音声は文字列あるいは文字列のリストとして返される:

音声のチャンクに対応する音声区間と認識強度を返す:

オプション  (3)

Masking  (1)

Maskingオプションを使って信号の一部を認識する:

Method  (1)

デフォルトで,音声認識には局所モデルが使われる:

OpenAIの音声認識を使う:

GoogleSpeechの音声認識を使う:

PerformanceGoal  (1)

デフォルトで,中程度の品質と速さのモデルが使われる:

結果を速く入手する:

より高品質の結果を入手する:

質と速度のバランスが取れた結果:

アプリケーション  (4)

AudioIntervalsを使って信号中の認識する部分を選択する:

発音された都市名を解釈する:

認識した都市を地図上に示す:

発せられた質問の答をテキスト中に求める:

Wolfram|Alphaに基づいた自動音声アシスタントを構築する:

Wolfram Research (2019), SpeechRecognize, Wolfram言語関数, https://reference.wolfram.com/language/ref/SpeechRecognize.html (2024年に更新).

テキスト

Wolfram Research (2019), SpeechRecognize, Wolfram言語関数, https://reference.wolfram.com/language/ref/SpeechRecognize.html (2024年に更新).

CMS

Wolfram Language. 2019. "SpeechRecognize." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2024. https://reference.wolfram.com/language/ref/SpeechRecognize.html.

APA

Wolfram Language. (2019). SpeechRecognize. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/SpeechRecognize.html

BibTeX

@misc{reference.wolfram_2024_speechrecognize, author="Wolfram Research", title="{SpeechRecognize}", year="2024", howpublished="\url{https://reference.wolfram.com/language/ref/SpeechRecognize.html}", note=[Accessed: 21-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_speechrecognize, organization={Wolfram Research}, title={SpeechRecognize}, year={2024}, url={https://reference.wolfram.com/language/ref/SpeechRecognize.html}, note=[Accessed: 21-November-2024 ]}