SpeechRecognize

SpeechRecognize[audio]

audio 中の音声を認識し，これを文字列として返す．

SpeechRecognize[audio,level]

指定された構造レベルの文字列のリストを返す．

SpeechRecognize[audio,level,prop]

指定されたレベルにおけるテキストの prop を返す．

詳細とオプション

音声認識は，発せられた音声信号をテキストに変換することを目指している．これは音声読上げとしても知られるもので，音声機能を有効にした人間と機械のインタラクションやデジタルのパーソナルアシスタントによく使われる．
SpeechRecognize[audio]は，audio 中の認識したすべての音声を単一の文字列として返す．

次は，level で指定される構造化要素である．

	Automatic	音声信号全体で見付かった音声（デフォルト）
	"Segment"	文字起こしの断片のリスト
	"Sentence"	文のリスト
	"Word"	単語のリスト

特性 prop は，以下のいずれでもよい．

	"Audio"	認識されたテキストを含む切り取られた音声
	"Confidence"	認識されたテキストの強さ
	"Interval"	テキストを含んでいる区間
	"SubtitleRules"	時間区間とテキストのリスト
	"Text"	認識されたテキスト（デフォルト）
	{prop₁,prop₂,…}	特性のリスト

次は，使用可能なオプションである．

Language	Automatic	認識する言語
Masking	All	関心区間
Method	Automatic	使用するメソッド
PerformanceGoal	$PerformanceGoal	最適化しようとするパフォーマンスの局面
ProgressReporting	$ProgressReporting	計算の進捗状況を報告するかどうか
TargetDevice	"CPU"	認識を実行するデバイス

Languagelang₁lang₂を使って言語 lang₁であると仮定される音声を認識し，言語 lang₂に翻訳されたテキストを返す．
デフォルトで，信号全体の音声が認識される．Masking->{int₁,int₂,…}を使って認識を区間 int_iに限定する．
次は，Methodの可能な設定である．

	Automatic	自動メソッド
	"GoogleSpeech"	Google speech-to-textを使う
	"NeuralNetwork"	組込みのニューラルネットワークを使う
	"OpenAI"	OpenAI speech-to-textを使う

デフォルトで，メソッドが（拍手等の）言語以外のトークンを返すと，それが結果に含まれる．Method{method,"NonSpeechReplacement"replacements}を使って代替物での置換を指定する．"NonSpeechReplacement"""とすると言語以外のものが削除される．
SpeechRecognizeは，英語の以外にも，中国語，オランダ語，フランス語，日本語，スペイン語等のさまざまな言語に使うことができる．
SpeechRecognizeは機械学習を使う．含まれるメソッド，訓練集合，バイアスはWolfram言語のバージョンによって異なることが考えられる．そのため，与えられる結果も異なることがある．
SpeechRecognizeはリソースをダウンロードすることがある．ダウンロードされたリソースは，$LocalBaseのローカルなオブジェクトストアに保存され，LocalObjects[]でリストしたりResourceRemoveで削除したりできる．

例題

すべて開くすべて閉じる

例 (2)

音声信号中の音声を認識する：

録音中の音声を認識する：

スコープ (4)

基本的な用法 (2)

短い音声トラックの音声を認識する：

動画ファイルの音声トラックの音声を認識する：

英語以外の言語の音声を認識する：

認識されたテキストの言語を分類する：

もとの音声の言語を分類する：

レベル指定 (1)

デフォルトで，認識されたテキストはすべて1つの文字列として返される：

認識される文のリストを抽出する：

単語のリストを抽出する：

通常字幕のためにテキストを分割するために使われる，断片のリストを抽出する：

特性 (1)

デフォルトで，認識された音声は文字列あるいは文字列のリストとして返される：

音声のチャンクに対応する音声区間と認識強度を返す：

オプション (3)

Masking (1)

Maskingオプションを使って信号の一部を認識する：

Method (1)

デフォルトで，音声認識には局所モデルが使われる：

OpenAIの音声認識を使う：

GoogleSpeechの音声認識を使う：

PerformanceGoal (1)

デフォルトで，中程度の品質と速さのモデルが使われる：

結果を速く入手する：

より高品質の結果を入手する：

質と速度のバランスが取れた結果：

アプリケーション (4)

AudioIntervalsを使って信号中の認識する部分を選択する：

発音された都市名を解釈する：

認識した都市を地図上に示す：

発せられた質問の答をテキスト中に求める：

Wolfram|Alphaに基づいた自動音声アシスタントを構築する：

トップへ

その他のラーニングリソース

テクニカルサポート

大人用の教育プログラム

若者のための教育プログラム

イベント

Wolframイニシアチブ

教育リソース

趣味とプロジェクト

Wolframソリューション

教育のためのWolframソリューション

使い始める

Grow Your Skills

Wolframと繋がる

読む

大人用の教育プログラム

若者のための教育プログラム

イベント

SpeechRecognize

詳細とオプション

例題

例 (2)

スコープ (4)

基本的な用法 (2)

レベル指定 (1)

特性 (1)

オプション (3)

Masking (1)

Method (1)

PerformanceGoal (1)

アプリケーション (4)

テキスト

CMS

APA

BibTeX

BibLaTeX

SpeechRecognize

詳細とオプション

例題

例 (2)

スコープ (4)

基本的な用法 (2)

レベル指定 (1)

特性 (1)

オプション (3)

Masking (1)

Method (1)

PerformanceGoal (1)

アプリケーション (4)

関連項目

関連するガイド

履歴

テキスト

CMS

APA

BibTeX

BibLaTeX