"AudioSTFT" (ネットエンコーダ)

関連項目
- 関数
- NetEncoder
- Audio
- SpectrogramArray
- AudioResample
- ConformAudio
- NetChain
- NetGraph
- NetTrain
- ネットエンコーダ
- Audio
- AudioSpectrogram
- AudioMelSpectrogram
- AudioMFCC
関連するガイド
- ニューラルネットワーク
テクニカルノート
- Wolfram言語におけるニューラルネットワーク
- 関連項目
  - 関数
  - NetEncoder
  - Audio
  - SpectrogramArray
  - AudioResample
  - ConformAudio
  - NetChain
  - NetGraph
  - NetTrain
  - ネットエンコーダ
  - Audio
  - AudioSpectrogram
  - AudioMelSpectrogram
  - AudioMFCC
- 関連するガイド
  - ニューラルネットワーク
- テクニカルノート
  - Wolfram言語におけるニューラルネットワーク

"AudioSTFT" (ネットエンコーダ)

NetEncoder["AudioSTFT"]

音声ファイルまたはオブジェクトを短時間フーリエ変換（STFT）するエンコーダを表す．

NetEncoder[{"AudioSTFT,"param"->val,…}]

前処理のための特定のパラメータを持つエンコーダを表す．

詳細

"AudioSTFT"エンコーダは，信号を分割し，各パーティションに窓関数を掛け，一つ一つのフーリエ変換を計算する．フーリエ変換の結果は複素数であり，エンコーダはそれぞれに実部と虚部のリストを返す．情報が失われないため，もとの信号をSTFTから再構築できる．
NetEncoder[…][input]はエンコーダを入力に適用し，"Real32" NumericArrayを作る.
NetEncoder[…][{input₁,input₂,…}]はエンコーダを入力のリストに適用し，NumericArrayオブジェクトのリストを作る．
NumericArrayを入力として与えると，出力はNumericArrayとなる．
エンコーダへの入力はAudioオブジェクトまたはFile[…]式が使える．
エンコーダの出力は，次元{n,ws,2}のランク3のテンソルであり，n は前処理が適用されたあとのパーティションの数で，ws は計算に使われるパーティションの長さである．最後の次元は結果の実部と虚部を表す．
ネットワークの構築時に"port"->NetEncoder[…]と指定すると，エンコーダをネットワークの入力ポートに付加することができる．

パラメータ

以下の一般的なパラメータが使用できる：

"Augmentation"	None	増加の適用
"Normalization"	None	正規化するかどうか
"SampleRate"	16000	ターゲットのサンプルレート
"TargetLength"	All	ターゲットの出力の長さ

追加の分割パラメータ：

"WindowSize"	Automatic	パーティションの長さ
"Offset"	Automatic	パーティションのオフセット
"WindowFunction"	Automatic	パーティションに適用される窓

各エンコーダのパラメータに以下の設定とサブオプションが指定できる．
"Normalization"は以下の設定を取ることができる：

	None	正規化なし
	"Max"	絶対最大値を1に正規化する
	{"Max",val}	絶対最大値を val に正規化する
	{"RMS",val}	入力音声信号のRMSを val に正規化する

"TargetLength"は以下の設定を取ることができる：
All 入力信号と同じ

dur 時間の量として指定される長さ dur

n 最初の n 個のパーティション
指定された"TargetLength"が入力信号の長さと合わない場合は，必要に応じて充填または刈込みが適用される．
"Augmentation"は以下のキーで，規則のリストとして指定できる：

"Convolution"	None	インパルス応答を入力にたたみ込む
"Noise"	None	入力にノイズを加える
"TimeShift"	None	入力を指定の量シフトする
"Volume"	None	入力に係数を掛ける

増加のパラメータで数値を受け付けるものは，2つの数のリストまたは一変数分布としても指定することができる．前者の場合，数値は与えられた範囲の一様分布に基づいてランダム化される．後者の場合は，ユーザ供給の分布が使われる．
"Convolution"の可能な値には以下のものがある：
None 増加なし

signal 入力にたたみ込む File または Audio

{mix,signal} 入力と mix パラメータにたたみ込む信号
"Noise"の可能な値には以下のものがある：

	None	増加なし
	amp	振幅 amp を伴うホワイトノイズ
	noise	追加するノイズ信号を含む File または Audio オブジェクト
	{amp,noise}	指定の振幅のノイズ信号

"TimeShift"->t を使うと，入力を t 秒シフトすることができ，必要に応じて充填または刈込みが行われる．入力を s×dur 秒シフトできる．ここで，dur は入力信号の時間的長さである．{t₁,t₂}またはScaled[{ts₁,t₂}]を使うと，指定時間同士の間のシフトをランダム化することができる．
"Volume"->val を使うと，係数器を指定することができる．
パラメータ"WindowSize"->Automaticを使うと，パーティションの長さには25ミリ秒が使われる．"WindowSize"->dur を使うと，時間の長さ dur のパーティションを選ぶことができる．"WindowSize"->n を使うと，n 個のサンプルのパーティションの長さを選ぶことができる．
パラメータ"Offset"->Automaticを使うと，8.33ミリ秒のパーティションのオフセットが使われる．"Offset"->dur を使うと，時間の長さ dur のパーティションオフセットを選択できる．"Offset"->n を使うと，n 個のサンプルのパーティションオフセットを選択できる．
パラメータ"WindowFunction"は，窓を各パーティションに適用する．可能な設定には以下のものがある：

	None	入力音声に窓掛けを適用しない
	Automatic
	func	窓を関数 func を使って計算する
	list	サンプルの窓 list を明示する

例題

すべて開くすべて閉じる

例 (2)

短時間フーリエ変換のNetEncoderを作る：

Audioオブジェクトを作る：

エンコーダをAudioオブジェクトに適用する：

エンコーダの結果の実部をプロットする：

スコープ (3)

NetEncoder["AudioSTFT"]はFileまたはAudioオブジェクトを符号化できる．以下では音声の短時間フーリエ変換のエンコーダを作る：

エンコーダをFileオブジェクトに適用する：

エンコーダをインコアのAudioオブジェクトに適用する：

エンコーダをアウトオブコアのAudioオブジェクトに適用する：

Audioオブジェクトのリストを作る：

NetEncoder["AudioSTFT"]は入力のバッチにマップする：

音声の短時間フーリエ変換のNetEncoderを作る：

エンコーダをネットワークの入力に付加する：

ネットワークをAudioオブジェクトに適用する：

パラメータ (6)

"Normalization" (1)

Audioオブジェクトを作る：

エンコーダの指定を"Normalization"->Noneにすると，正規化されない：

正規化は，短時間フーリエ変換が計算される前に信号に適用されるので，結果の範囲は保証されない：

エンコーダの指定を"Normalization"->Automaticにすると，波形サンプルの最大絶対値を1.として正規化する：

結果の最小値と最大値を求める：

"SampleRate" (2)

Audioオブジェクトを作る：

エンコーダの指定を"SampleRate"8000にすると，短時間フーリエ変換が行われる前に，信号が8000Hzにリサンプリングされる：

"SampleRate"のパラメータは，デフォルトのウィンドウのサイズに影響する：

エンコーダのサンプルレートがもとの音声よりも低いと，ウィンドウが短くなる：

エンコーダのサンプルレートがもとの音声よりも高いと，ウィンドウが長くなる：

"TargetLength" (1)

Audioオブジェクトを作る：

エンコーダの指定を"TargetLength"Allにすると，すべてのデータについての短時間フーリエ変換が返される：

エンコーダの指定を"TargetLength"10にすると，充填ゼロで出力の長さが10になる：

エンコーダの指定を"TargetLength"2にすると，最初の２つのパーティションのみを取る：

"WindowSize" (1)

Audioオブジェクトを作る：

パーティションの長さは自動的に25ms で計算される：

エンコーダの指定を"WindowSize"600にすると，600個のサンプルのパーティションを使った短時間フーリエ変換が返される：

"Offset" (1)

Audioオブジェクトを作る：

パーティションのオフセットは自動的にパーティションの長さの1/3に計算される：

エンコーダの指定を"Offset"10にすると，10個のサンプルのオフセットと一緒にパーティションを使った短時間フーリエ変換が返される：

特性と関係 (2)

Audioオブジェクトを作る：

音声の短時間フーリエ変換のNetEncoderを作る：

結果の長さはCeiling[length/offset]として計算される．length はリサンプリングの後の信号の長さであり，offset はエンコーダの"Offset"パラメータである：

"AudioSTFT"に等しい計算は，ShortTimeFourierに基づいている：

結果を比較する：

考えられる問題 (1)

もし入力が多チャンネル信号なら，それらのチャンネルの平均が計算に使われる：

結果が同じであることを確かめよう：

Top

その他のラーニングリソース

テクニカルサポート

Wolframソリューション

教育のためのWolframソリューション

使い始める

Grow Your Skills

Wolframと繋がる

大人用の教育プログラム

若者のための教育プログラム

読む

"AudioSTFT" (ネットエンコーダ)

詳細

パラメータ

例題

例 (2)

スコープ (3)

パラメータ (6)

"Normalization" (1)

"SampleRate" (2)

"TargetLength" (1)

"WindowSize" (1)

"Offset" (1)

特性と関係 (2)

考えられる問題 (1)

	All	入力信号と同じ
	dur	時間の量として指定される長さ dur
	n	最初の n 個のパーティション

	None	増加なし
	signal	入力にたたみ込む File または Audio
	{mix,signal}	入力と mix パラメータにたたみ込む信号

"AudioSTFT" (ネットエンコーダ)

詳細

パラメータ

例題

例 (2)

スコープ (3)

パラメータ (6)

"Normalization" (1)

"SampleRate" (2)

"TargetLength" (1)

"WindowSize" (1)

"Offset" (1)

特性と関係 (2)

考えられる問題 (1)

関連項目

テクニカルノート

関連するガイド

履歴