"UTF8" (ネットエンコーダ)

NetEncoder["UTF8"]

文字列を,UTF-8の符号化された整数列に変換するエンコーダを表す.

NetEncoder[{"UTF8",form}]

文字列を,UTF-8の符号化に基づいて,出力タイプ form に変換するエンコーダを表す.

詳細

  • NetEncoder[][input]はエンコーダを入力文字列に適用し,出力を作る.
  • NetEncoder[][{input1,input2,}]はエンコーダを入力文字列のリストに適用し,出力のリストを作る.
  • form"Index" (デフォルト)のとき,エンコーダの出力は入力文字列の文字に相当する1から248までの範囲の整数コードからなる.1文字が複数の整数を作ることが可能である.
  • form"UnitVector"のとき,エンコーダの出力は248次元の単位ベクトルからなり,i 番目のベクトルは pi 番目の方向にあり,pii 番目の文字に相当するコードである.
  • ネットワークの構築時に"port"->NetEncoder[]と指定すると,エンコーダをネットワークの入力ポートに付加することができる.

例題

すべて開くすべて閉じる

  (1)

UTF-8のネットエンコーダを作る:

文字列を符号化する:

スコープ  (1)

単位ベクトルを返すUTF-8のエンコーダを作る:

文字列を符号化する:

非ASCII文字列を符号化する:

特性と関係  (1)

NetEncoder["UTF8"][input]ToCharacterCode[input,"UTF8"]+1と同等である:

考えられる問題  (1)

UTF-8のエンコーダは複数の整数を使ってUnicode文字を符号化する: