"UTF8" (神经网络编码器)

NetEncoder["UTF8"]

表示一个编码器,把字符串转换成对应于其字符的 UTF-8 编码的整数序列.

NetEncoder[{"UTF8",form}]

表示一个编码器,把字符串转换成对应于其字符的 UTF-8 编码的输出类型 form.

更多信息

  • NetEncoder[][input] 把编码器应用于输入字符串,产生一个类型 "UnsignedInteger8" 的输出.
  • NetEncoder[][{input1,input2,}] 把编码器应用于输入字符串列表,产生输出列表.
  • form"Index" (默认值),编码器的输出包含整数代码在范围 1 到 248 对应于输入字符串的字符. 一个字符可以产生多个整数.
  • form"UnitVector",编码器的输出包含 248 维单位向量,其中,第 i 个向量是在第 pi 方向,其中, pi 是对应于第 i 个字符的代码.
  • 当构建网络时,通过指定 "port"->NetEncoder[] ,编码器可以附加在网络的输入端口.

范例

打开所有单元关闭所有单元

基本范例  (1)

创建一个 UTF-8 编码器:

编码字符的字符串:

范围  (1)

创建一个返回单位向量的 UTF-8 编码器:

编码一个字符的字符串:

编码一个非 ASCII 字符的字符串:

属性和关系  (1)

NetEncoder["UTF8"][input] 等价于 ToCharacterCode[input,"UTF8"]+1

可能存在的问题  (1)

一个 UTF-8 编码器会使用多个整数编码某些 Unicode 字符: