GatedRecurrentLayer

GatedRecurrentLayer[n]

表示一个可训练的循环层，接受一个向量序列，产生由大小为 n 的向量组成的序列.

GatedRecurrentLayer[n,opts]

包含初始权重和其他参数的选项.

更多信息和选项

GatedRecurrentLayer[n] 表示采用表示向量序列的输入矩阵并输出相同长度序列的网络.
输入序列的每个元素是一个大小为 k 的向量，输出序列的每个元素是一个大小为 n 的向量.
在 NetGraph、NetChain 等中，输入向量的大小 k 通常自动推断得出.
GatedRecurrentLayer[n] 所表示的网络的输入端口和输出端口为：
"Input" 由大小为 k 的向量组成的序列

"Output" 由大小为 n 的向量组成的序列
给定输入序列 {x₁,x₂,…,x_n}，GatedRecurrentLayer 利用下列循环关系式输出状态序列 {s₁,s₂,…,s_n}：

	输入门	i_t=LogisticSigmoid[W_ix.x_t+W_is.s_t-1+b_i]
	重置门	r_t=LogisticSigmoid[W_rx.x_t+W_rs.s_t-1+b_r]
	记忆门	m_t=Tanh[W_mx.x_t+W_ms.(r_t* s_t-1)+b_m]
	状态	s_t=(1-i_t)m_t+i_ts_t-1

GatedRecurrentLayer 的上述定义基于由 Chung 等在 Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, 2014 中描述的变量.
GatedRecurrentLayer[n] 还有一个状态端口 "State"，它是一个大小为 n 的向量.
在 NetGraph 中，可以使用形式为 src->NetPort[layer,"State"] 的连接提供 GatedRecurrentLayer 的状态的初始值，对应于循环关系式中的 s₀. 缺省的初始值为零向量.
在 NetGraph 中，可以用形式为 NetPort[layer,"State"]->dst 的连接来获取 GatedRecurrentLayer 的状态的终值，它对应于循环关系中的 s_T.
NetStateObject 可以用来创建一个网络，该网络将记住当网络应用于输入时 GatedRecurrentLayer 的状态更新后的值.
在大小为 k 的向量上操作的初始化过的 GatedRecurrentLayer[…] 含有下列可训练的数组：

"InputGateInputWeights"	W_ix	大小为 n×k 的矩阵
"InputGateStateWeights"	W_is	大小为 n×n 的矩阵
"InputGateBiases"	b_i	大小为 n 的向量
"ResetGateInputWeights"	W_rx	大小为 n×k 的矩阵
"ResetGateStateWeights"	W_rs	大小为 n×n 的矩阵
"ResetGateBiases"	b_r	大小为 n 的向量
"MemoryGateInputWeights"	W_mx	大小为 n×k 的矩阵
"MemoryGateStateWeights"	W_ms	大小为 n×n 的矩阵
"MemoryGateBiases"	b_m	大小为 n 的向量

在 GatedRecurrentLayer[n,opts] 中，可以用形式为 "array"->value 的规则把初值赋给可训练数组.
可包括以下训练参数：
"Dropout" None dropout 规则，其中，根据概率将单元设为零

LearningRateMultipliers Automatic 可训练数组的学习率乘子
指定 "Dropout"->None 将禁止在训练时进行 dropout.
指定 "Dropout"->p 将以 dropout 概率 p 应用自动选择的 dropout 方法.
指定 "Dropout"->{"method₁"->p₁,"method₂"->p₂,…} 可用来按相应的 dropout 概率组合不同的 dropout 方法. 可能的方法包括：

	"VariationalWeights"	dropout 应用于权重矩阵（默认）之间的递归连接
	"VariationalInput"	对来自输入的门贡献 (gate contribution) 应用 dropout，在序列中的每一步使用同样模式的单元
	"VariationalState"	对来自前面状态的门贡献 (gate contribution) 应用 dropout，在序列中的每一步使用同样模式的单元
	"StateUpdate"	在加到前面的状态之前，对状态更新向量应用 dropout，在序列中的每一步使用不同模式的单元

dropout 方法 "VariationalInput" 和 "VariationalState" 是基于 Gal et al. 2016 方法，其中， "StateUpdate" 是基于 Semeniuta et al. 2016 方法，"VariationalWeights"是基于 Merity 等 2017 方法.
GatedRecurrentLayer[n,"Input"->shape] 允许指定输入的形状. shape 的可能的形式为：

	NetEncoder[…]	生成向量序列的编码器
	{len,k}	由 len 个长度为 k 的向量组成的序列
	{len,Automatic}	由 len 个向量组成的序列，其中向量的长度由推断而得
	{"Varying",k}	不同数量的向量，每个向量的长度为 k
	{"Varying",Automatic}	不同数量的向量，每个向量的长度由推断而得

当 NumericArray 作为输入时，输出将是 NumericArray.
Options[GatedRecurrentLayer] 给出构建网络层的默认选项列表. Options[GatedRecurrentLayer[…]] 给出在某些数据上运行网络层的默认选项列表.
Information[GatedRecurrentLayer[…]] 给出关于网络层的报告.
Information[GatedRecurrentLayer[…],prop] 给出 GatedRecurrentLayer[…] 的属性 prop 的值. 可能的属性与 NetGraph 相同.

范例

打开所有单元关闭所有单元

基本范例 (2)

创建一个 GatedRecurrentLayer，产生由长度为 3 的向量组成的序列：

创建一个随机初始化的 GatedRecurrentLayer，接受由长度为 2 的向量组成的序列，产生由长度为 3 的向量组成的序列：

对输入序列应用该层：

范围 (5)

Arguments (1)

创建一个 GatedRecurrentLayer，生成长度为 3 的向量序列：

Ports (4)

创建一个随机初始化的 GatedRecurrentLayer，接受一个字符串，产生由长度为 2 的向量组成的序列：

对输入字符串应用该层：

将该层逐项作用于一批输入：

创建一个随机初始化的网络，接受由长度为 2 的向量组成的序列，产生一个长度为 3 的向量：

对输入应用该层：

将该层逐项作用于一批输入：

创建一个 NetGraph，允许设置 GatedRecurrentLayer 的初始状态：

创建一个 NetGraph，允许获取 GatedRecurrentLayer 的终态：

终态是输出序列的最后一个元素：

选项 (2)

"Dropout" (2)

创建一个 GatedRecurrentLayer，同时指定 dropout 方法：

创建一个随机初始化的、具有指定 dropout 概率的 GatedRecurrentLayer：

在向量序列上运行该层：

在运行过程中 dropout 没有任何影响：

用 NetEvaluationMode 来强制 dropout 的训练行为：

对同样的输入进行多次运行会给出不同的结果：

应用 (2)

产生训练数据，由描述两位数相加及其相应数值结果的字符串组成：

使用堆叠的、读取输入字符串并预测数值结果的 GatedRecurrentLayer 层创建一个网络：

训练该网络：

对输入列表应用训练过的网络：

基于含有 x 和 y 的字符串创建训练数据，通过比较 x 和 y 的数量得出 Less、Greater 或 Equal. 训练数据由最长为 8 的所有可能的字符串组成：

创建含有 GatedRecurrentLayer 的网络，读入一个字符串，预测是 Less、Greater 还是 Equal：

训练该网络：

对输入列表应用训练过的网络：

在整个训练集上测量准确度：

属性和关系 (1)

NetStateObject 可用来创建一个能记住 GatedRecurrentLayer 的状态的网络：

每次计算都将改变储存在 NetStateObject 中的状态：

顶部

更多学习资源

技术支持

成人教育计划

青少年教育计划

活动

Wolfram 倡议

教育资源

爱好与项目

Wolfram 解决方案

Wolfram 的教育解决方案

开始

提高你的技能

与我们合作

欢迎阅读

成人教育计划

青少年教育计划

活动

GatedRecurrentLayer

更多信息和选项

范例

基本范例 (2)

范围 (5)

Arguments (1)

Ports (4)

选项 (2)

"Dropout" (2)

应用 (2)

属性和关系 (1)

文本

CMS

APA

BibTeX

BibLaTeX

	"Input"	由大小为 k 的向量组成的序列
	"Output"	由大小为 n 的向量组成的序列

	"Dropout"	None	dropout 规则，其中，根据概率将单元设为零
	LearningRateMultipliers	Automatic	可训练数组的学习率乘子

GatedRecurrentLayer

更多信息和选项

范例

基本范例 (2)

范围 (5)

Arguments (1)

Ports (4)

选项 (2)

"Dropout" (2)

应用 (2)

属性和关系 (1)

参见

技术笔记

相关指南

历史

文本

CMS

APA

BibTeX

BibLaTeX