阅读笔记:Bidirectional LSTM-CRF Models for Sequence Tagging阅读

最近阅读了几篇深度学习在NER领域的论文,统一汇总整理了一下,此为阅读的第一篇论文,百度在2015年的论文,下载地址为https://arxiv.org/abs/1508.01991。
1.Introduction
论文第一次将双向LSTM网络跟CRF应用在一起用于解决序列标注任务,并详细对比了LSTM网络、双向LSTM网络(BI-LSTM)、LSTM网络带CRF层(LSTM-CRF)和双向LSTM网络带CRF层(BI-LSTM-CRF)在序列标注任务上的效果,验证了BI-LSTM-CRF模型鲁棒性更好,并且对word-embedding的依赖性更小。
2.Models
2.1 LSTM 网络
RNN越来越多的应用到了实际任务中,因为RNN结构中具有存储历史信息的结构单元,所以经常用来预测包含长距离特征的任务。

图一展示了基本的RNN结构在序列标注任务中的应用,输入层x,隐藏层h和输出标签y。上图中每个单词被标注为 other(O) 或者实体类型:Person(PER),Location(LOC),Organization(ORG),Miscellaneous(MISC)。句子 EU rejects German call to boycott British lamb. 被标注为 B-ORG O B-MISC O O O B-MISC O O,其中 B-,I-B-,I- 标注表示实体的开始和中间位置。
输入层表示t时刻的特征,可以是ont-hot编码的特征,稀疏或者稠密的词向量特征。相对于前馈神经网络,RNN能获取到当前特征和历史特征,隐藏层和输出层的计算方式如下所示:

其中U,W,V是连接的权重矩阵,\(f(z) g(z)\)为sigmoid和softmax激活函数,计算方式如下:

LSTM网络与RNN相同除了隐藏层单元更改为存储单元外,引入了输入门,遗忘们、输出门和cell状态,图2展示了基本的LSTM网络结构。

每个时刻不同gate的计算公式如下所示:

LSTM网络应用于序列标注任务的结构如图3所示:

2.2 双向LSTM网络
在序列标注模型中,时刻t既需要过去的特征,也需要未来的特征,采用的双向LSTM网络结构,结构图如图4所示

2.3 CRF层
在利用前后标注特征预测当前标签有两种方式,一种是每一个时刻预测一个标签的分布,然后采用beam-like找到最优的标签序列,像最大熵分类器、最大熵马尔科夫模型等;另一种是计算句子级别的全局特征,比如CRF,并且也有验证CRF有着更高的识别准确率。
CRF 网络结构如图5所示:

2.4 LSTM-CRF网络
将LSTM网络与CRF网络相结合形成LSTM-CRF网络。网络结构图如图6所示。

网络结构的优点在于通过LSTM网络可以获取历史信息,通过CRF层可以获取到句子级别的标签信息。CRF层由连接连续输出层的直线表示,CRF层有状态转移矩阵作为参数。有了这样一个神经层,我们可以有效地使用过去和未来的标注来预测当前的标注。
我们令\(f_θ([x]^T_1)\)表示网络输出的得分矩阵,我们去掉输入 \([x]^T_1\) 简化符号。矩阵的元素\( [f_θ]i,t\)是在给定参数为θ,对于句子\([x]^T_1\)在第t个词语在第i个标签的网络输出分数。同时引入转移矩阵\([A]_{i,j}\)用于表示连续时刻从第i个状态转移到第j个状态的得分。我们现在定义网络的新的参数为\(θ^˜=θ⋃{[A]_{i,j}∀i,j}\)。句子\([x]^T_1\) 的分数以及标注的路径然后由转换分数和网络分数之和给出:

2.5 BI-LSTM-CRF网络
网络结构如图7所示

3. 训练过程
训练过程如算法1所示

将整个训练集分成batch来处理,每次只处理一个batch,每个batch中处理一个句子list,list的大小由参数batch size来控制,实验中设置batch size=100.在每个batch中,首先运行双向LSTM-CRF 网络的前向处理,包括前向状态和后巷状态的前向处理,最终得到所有位置上在所有tag的网络输出得分\(fθ([x]^T_1)\)。然后运行CRF层的前向和后向处理计算网络的梯度和状态转移。之后进行反向传播,将误差从输出传递到输入,包括LSTM网络的前向和后向状态的反向传播,最终更新网络参数。
4. Experiments
4.1 Data
数据集选取如表1所示

4.2 Features
3个数据集采用相同的特征,特征包括拼写特征和上下文特征,POS,chunking,NER分别提取的特征数量为401K,76K和341K。
4.2.1 拼写特征
主要特征如下

4.2.2 上下文特征
主要采用的是unigram和bigram特征。
4.2.3 Word Embedding
word embedding词汇量大小为130K,向量维度为50维。
4.2.4 Feature connection tricks
我们可以将拼写和上下文特征与单词特征一样对待。这样网络的输入包括单词,单词的拼写和上下文特征。我们发现将拼写和上下文特征与输出直接连接可以加速训练过程,同时也能保持标注的准确率,如下图8所示。

4.3 Results
在相同的数据集上分别训练LSTM,BI-LSTM,CRF,LSTM-CRF和BI-LSTM-CRF模型,并且采用两种方式初始化word embedding:随机和Senna方式。模型的训练速率为0.1,隐藏层数量为300.不同模型在不同word embedding下的结果如表2所示,同时列出了之前最好模型Cov-CRF

4.3.1 与Cov-CRF模型比较
实验中设置了3个基准模型,分别为LSTM、BI-LSTM和CRF,结果中LSTM在三个数据集中效果最差,BI-LSTM跟CRF在POS和chunking中效果接近,但是在NER中后者要优于前者。有趣的是表现最好的模型BI-LSTM-CRF相对于Cov-CRF来说对Senna embedding的依赖程度更小。
4.3.2 模型鲁棒性
为验证模型的鲁棒性,对不同模型只采用word feature特征进行训练,训练结果如表3,括号中数字表示相比于全部特征,模型的结果下降数值。

5 总结
5.1 原文总结
文章中系统比较了不同模型在序列标注任务中的效果,并且第一次将BI-LSTM-CRF应用于NLP任务中,模型有着比较好的鲁棒性,想对于当前一些模型对word embedding有着更少的依赖性。

5.2 个人理解
在文章中其实也是使用了大量的特征工程的工作,特征的提取也是认为指定,不是完全的seq2seq的处理。

Add a Comment

邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据