2018年3月18日

阅读笔记：Bidirectional LSTM-CRF Models for Sequence Tagging阅读

By admin 深度学习 0 Comments

最近阅读了几篇深度学习在NER领域的论文，统一汇总整理了一下，此为阅读的第一篇论文，百度在2015年的论文，下载地址为https://arxiv.org/abs/1508.01991。
1.Introduction
论文第一次将双向LSTM网络跟CRF应用在一起用于解决序列标注任务，并详细对比了LSTM网络、双向LSTM网络(BI-LSTM)、LSTM网络带CRF层(LSTM-CRF)和双向LSTM网络带CRF层(BI-LSTM-CRF)在序列标注任务上的效果，验证了BI-LSTM-CRF模型鲁棒性更好，并且对word-embedding的依赖性更小。
2.Models
2.1 LSTM 网络
RNN越来越多的应用到了实际任务中，因为RNN结构中具有存储历史信息的结构单元，所以经常用来预测包含长距离特征的任务。

图一展示了基本的RNN结构在序列标注任务中的应用，输入层x，隐藏层h和输出标签y。上图中每个单词被标注为 other(O) 或者实体类型：Person(PER)，Location(LOC)，Organization(ORG)，Miscellaneous(MISC)。句子 EU rejects German call to boycott British lamb. 被标注为 B-ORG O B-MISC O O O B-MISC O O，其中 B-,I-B-,I- 标注表示实体的开始和中间位置。
输入层表示t时刻的特征，可以是ont-hot编码的特征，稀疏或者稠密的词向量特征。相对于前馈神经网络，RNN能获取到当前特征和历史特征，隐藏层和输出层的计算方式如下所示：

其中U，W，V是连接的权重矩阵，\(f(z) g(z)\)为sigmoid和softmax激活函数，计算方式如下：

LSTM网络与RNN相同除了隐藏层单元更改为存储单元外，引入了输入门，遗忘们、输出门和cell状态，图2展示了基本的LSTM网络结构。

每个时刻不同gate的计算公式如下所示：

LSTM网络应用于序列标注任务的结构如图3所示：

2.2 双向LSTM网络
在序列标注模型中，时刻t既需要过去的特征，也需要未来的特征，采用的双向LSTM网络结构，结构图如图4所示

2.3 CRF层
在利用前后标注特征预测当前标签有两种方式，一种是每一个时刻预测一个标签的分布，然后采用beam-like找到最优的标签序列，像最大熵分类器、最大熵马尔科夫模型等；另一种是计算句子级别的全局特征，比如CRF，并且也有验证CRF有着更高的识别准确率。
CRF 网络结构如图5所示：

2.4 LSTM-CRF网络
将LSTM网络与CRF网络相结合形成LSTM-CRF网络。网络结构图如图6所示。

网络结构的优点在于通过LSTM网络可以获取历史信息，通过CRF层可以获取到句子级别的标签信息。CRF层由连接连续输出层的直线表示，CRF层有状态转移矩阵作为参数。有了这样一个神经层，我们可以有效地使用过去和未来的标注来预测当前的标注。
我们令\(f_θ([x]^T_1)\)表示网络输出的得分矩阵，我们去掉输入 \([x]^T_1\) 简化符号。矩阵的元素\( [f_θ]i,t\)是在给定参数为θ，对于句子\([x]^T_1\)在第t个词语在第i个标签的网络输出分数。同时引入转移矩阵\([A]_{i,j}\)用于表示连续时刻从第i个状态转移到第j个状态的得分。我们现在定义网络的新的参数为\(θ^˜=θ⋃{[A]_{i,j}∀i,j}\)。句子\([x]^T_1\) 的分数以及标注的路径然后由转换分数和网络分数之和给出：

2.5 BI-LSTM-CRF网络
网络结构如图7所示

3. 训练过程
训练过程如算法1所示

将整个训练集分成batch来处理，每次只处理一个batch，每个batch中处理一个句子list，list的大小由参数batch size来控制，实验中设置batch size=100.在每个batch中，首先运行双向LSTM-CRF 网络的前向处理，包括前向状态和后巷状态的前向处理，最终得到所有位置上在所有tag的网络输出得分\(fθ([x]^T_1)\)。然后运行CRF层的前向和后向处理计算网络的梯度和状态转移。之后进行反向传播，将误差从输出传递到输入，包括LSTM网络的前向和后向状态的反向传播，最终更新网络参数。
4. Experiments
4.1 Data
数据集选取如表1所示

4.2 Features
3个数据集采用相同的特征，特征包括拼写特征和上下文特征，POS,chunking,NER分别提取的特征数量为401K，76K和341K。
4.2.1 拼写特征
主要特征如下

4.2.2 上下文特征
主要采用的是unigram和bigram特征。
4.2.3 Word Embedding
word embedding词汇量大小为130K，向量维度为50维。
4.2.4 Feature connection tricks
我们可以将拼写和上下文特征与单词特征一样对待。这样网络的输入包括单词，单词的拼写和上下文特征。我们发现将拼写和上下文特征与输出直接连接可以加速训练过程，同时也能保持标注的准确率，如下图8所示。

4.3 Results
在相同的数据集上分别训练LSTM，BI-LSTM，CRF，LSTM-CRF和BI-LSTM-CRF模型，并且采用两种方式初始化word embedding：随机和Senna方式。模型的训练速率为0.1，隐藏层数量为300.不同模型在不同word embedding下的结果如表2所示，同时列出了之前最好模型Cov-CRF

4.3.1 与Cov-CRF模型比较
实验中设置了3个基准模型，分别为LSTM、BI-LSTM和CRF，结果中LSTM在三个数据集中效果最差，BI-LSTM跟CRF在POS和chunking中效果接近，但是在NER中后者要优于前者。有趣的是表现最好的模型BI-LSTM-CRF相对于Cov-CRF来说对Senna embedding的依赖程度更小。
4.3.2 模型鲁棒性
为验证模型的鲁棒性，对不同模型只采用word feature特征进行训练，训练结果如表3，括号中数字表示相比于全部特征，模型的结果下降数值。

5 总结
5.1 原文总结
文章中系统比较了不同模型在序列标注任务中的效果，并且第一次将BI-LSTM-CRF应用于NLP任务中，模型有着比较好的鲁棒性，想对于当前一些模型对word embedding有着更少的依赖性。

5.2 个人理解
在文章中其实也是使用了大量的特征工程的工作，特征的提取也是认为指定，不是完全的seq2seq的处理。

Tags:BI-LSTM-CRF, LeetCode, LSTM, 命名实体识别

About Author

admin

Add a Comment

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据。

Related Posts

About Author

admin

Add a Comment