新闻文本要素的识别与提取是信息抽取领域的研究热点之一,在以往的实践中大多采用基于词典
[6-7]、基于规则
[8-9]或基于统计机器学习
[10-12]的方法进行。近年来,随着深度学习研究的逐渐成熟,基于深度神经网络的命名实体识别也成为新闻要素识别的重要支撑技术
[13-15]。相比传统机器学习算法,深度学习模型具有网络层数更深、学习特征更加复杂且无需人工构建特征等优势
[16]。近年来提出的双向长短时记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)
[17]通过叠加句子在顺序和逆序方向的隐层表示,能够极大程度地揭示句中实体的依赖关系,因此被广泛应用于NER任务。研究表明,将BiLSTM与条件随机场(Conditional Random Field, CRF)相结合能够有效提高模型效果
[18]。由谷歌AI团队于2018年发布的字表示模型BERT
[19],刷新了11项自然语言处理任务的记录。将BERT中文预训练模型(BERT-Base, Chinese)与识别效果较好的BiLSTM-CRF模型结合,被多项研究证实能够取得中文NER的最优效果
[20-22]。
深度学习模型由于学习能力极强,易出现过拟合问题,因此需要庞大规模的标注数据作为训练集,而部分领域由于缺乏足够的训练数据而存在数据冷启动问题。为了解决这一问题,迁移学习(Transfer Learning)
[23]的概念应运而生,其将在源领域学习到的知识应用于与源领域不同但相关的目标领域的任务中,利用源领域的标注数据训练可供目标领域应用的模型。迁移学习主要包括基于实例、基于特征和基于模型的迁移学习,基于实例的迁移学习的原理是将与目标领域实例相似的源领域样本加入训练集,以扩充数据量
[24-25];基于特征的迁移学习是指通过一定的方法,获取并利用源领域与目标领域之间共同的特征表示,从而实现表示层面的迁移
[26-27];基于模型的迁移学习是将基于源领域数据训练的模型及参数迁移至目标领域
[28-29]。模型迁移学习基于大量源领域数据训练得到具有较强泛化能力的预训练模型,能够较好地适应目标领域的数据分布,从而取得较优的迁移效果,因此被广泛应用于NER领域。M. Al-Smadi等构建了基于迁移学习的多语言通用语句编码器,并将其应用于复杂阿拉伯语语境下的实体识别任务
[30];刘宇飞等将公共领域源知识迁移至科学领域,进而对专利文献中的科学术语进行识别
[31];孔祥鹏等提出基于迁移学习的联合深度模型,通过共享网络隐藏层以及BP算法微调参数的方法训练跨语言迁移模型,有效提升了维吾尔语NER任务的成绩
[32]。
上述研究构建的迁移学习模型均取得了较好的实体识别效果,但是尚未考察以医学论文语料作为源领域训练数据的模型效果。考虑到新冠疫情新闻是一种面向当下应急事件的即时信息资源,领域内尚缺乏大规模的标注语料,笔者融合模型迁移与深度学习方法,以医学论文文本作为源领域数据集,基于学习效果较优的BERT-BiLSTM-CRF三层结构模型,训练实体识别模型,并将模型应用于疫情新闻要素的识别。