论文部分内容阅读
近年来互联网技术蓬勃发展,各个领域中新技术与新方法层出不穷,致使大量的新词汇出现,不同领域的专业词典库急需完善,因此对特定领域新词的准确识别成为了需要重点研究的问题。新词发现是中文分词中最基础的研究,但中文与英文不同,没有较明显的符号区分词语边界,具有较高的识别难度,并且新词产生速度快、产生形式灵活多变,对自然语言处理提出了更高的要求。 本文主要对传统新词发现中低频新词识别率低的问题进行了重点改进,在单一的特定领域即IT领域中与计算机相关的新词语进行了实验验证。但研究不限于该领域,使用不同领域的数据集通过对人工规则等具体细节的修改即可适用于“医学”、“金融”等其他特定领域的新词发现。 首先针对数据的稀疏性使低频词语无法被识别的问题,提出一种信息量和深度学习模型相结合的新词发现方法。该方法通过计算词语内部粘合度和分离度确定新词边界,并且加入人工规则过滤的方式找出需要的候选新词。BiLstm-CRF模型是双向长短时记忆网络和条件随机场融合的深度学习模型。把候选新词进行序列标注作为BiLstm-CRF模型的输入数据进行训练,输出最佳的标签序列。最后将用信息量与规则过滤找到的候选新词和用模型找到的新词相结合得到最终的新词词表。实验证明传统的方法和模型的融合既解决了大量人工序列标注问题又提高了低频新词的识别率,通过模型的学习实现了无监督的、实时的新词发现。 Aprioir算法是寻找频繁项集常用的方法,但该算法存在产生过多的频繁项集冗余项使运行效率过低和应用于新词发现时低频新词无法识别的问题。针对上述问题本文提出一种改进的Aprioir算法,该算法通过规定字符的顺序减少了频繁项集寻找过程中存在的冗余项,并且在找到的K-频繁项集中选出低频项集重新过滤,增加了对低频词的识别。最后根据噪声词典过滤得到新词词表。实验证明该算法提高了运行效率,频繁项集挖掘中冗余项有所减少,同时与原Aprioir算法新词发现的结果相比在准确率上有了较大提高。