基于特征对齐的中文分词和用户标识识别研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:gd1000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是自然语言处理中的基石,由于中文在文本中的特殊性,它并不像英文一样有明显的空格分隔开,而是以单个字为单位,因此如果需要从文本中获取有用的信息,一定需要有正确分词后的文本,才能更好地进行下一步的自然语言处理方面的工作。然而中文分词的两大难点——真歧义以及未登录词,至今仍旧没有很好地解决。面对网络上用户的复杂信息,作为命名实体识别中必不可少的一部分,用户标识识别就可以发挥其作用。序列标注模型在处理中文分词和命名实体识别这一块是卓有成效的,而条件随机场更是序列标注方法中的佼佼者。为了进一步提高中文分词的效果以及用户标识识别的准确性,本文提出了一种基于特征对齐的方法,然后将分类器与条件随机场结合来进行序列标注的任务。为了构建特征对齐的序列标注模型,本文主要完成的工作如下:1.结合分类器和条件随机场的算法,提出了一种基于特征对齐的中文分词方法。首先,针对文本中的字符二元组,抽取字符二元组的词频、信息熵、互信息、数字、标点、句子语境等共19项特征,将每一个字符二元组表示成一个19维的向量。其次,对于关于频数的13项特征利用地球移动距离(EMD)的方法使得标记数据和无标记数据进行特征对齐,从而减少标记数据和无标记数据之间的规模差距。再次,将对齐之后的标记数据特征作为分类器XGBoost的训练集,然后预测无标记数据中的字符二元组的成词概率。最后,将分类器的结果作为条件随机场的特征进行序列标注的训练,得到无标记数据的分词结果。2.作为上述方法的一个应用,结合分类器和条件随机场理论和算法,提出了基于特征对齐的用户标识识别方法。通过特征工程获得字符二元组的特征属性后,利用特征对齐、分类器和条件随机场堆叠的方法,从而获得用户标识的属性实体名。实验结果表明通过特征对齐、将分类器和条件随机场相结合的方法来处理序列标注的问题确实是有效的。此方法不仅解决了条件随机场训练过程中因为特征太多出现的过拟合问题,减少了训练的时间,而且提高了中文分词和用户标识识别的效果,进一步为自然语言处理中构建知识图谱等工作夯实基础。
其他文献
在信息革命向人工智能革命转换的当下,人工智能技术正深刻影响社会各领域,自动驾驶汽车概念的提出标志着人工智能技术开始向汽车行业渗透的开始。在现代风险社会的语境下,现代风险呈现出人为性、不确定性与主观建构性,法律对此产生积极与消极两种风险态度。自动驾驶汽车具有人身安全、个人信息安全、社会公共安全的三重风险面向,且大数据的全面性与算法不确定性致使风险具有不确定性。行政法在其风险规制过程出现事后归责模式的
机载DDMA-MIMO雷达发射的是多普勒频分多址(DDMA)信号。它利用傅里叶正交基作为不同阵元发射信号的脉间调制加权,即发射相位随阵元序号和脉冲序号改变。相当于在发射时给每个阵元增加了一个多普勒频率,在接收时就可以利用多普勒滤波器组将不同阵元的发射信号分离。虽然采用DDMA信号的慢时间MIMO雷达具有结构简单、回波相关性高、带宽利用率高等优点。但在决定不模糊距离的脉冲重复频率不变的前提下它的多普
线作为最基本的媒介,它存在于所有的绘画形式当中。在中国绘画和西方绘画中,虽然线的表现形式因为中西方文化的不同而存在着明显的差异,但是线都是用来造型的基本手段。不同的线条在绘画中会呈现不同的视觉效果,“十八描”就是典型的代表,均匀流畅的高古游丝描,刚劲有力的铁线描、轻盈灵动的柳叶描……每一条线都有自己独特的审美价值,具有深远的意义和强烈的表现力。在黑白木刻版画中,线同样具有与众不同的美感,由于黑白木
计算思维作为灵活运用工具、分析解决问题的思维方式,顺应我国创新驱动的发展需求,成为21世纪必备技能之一。计算思维和编程密切相关,然而目前的编程教育仍存在诸多问题。游戏化学习的引入解决了编程中的众多难题,因此本研究将游戏化编程教育应用到中学生的计算思维培养研究。首先梳理计算思维和游戏化编程文献,对其研究现状进行研读,分析目前计算思维的概念、方法以及游戏化教学模式、原则。其次以文献综述为基础,将分解、
随着互联网中流量激增和新业务的不断涌现,现有网络技术已难以满足工业物联网、5G移动通信、AR/VR音视频和智慧城市等新应用场景中对实时性和可靠性的要求。面对这种时间敏感性业务的急切需求,如何保证可靠性,准确控制端到端时延成为热点问题。鉴于其成本低、部署简单、产业链成熟且带宽不断增大,以太网技术在新一代传输和接入网络中被广泛使用。因此,出现了多种改善以太网“尽力而为”机制引起的分组丢失和不确定性等问
序列密码的设计思想正在从线性序列变换到非线性序列,与此同时涌现了很多性质良好的非线性部件。进位反馈移位寄存器(FCSR)由于自带非线性,类似于LFSR的代数结构,具备优良的密码学性能,被认为是LFSR的一个较好的替代。在研究FCSR的结构和生成序列的同时,基于FCSR设计的各种新型序列密码开始出现,催生了各种针对FCSR类密码的分析技术与攻击手段,这反过来促进了FCSR理论与结构的进一步完善。本文
近年来,随着传统媒体不断向数字化转型,数字媒体内容逐渐成为互联网的主体。然而,大量的数字媒体内容中只有少部分是真正热门的,这就需要及时而有效的热度预测算法来甄别热门
随着信息技术的蓬勃发展,集成电路集成度不断提高,器件的特征尺寸不断缩小,传统的非挥发性存储器正面临着发展瓶颈:不断缩小的器件尺寸使得浮栅的厚度相应减小,然而过薄的栅
软件安全漏洞问题是当前网络空间安全的重要研究方向之一,软件安全漏洞一旦被恶意攻击,会导致用户的财产损失和信息泄露。模糊测试(Fuzzing)技术作为一种自动化的软件漏洞动态检测技术,因其在漏洞发掘方面的高效性和易用性,近些年获得了很大关注。将Fuzzing测试技术与符号执行、静态分析等其他程序分析技术相结合来提高Fuzzing测试的效率,成为了目前的一个研究热点。论文主要研究以一种更有效、更高效的
随着人类社会发展,贫穷和人类社会历史相伴而生。社会救助作为整个社会保障体系中最古老的一项制度,几千年以前,我国政府通过为社会中的贫困者和其所在的贫困家庭提供帮助的