基于多维频繁子树模式的中文问句中心词识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:wubo02402
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文问句中,疑问词与中心词揭示了问句的大部分信息,因此,在中文问句处理中,识别疑问词与中心词变得尤为重要。由于中文的疑问词相对固定,数量也不多,故疑问词的识别准确率很高。然而中文语言的意合性、无时态变化、语序灵活性等特点,以及中心词在数量、位置、成份上的多样性与复杂性,使得中文问句中心词识别变得相对困难。根据中文依存语法,问句可解析成依存关系树,中文问句的常见自然语言结构特征自然就会反映在依存关系树中。因此,可以从中文问句的依存关系树库中,挖掘中文问句的特征子结构,以辅助进行中文问句中心词识别。本文即致力于研究中文问句依存关系树库的挖掘问题,并将挖掘结果应用于中文问句中心词识别。本文主要研究工作如下:(1)中文依存关系树中,节点由词组成,而词的信息是多维的,从而形成树的多维结构,而现有树挖掘领域研究的主要是仅含标号的一维信息的单维树。本文提出多维树的概念,探讨了多维树的性质特征;结合多维树的特征设计了多维树的候选树生成策略以及相应无效树剪枝策略,提出了多维频繁子树模式的挖掘算法,并设计实验验证了算法的有效性。(2)将多维频繁子树模式应用到中文问句中心词标注中,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,来正确标注中心词。该方法通过挖掘频繁依存子树模式以生成相应统计规则模式,建立在严格的统计语料基础上,标注的稳定性、适应性及鲁棒性较好。实验表明,本文方法较CRF方法效果有一定的提升。(3)针对频繁依存子树模式生成的大量统计规则,探讨了依存子树规则的冗余问题。在此基础上,制定了规则精简策略以准确去除冗余规则,达到降低规则库规模的目的。
其他文献
随着流体力学、科学计算可视化、计算机图形学、网络三维游戏等的发展,可视化技术得到了广泛的应用。流线可视化技术是矢量场可视化技术中的一种,主要包括流线的计算与流线的
影视作品是以视频的形式呈现在观众面前的,因此对影视作品进行对白单元切分,实际上就是对视频进行对白单元切分。本论文的工作目标是希望通过对视频中张嘴说话状态的检测来分
信息物理融合系统(CPS)是指在环境感知的基础上,深度融合了计算通信和控制能力的网络化物理设备系统,通过计算、通信和控制技术(3Cs)的深度协作,旨在实现大型工程系统的实时感知、动
随着现代企业的发展和信息化程度不断提高,企业的各种信息系统日益庞大和复杂,系统安全形势也日益严峻。企业应用系统的每个环节都有可能遭到安全威胁,应用系统需要保护众多的资
随着信息技术的发展,不同语言之间的沟通和交流变得越来越重要,在此背景下机器翻译等自然语言处理技术得到长足发展。作为当前研究热点之一,命名实体识别及翻译技术正广泛应
自然语言处理各种底层技术的不断发展,如分词、词性标注、句法分析等技术的逐渐成熟,为更深层次的研究奠定了基础。目前,越来越多的研究人员开始把目光转向自然语言理解。复
随着Windows操作系统在可靠性方面的不断完善以及其良好的用户界面,此操作系统以及其之上的软件产品应用到社会的各个领域,人们对软件的性能和可靠性有了更高的要求。软件产
物联网技术在各行各业应用越来越广泛,对物联网技术的研究也越来越多。随着物联网技术中硬件和软件的广泛应用,安全问题也日益突出。对消息传递中的通信主体进行身份验证,对
业务的快速增长和行业间竞争的加剧,使得如何提高服务质量并降低生产成本成为电信行业发展的关键。由早期基础建设管理和规划的不完善所导致的信息孤岛等问题,使得管理层无法
近年来,无线局域网(WLAN)以其安装便捷、使用灵活等优势,得到了大规模的部署。WLAN上承载的业务也覆盖了从标准互联网业务到实时业务的范围。实时业务对服务质量(QoS)有较高的