语言浅层分析与句子级新信息检测研究

被引量 : 35次 | 上传用户:yuanmm123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对粒度更小、冗余更少的信息需求,本文围绕句子级别的信息检索与新信息检测,进行了深入而又细致的研究,提出了有针对性的浅层语言分析技术,讨论了句子检索的主要建模方法,并阐述了信息新颖度的多种量化手段。在多组对比实验和国际上公开的评测比赛中,依据本文技术方法研制的Noovel系统取得了当前最好的性能,超过了所有正式公开的结果,这也表明:本文提出的句子检索方法与新信息检测技术是卓有成效的。 针对新信息检测的英文浅层语言分析主要包括断句、词汇切分、词性标注以及词形还原等自然语言处理过程。作者在已有研究工作的基础上,结合新信息发现的特点,提出了有针对性的改进措施。在中文浅层语言分析方面,本文提出了一种将汉语分词、词性标注、切分排歧和未登录词识别相结合的基于层次隐马模型的理论框架。在语言的分析基础上,查询分析过程通过辅助词过滤与倾向分类,从自然语言表述的主题中理解用户的查询意图,从而抽取出可用于直接建模计算的查询向量。在目前所有能获取的公开数据集合上进行对比实验,基于浅层语言分析的系统性能均超过了目前所见到发表的最好水平。 在句子检索方面,Noovel采取了三种模型:向量空间模型、概率检索模型与语言模型。为了克服句子的局限性,本文引入了查询扩展的技术,主要包括:借助于WordNet的语义衍生扩展、伪相关反馈扩展、采用高频共现词语的局部共现扩展。在TREC2003数据集上的实验表明:在浅层语言分析的基础上,简单向量空间模型可以达到目前最好的结果,受到语义资源和分析深度的限制,当前阶段的语义扩展作用有限,而伪相关反馈与局部共现扩展都能够帮助提高句子检索的性能,局部共现扩展是很有潜力的查询扩展与文档扩展的技术。 句子级别的新信息检测是本项研究的最终目标,这是个时序性很强的信息过滤任务,在总结现有方法的基础上,本文提出了三种具有代表性的信息新颖度的量化方法,其中包括:词重叠度及其扩展方法、相似度比较方法与信息增强的评价方法。初衷在于兼顾信息与主题的相关性,同时还要与已有历史的信息进行比对,寻找新信息之所在。 除了非监督条件的新信息检测之外,本文还探讨了在监督条件下如何进行机器自动学习并调整参数的策略,主要的手段包括:进一步的特征选择、真实反馈、调整参数、阈值设置。作者还进一步的提出了基于分类的句子检索与新信息检测方法。 Noovel系统参加了第13届TREC比赛新信息发现任务的全部四个子任务,在最关键的任务1中,Noovel的新信息检测结果排名第一;任务3的句子检索性能方面,提交的两个结果并列排名第一,其他的子任务也取得不俗的成绩,与参赛的其他13支国际研究团队进行综合比较,本文在新信息方面的研究相对较优。
其他文献
填料函是组成压缩机的一个重要部分。介绍了H8B压缩机的结构和工作原理,重点阐述了H8B填料函结构特点及填料环改进。
1863年Eckhardt首先在动物模型应用电刺激骶神经分支产生阴茎勃起。1936年Gunn首先在动物用电刺激产生射精。 1931年Learmanth开始研究人的电射精,刺激男性骶前神经同时置膀
随着经济全球化进程的加快,为了能够进一步促进我国的国民经济发展,国家提出了“一带一路”倡议目标,主要目的就是加强我国与海上丝绸之路和陆上丝绸之路国家的合作,以促进我
随着知识经济时代的到来以及基础教育新课程改革的实施,国家对人才的质量与规格提出了更高更多样化的要求。为了应对国家对高质量应用型专门人才的迫切需求,2009年教育部决定对
高校毕业生是宝贵的人才资源,随着高校的扩招和市场体制改革的不断深入,高校毕业生就业已成为政府和社会广泛关注的热点和难点问题。本文通过对枣庄市高校毕业就业情况的调查
主持人语:证据是诉讼的脊梁,是法治的基石,也是证据法学的核心范畴。证据在不同社会治理模式中扮演着不同的角色,不同社会治理模式对证据内涵和证据资格也有不同的理解与界定
<正>目的:现有种植牙手术对医生经验的依赖性大,同时临床医生劳动强度较大、手术效率低,而基于导板的种牙手术灵活性不足、基于图像的导航种植医生操作不直观。相比于目前的
会议
蓝蓝的天上白白的云,一望无际的沙海里胡杨展示着顽强的生命力,这是新疆独有的自然风光。人们常说:"不到新疆,不知道中国之大;不到新疆,不知道中国之美。"而今天,这句话用到
在无限的互联网虚拟世界里,百度贴吧作为最大的中文搜索交流社区,为大学生实现平等、自由、民主发言权提供了广阔的空间。大学生们可以随意地在高校网络贴吧中进行意愿的表达
目的:考察注意偏向训练矫正焦虑个体对威胁性信息注意偏向的作用。方法:招募在校大学生,根据状态-特质焦虑量表(STAI)、社交焦虑量表(LSAS)、贝克抑郁量表(BDI)得分和注意偏向值(BIAS)