基于词关联关系的文本内容分析

被引量 : 3次 | 上传用户:zhw0920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络上的信息内容和文本类型,从新闻、博客等长文本媒体到短信、微博等短文本变得日趋丰富。人们期待更加快捷、直观与智能的信息处理方式,因此文本内容分析中的主题表示、信息检索技术等研究逐渐成为研究热点。利用信息挖掘技术和自然语言处理进行有效信息组织,对大数据时代的信息处理具有极重要的理论意义和实用价值。作为文本的最小基本单位,词汇的正确构建,能够辅助文本模型建立,并在内容上揭示词和文本的潜在关系。一方面,词关系网络可以帮助检索。通过更加准确地重构查询词,明确表达用户的检索意图,提供更加精确的检索结果。克服单纯以查询词的出现检索包含用户所需信息的网页。另一方面,用词表示文本,以词间关系描述文本主题,可使得内容分析与呈现更加简洁,有效地实现知识发现。本文以词为研究对象,以文本内容分析为研究目的,在深度理解文本表示模型的基础上,进行了递进的词关系分析与文本挖掘研究,主要进行了四方面工作内容,创新和贡献如下:第一,提出了一种基于字关系的无监督文本关键词发现算法。结合字/词频共现,进行知识发现,获得更好的关键词和主题表的同时,能够产生许多新词,在一定程度上帮助中文语料构建词典,为后续的词关系奠定研究基础。实验表明,该算法对中英文新闻语料的主题词发现都有较好的效果。可以解决关键词挖掘和主题表示的问题。第二,提出了一种利用电阻网络模型来计算语义空间上词关系的方法。通过将词在空间上的词连接网络模拟在电路上,以电导率表征词间相似性,有效度量并简化了复杂稀疏的词关系网络中词关联性的计算,重点解决了短文本的查询扩展问题。针对TREC中的微博检索评测的对比实验表明,不仅能提供更具语义相关性的扩展词,同时在保证召回率的前提下有效提高了检索结果的准确度。第三,提出一种基于WAF词激活力模型的词簇聚类方法。以基于激活力的词亲近度量值将同一个词的不同内涵进行聚类,获得更好的词的外延含义表达,同时实现了该词簇关系网的可视化。应用于以BNC等新闻语料和COSE校园搜索中的实体关系网络搭建的两个系统中。结果证明,这种方法具有可行性和有效性。第四,设计和实现了COSE校园实体搜索引擎,将实体挖掘与实体关系分析运用词关联关系网络进行构建与表示,不仅实现了结构化的实体搜索,同时实现了校园人物实体关系的可视化。该系统具备良好的扩展性。这部分内容将作为第二、四、五的系统实现部分进行介绍,并不单独展开。
其他文献
目的研究老年2型糖尿病(DM)患者骨密度的改变及探讨其与胰岛素水平的关系。方法应用DEXA测定38例老年2型DM患者和26例老年健康对照组L24及股骨近端骨密度(BMD)并测定2型DM患者血
利率市场化主要是一项解决利率形成机制问题的金融体制改革,是把利率决定权交给市场,由市场资金供求情况决定市场利率,市场主体可以根据不同金融交易各自的特点自主决定利率
随着我国经济的快速发展,企业在生产运营过程中对于资金的需求不断加大,现有的融资模式及融资渠道已无法满足企业的融资需要,在此背景下融资物流应运而生并成为中小企业解决
结合海上救援工作的特殊性,综合各种常用伸缩机构的特点,设计了一种专门应用于海上救援船的伸缩梯。并使用UG进行了三维建模,又利用ANSYS workbench进行有限元分析校核其强度
随着金融市场规模的不断扩大,金融行业人才需求持续增长,尤其对证券经纪人、市场营销类的低端人才和银行客户经理、基金经理、投融资经理等高端职位人才的需求缺口非常大。然
为了加强后装拔出法检测技术在黑龙江省内的推广应用,对影响后装拔出法检测混凝土强度的因素进行了分析,采用了哈尔滨地区常用的材料,根据混凝土试件拔出力及抗压强度的测试
配送是物流中的核心环节,最短路径的选择决定着配送效率.从图论的角度出发,分析了经典的D ijkstar算法和F loyd算法,并指出了它们的一些不足:D ijkstar算法随着配送点数目的
分析高职院校新的人才培养模式下,公共基础课程教师的处境,阐述高职院校公共基础课教师专业化成长策略。在学校层面上,要"健全组织机构,提供发展保障;建立激励机制,营造良好
去年,我们与两所中学合作开展了小课题研究的实践工作,在推进小课题研究的过程中,我们逐渐发现小课题研究的真正魅力和价值,同时也进行了许多深入的思考。$$ 思考一:什么是小课
报纸
互联网信息技术的快速发展,出现了以社交化网络和电子商务为代表的应用,它们拥有庞大的用户群体,对大数据量的处理需求日益增加,云计算技术应运而生。云计算主要使用MapReduc