论文部分内容阅读
随着互联网的发展,网络上的信息内容和文本类型,从新闻、博客等长文本媒体到短信、微博等短文本变得日趋丰富。人们期待更加快捷、直观与智能的信息处理方式,因此文本内容分析中的主题表示、信息检索技术等研究逐渐成为研究热点。利用信息挖掘技术和自然语言处理进行有效信息组织,对大数据时代的信息处理具有极重要的理论意义和实用价值。作为文本的最小基本单位,词汇的正确构建,能够辅助文本模型建立,并在内容上揭示词和文本的潜在关系。一方面,词关系网络可以帮助检索。通过更加准确地重构查询词,明确表达用户的检索意图,提供更加精确的检索结果。克服单纯以查询词的出现检索包含用户所需信息的网页。另一方面,用词表示文本,以词间关系描述文本主题,可使得内容分析与呈现更加简洁,有效地实现知识发现。本文以词为研究对象,以文本内容分析为研究目的,在深度理解文本表示模型的基础上,进行了递进的词关系分析与文本挖掘研究,主要进行了四方面工作内容,创新和贡献如下:第一,提出了一种基于字关系的无监督文本关键词发现算法。结合字/词频共现,进行知识发现,获得更好的关键词和主题表的同时,能够产生许多新词,在一定程度上帮助中文语料构建词典,为后续的词关系奠定研究基础。实验表明,该算法对中英文新闻语料的主题词发现都有较好的效果。可以解决关键词挖掘和主题表示的问题。第二,提出了一种利用电阻网络模型来计算语义空间上词关系的方法。通过将词在空间上的词连接网络模拟在电路上,以电导率表征词间相似性,有效度量并简化了复杂稀疏的词关系网络中词关联性的计算,重点解决了短文本的查询扩展问题。针对TREC中的微博检索评测的对比实验表明,不仅能提供更具语义相关性的扩展词,同时在保证召回率的前提下有效提高了检索结果的准确度。第三,提出一种基于WAF词激活力模型的词簇聚类方法。以基于激活力的词亲近度量值将同一个词的不同内涵进行聚类,获得更好的词的外延含义表达,同时实现了该词簇关系网的可视化。应用于以BNC等新闻语料和COSE校园搜索中的实体关系网络搭建的两个系统中。结果证明,这种方法具有可行性和有效性。第四,设计和实现了COSE校园实体搜索引擎,将实体挖掘与实体关系分析运用词关联关系网络进行构建与表示,不仅实现了结构化的实体搜索,同时实现了校园人物实体关系的可视化。该系统具备良好的扩展性。这部分内容将作为第二、四、五的系统实现部分进行介绍,并不单独展开。