【摘 要】
:
文本是一种非结构化数据,计算机无法直接对文本进行处理,需要将其转化为结构化数据.构建文本表示模型是文本处理的首要目标.本文提出两种文本表示模型——局部热词模型和结构
论文部分内容阅读
文本是一种非结构化数据,计算机无法直接对文本进行处理,需要将其转化为结构化数据.构建文本表示模型是文本处理的首要目标.本文提出两种文本表示模型——局部热词模型和结构张量空间模型.并依据结构张量空间模型的原理,开发了文本分层软件.具体工作概括如下:1.局部热词模型(Local Buzzword Model,LBM).本文提出二次关键词提取策略,并结合词向量模型和聚类算法构建LBM.该模型能够从领域语料中提取特征,并且能够降低语料分布不平衡的负面影响.本文将该模型用于旅游评论语料,实验结果验证了 LBM在挖掘领域特征上的有效性.2.结构张量空间模型(Structured Tensor Space Model,STSM)是基于文本内在的结构特征设计而成.文本的内容可以划分成几个主要的层次.假设同一层次下的文本段落其含义较近,而不同层次下的文本段落含义较远.根据这一假设,本文提出 了层次结构提取算法(Hierarchical Structure Extraction Algorithm,HSEA),该算法能够让文本按照其层次结构进行分层,并将提取的层次结构应用于文本表示,进而构成STSM.本文使用搜狗新闻语料和复旦中文语料,通过文本分类实验来验证STSM的效果.实验结果表明STSM与高阶支持张量机组合构造的分类器在小样本语料的情况上具有更优的分类效果,这反映出STSM是一种有效的文本表示模型.3.文本分层软件(Text Layered Software,TLS)依据文本的HESA设计而成,它是文本分层的一种可视化展示.TLS除了分层文本的功能以外,还具有提取文本摘要句和中心句的功能.
其他文献
我国自2009年开始正式推进人民币国际化,在政府的一系列的政策管理和宏观调控下,人民币的国际化程度得到大幅度提高,2016年人民币加入国际货币基金组织的特别提款权(SDR)货币篮子,标志着人民币国际化又迈上了一个新的台阶。目前人民币已经成为全球第三大贸易融资货币、第五大支付货币、第五大外汇交易货币人民币国际化是我国当前的一项重要国家战略,人民币的国际化进程必然关系到中国的国家利益,政府对人民币国际
移动通信系统的信号传输过程中,由于信道衰落、多径传输、时延扩展等因素的影响,使得信道传输特性具有不确定性,在接收端会产生符号间干扰、码间串扰等问题,再加上不可避免的
江苏省高等教育大众化呈现出不断深化的良好态势,导致新建本科院校数量不断增加,从这些院校发展的实际情况来看,正在不断的发展壮大,逐渐成为了推动江苏省高等教育发展的生力军。而在如今知识更新速度以及信息技术变革的新时代,图书馆以自身资源服务于用户的优势却越来越不明显,新建本科院校图书馆的价值不能仅从其自身的馆藏数量来进行简单的衡量,而应是以其为读者提供他们需要的信息的能力来进行衡量,因此,这就使得江苏省
随着纳米科技的快速发展,纳米器件和纳机电系统逐步应用到科技和生活的各个领域。杆状纳米结构作为纳米器件和纳机电系统中不可或缺的元件,系统化研究其力学行为尤其是动力学特性则非常必要。本文首先基于Eringen非局部理论和Kelvin-Voigt粘弹性理论,建立了粘弹性纳米杆模型,求解了纳米杆的轴向振动问题和纵波传播问题。其次,基于非局部应变梯度理论,分别采用经典Love杆理论和Rayleigh-Bis
近年来,活性/可控自由基聚合的发展已经能达到对所合成含糖聚合物的链段结构及糖分子的空间分布的控制,越来越多组成结构各异的复合含糖聚合物得以被制备出来,相关生命科学领域也因此有了许多新的应用进展。含糖聚合物通过加入不同性质的单体进行共聚所得到的复合含糖聚合物因聚合链的组分及拓扑结构的差异可为其带来许多性质上的差异性。通过活性/可控自由基聚合得到的组成不同,结构各异的复合含糖聚合物在同细菌及细胞作用时
传统金融学以有效市场和完全理性人为假设前提,认为价格包含一切信息,人们总能根据市场信息做出理性决策,实现利益最大化。股票市场的出现和发展,极大地促进了社会的发展,但也产生很多难以被传统金融学解释的金融异象。行为金融学顺势形成,认为人是有限理性,且价格并不包含市场所有信息,即市场不总是有效的。我国股票市场作为一个新兴市场,发展迅速,市场规模不断扩大,但也表现出过度交易、追涨杀跌和波动较为频繁等特点,
在能源结构问题日益突出的今天,光伏产业越发受到重视,但是太阳能电池板积灰严重制约光伏产业发展,迫切需要解决积灰问题。机械除尘通过机械结构施加机械力来去除电池板表面的积灰,目前对机械除尘研究主要通过分析清洁前后的发电效率来判断清洁效果,没有分析清洁过程中清洁力的大小。本文在宏观力理论分析的基础上,假设积灰颗粒为刚性小球,尼龙6刷丝为柔性梁,分析推导出柔性梁与颗粒的相互作用模型。依据Elastica理
考虑到数据中心功率可控特性的特点,可以将其作为负载集成到配有可再生能源发电的智能电网中,从而在一定程度上消纳可再生能源。本文考虑了数据中心和光伏发电厂的接入对电网可能产生的影响,对数据中心建设的位置和容量规划问题开展了研究。针对所构建的优化问题,在电压和支路功率约束的条件下,基于遗传算法对光伏电厂和数据中心接入位置和容量的规划问题进行了最优方案求解。实验结果表明,本文提出的仿真模型能够找到数据中心
随着需求响应理论研究的不断深入和应用潜力的不断挖掘,需求响应的可靠性受到了越来越多的关注。本文深入分析了影响需求响应可靠性的因素,并建立了需求响应可靠性模型评估需
随着我国智慧法院的建设和司法透明化逐步落实,大量的裁判文书被公开,但由于全国各地司法系统的不同、案件文书类型的多样性、审判流程的复杂性以及人为的一些失误,导致裁判