基于领域信息加权的文本相似度计算研究与实现

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:tjbxgb123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息资源通过Internet的全球化共享使科学技术在各种领域的研究进展和成果日益多的得到关注。在管理有关学术研究方面的信息时需要对各种领域的专家信息及其研究项目内容信息进行有效和有序的管理,其中最关键的技术是对文本信息的处理,而文本相似度的计算是其中非常基础的问题。本文在实现文本相似度计算的过程中针对包括常用的文本特征选择方法不完善和文本表示模型考虑因素不全面等问题做了以下工作:  1.在文本预处理阶段,基于最大匹配算法并结合统计策略建立了一个分词系统。该系统的分词词典被建立成了双层哈希结构并通过结合统计策略为系统添加了对未登录词的自动识别功能。该方法不仅提高了分词精度还因词典的合理有效存储加快了预处理的速度。  2.在特征选择时,通过建立领域特征词集合对原始特征进行二次选择。该方法是根据词在不同类别中互信息的表征差异,通过计算词与不同类别的互信息的差值来实现的。它在一定程度上抑制了单纯使用互信息时因出现一个词在多个领域中有较大的互信息而产生的特征“噪声”。  3.在相似度计算时,结合文本分类对以词作为最小单位生成的TF-IDF项进行领域信息的加权并引入了分类的后验概率作为一个衡量领域类别信息加权可信度的指标,使分类与加权形成一个自适应的模式。该方法弥补了传统TF-IDF忽略词包含的领域信息(即一个词对特定领域类别的表征能力)这一不足。  最后采用复旦大学搜集的语料和广西开发院科技项目评估系统中专家的真实信息作为实验对象,对比了基于传统互信息和基于建立领域特征词的方法进行文本分类的效果,并对基于传统的TF-IDF和基于加权领域信息的TF-IDF的文本相似度计算方法进行了测试。试验结果表明:在分词系统与评估标准相同的情况下,基于建立领域特征词的特征选择大大地提高了分类的正确率。同时,利用基于领域信息加权的TF-IDF方法表征文本也比单纯采用传统的TF-IDF的方法更有效。
其他文献
一个成年人一年要喝多少水?约1000升.但生产一条牛仔裤却需要几倍于这个数字的水……2016年德国纪录片《牛仔裤的代价》引起一片哗然,在人们眼中高污染、高排放、高密集成为
期刊
随着算法对信号处理平台的采集频率和运算速度的要求不断提高,并行多路处理系统的设计方式成为解决系统成本和执行效率的主要方法,并行阵列的通用信号处理平台的设计,为例如LFMC
第一部分:δEF1抑制BMP-2诱导小鼠前成肌细胞C2C12向成骨细胞分化的机制研究δEF1隶属于一类转录因子超家族,该家族成员的结构特征为分子的N-端和C-端各有一个krüpple样锌指
本研究以两系杂交水稻(8820s/R29)为材料,采用~(32)P示踪技术研究了:控释氮肥对杂交水稻磷的吸收及固定的影响;控释氮肥不同施用量对杂交水稻的磷素吸收及产量的影响;控释氮肥和不同类型磷肥对杂交水稻生长发育、磷素平衡和产量的影响。结果表明:1.应用~(32)P示踪结果表明:杂交水稻整个生育期磷素的吸收趋势是呈明显的“S”曲线,与普通尿素相比,施用控释氮肥,明显地增加了杂交水稻在分蘖期、孕穗
近日,由中国纺织信息中心、国家纺织产品开发中心、浙江省绍兴市柯桥区中国轻纺城建设管理委员会主办,中国女装面料流行趋势研究院、中国纺织面料流行趋势研究与发布联盟、柯
期刊
二维指向扫描控制技术以其扫描范围广,控制精确度高等特点广泛应用于卫星观测等各种领域。本课题旨在二维指向扫描控制技术的研究。研究目的为实现陆地模式、海洋模式等各种控
为了测试GPS/GLONASS接收机的性能,需要GPS/GLONASS卫星信号模拟器提供一个高精度、高稳定性、环境复杂且可复现的 GPS/GLONASS信号。同时,通过对 GPS/GLONASS完善系统的模拟,能
红外哈特曼-夏克波前传感器作为一种重要的波前探测器件,已经被广泛应用在天文观测、光束测量、眼科医疗等场合的红外波段自适应光学系统中。本文以提高红外高帧频哈特曼-夏克
本研究以福建省27份橄榄遗传资源为材料,摸索出适合橄榄叶片基因组DNA的提取方法:建立和优化了橄榄RAPD反应体系;筛选出具有品种(或单株)特异性的RAPD标记;采用RAPD标记,结合
CAMTA1是一类钙调素结合蛋白,对植物抵抗非生物胁迫及自身的生长发育具有重要作用。本研究从紫花苜蓿中克隆得到MsCAMTA1基因,将其连至过表达载体pCBM和敲除载体pYLCRISPR/Cas9-DH,并对紫花苜蓿进行遗传转化,为研究Ms CAMTA1基因的功能奠定基础。主要研究结果如下:1.Ms CAMTA1基因的克隆与序列分析利用RT-PCR法克隆获得MsCAMTA1基因。序列分析结果显示,