中文文本分类相关算法的研究与实现

来源 :吉林大学学报:理学版 | 被引量 : 0次 | 上传用户:csnd123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对分词歧义处理情况的分析,提出一种基于上下文的双向扫描分词算法,对分词词典进行改进,将词组短语的固定搭配引入词典中。讨论了特征项的选择及权重的设定,并引进X^2统计量参与项的权值计算,解决了目前通用TF-IDF加权法的不足,同时提出了项打分分类算法,提高了特征项对于文本分类的有效性。实验结果表明,改进后的权重计算方法性能更优越。
其他文献
利用高光谱遥感技术反演土壤性质已经成为土壤学和遥感科学研究领域的新手段,特别对土壤化学元素含量的高光谱反演,已成为土壤元素快速监测方法的的研究热点。以往研究往往关注不同类型土壤的化学元素光谱响应特征模型,以试图找到普适性的元素-光谱反演模型。由于成土因素的复杂性,土壤类型及其化学元素分布具有明显的空间异质性特征,宏观尺度上的土壤-光谱统计反演模型客观上具有较大的不确定性。若范围缩小到同一个气候带,
证明在一定条件下,与地理相关数据的最优显示问题在多项式时间内可解.通过分析最优显示问题,给出它的数学模型及评价标准.并把它转化为二分图匹配问题,给出了算法.这个算法可以在多项式时间内求得最优解.
为实现对动态范围达120dB的日盲紫外增强型电荷耦合器件(SBUV-ICCD)的辐照度定标,设计并实现了超大动态范围日盲紫外辐照度光源。首先估算出SBUV-ICCD的辐照度定标所需的动态范
利用太赫兹时域光谱技术测量了硝基呋喃类药物中呋喃妥因原药在0.2~1.8THz范围内的吸收系数、折射率等光学指纹特性,结果表明呋喃妥因在该频率范围内出现了多个强度不同的特征吸
根据有机电致发光显示器件(OLED)的发光特性及多晶硅薄膜晶体管 (Poly-Si TFT)的工作特性,对Poly-Si TFT有源驱动OLED的源极跟随型双管单元像素驱动电路进行了理论计算和模拟
<正> 作为药物代谢酶、药物转运载体、药物受体和离子通道编码的基因,其多态现象可影响到个体产生药物不良反应的危险性或改变治疗个体的药物功效。对个体产生药物不良反应的
<正> 法国的研究人员发现,遗传父亲的多态现象与改变胰岛素基因表达相关的儿童发展为早期肥胖的危险性增高。巴黎St Vincent医院的Catherine Le Stunff及其同事对父母亲传递
【正】 科学家首次研制了能在试管中制造人体抗体的技术。此项突破可能为更有效地治疗艾滋病或癌症等疾病铺平道路。以前是用实验动物制造抗体,而此项研究的研究小组用尖端的
针对校园网中大量IP地址盗用问题,深入分析了IP地址管理的特点,讨论了解决IP盗用的几种传统方法.以Java为开发工具,利用简单网络管理协议(SNMP)技术,通过定期读取中心交换机的ARP信
采用经典理论的辛算法数值求解强场下二维共面异核氢分子离子(HD+)的Hamilton正则方程,得到了二维异核氢分子离子(HD+)在激光场作用下的经典轨迹,计算了HD+的存活几率、电离几率、解