【摘 要】
:
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)受页面模板的限制,这就Web数据抽
【机 构】
:
中国科学技术信息研究所,北京大学计算机科学技术研究所
【基金项目】
:
Supported by the National High-Tech Research and Development Plan of China under Grant No.2008AA01Z421 (国家高技术研究发展计划(863)), the China Postdoctoral Science Foundation Funded Project under Grant Nos.2008
论文部分内容阅读
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)受页面模板的限制,这就Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似
其他文献
在数据挖掘研究领域,现有的大多数聚类算法都受到数据可伸缩性和结果可解释性的限制.为了解决这一难题,提出了一种基于概念的数据聚类模型.该模型从描述数据样本的数据本身出发,首
商业银行会计监管是银行监管的基础和核心内容,而上市商业银行更是兼具了商业银行和上市公司双重身份,因此,本文围绕上市商业银行这一较特殊的被监管对象,对我国现阶段上市商
针对视角无关的动作识别,提出加权字典向量描述方法和动作图识别模型.将视频中的局部兴趣点特征和全局形状描述有机结合,形成加权字典向量的描述方法,该方法既具有兴趣点抗噪声强的优点,又可克服兴趣点无法识别静态动作的缺点.根据运动捕获、点云等三维运动数据构建能量曲线,提取关键姿势,生成基本运动单元,并通过自连接、向前连接和向后连接3种连接方式构成有向图,称为本质图.本质图向各个方向投影,根据节点近邻规则建
高职会计专业学生存在非专业素质培养缺乏和教学方式呆板、教学手段落后、实习形式单一等问题,针对这些问题,提出对策。
本文针对当前计算机多媒体在实际教学中的运用,对于计算机多媒体教学的优势以及其所存在的一些误区提出了粗浅的看法。
通过具体问题具体分析对装车系统进行改造,以符合万吨列车的装车要求,此项目完成后具有操作方便、安全可靠,同时避免了皮带的频繁启动,延长了皮带、电机、减速箱等的使用寿命
目的:利用生物信息学方法预测miR-125b的新靶基因,在肝癌细胞系中进行验证和结合位点的鉴定,为阐明miR-125b在肝癌发生发展中的作用和机制提供新线索。方法:Western印迹分析在
利用智能型轨道检测小车GJY-H和BCB5.0开发的软件实现铁路状态数据的实时采集、动态显示和分析系统的建立。介绍了在BCB5.0的开发环境中利用SPCOMM组件和API函数进行串口通讯
研究独立多处理机任务静态调度问题Pm|fix|Cmax,即在m个处理机系统中调度n个多处理机任务,每个任务指派到所需一组处理机上不可剥夺地执行.该问题应用广泛但早已证明为NP难问题,而
局部线性嵌入算法极大地依赖于邻域是否真实地反映了流形的内在结构,现有方法构造的邻域结构是拓扑不稳定的,对噪音和稀疏数据敏感.根据认知的相对性规律提出了相对变换,并用其构造了相对空间和相对流形.相对变换可以提高数据之间的可区分性,并能抑制噪音和数据稀疏的影响.在构造的相对空间和相对流形上确定数据点的邻域能够更真实地反映流形的内在结构,由此提出了增强的局部线性嵌入算法,明显地提高了性能,特别是基于流形