微博图像文字内容识别与感知

被引量 : 6次 | 上传用户:llljjjxxx7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博网络的兴起与发展对科研领域带来了许多新的研究内容,并推动了自然语言处理、复杂网络社区发现等多个领域的研究。将多媒体中的内容提取并作为相关研究的样本,对以微博为研究对象的科研工作将具有良好的帮助作用。同时,对图片中的文字进行提取和识别也将极大地方便计算机自动化处理,在商业运用上也具有广阔的前景。图像文字识别主要作为模式识别中的一个重要分支,经历多年的发展后技术已经非常成熟,研究领域也逐渐扩展到自然场景文本识别、手写字符文本识别等方面,并获得了良好的应用。在文字识别的理论基础上,本论文主要工作为对文字识别中的文本定位和特征提取工作进行了研究和改进。并将图像文字识别技术应用到微博内容研究中,将提取和识别的文字保存,可以提供给其他研究领域进行进一步分析处理。本文在文本定位过程中结合图像的纹理和边缘特征,提出使用多尺度Gabor滤波器组对原图像进行变换处理,结合文本区域的先验知识对变换结果中的非文本对象进行过滤处理。边缘提取步骤中,使用Sobel算法对图像进行处理。将所获得的特征图像和边缘图像进行融合,并采用图像形态学的方法对融合结果作进一步的细节处理,从而获得文本区域。该方法提高了文本定位过程的准确性,在实际应用过程中的参数设置对经验值的依赖程度较小,具有较强的适应性。在单字符的特征提取中,采用了多尺度的Gabor滤波器组提取图像特征,形成一组包含多尺度多方向纹理特征的向量,最后使用SVM对所形成的纹理特征进行分类。最后,将上述方法应用到微博网络中,建立一个微博图像的采集和文字内容识别系统,完成微博图像的采集和逐步识别的功能,对提出的定位方法进行了验证。论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No.W11C100030)、北京科技计划(No.Z121100000312024)和北京市教育委员会学科建设与研究生建设项目等课题的支持。
其他文献
本文分析了我国清洗剂生产企业、清洗用户、清洗剂现状,重点总结了水基清洗剂优缺点、研发需考虑的问题、待解决的技术难题以及工业清洗剂的发展趋势。
新中国70年的发展取得举世瞩目的伟大成就,独立自主、和平发展的中国道路也愈加行稳致远。中国特色社会主义道路是中国共产党领导中国人民在长期实践中逐步开辟出来的民族复
在对企业财务管理学术热点进行概要分析的基础上,结合近期出台政策法规和现代信息技术发展,分析提出新时期企业财务管理八大发展趋势:企业内部会计制度集中修订;管理会计体系
随着煤炭用量增加,矿井的建设也随之加快,新建矿井多在深部煤层,地质条件复杂,大多数采用冻结法凿井。与此同时,矿井的建设难度越来越大,以前的建井设计和参数价值变得有限,
随着社会经济的不断发展,人、社会环境、企业经济之间的和谐发展已经越发重要,而绿色经济、循环经济与低碳经济则是实现这一目标的重要措施之一。绿色经济与循环经济、低碳经
旅游产业具有天然的融合基础,通过对河南旅游产业融合的动力机制进行分析,针对河南旅游产业融合缺乏统一的合作协调机制、旅游产业融合流于形式,旅游产业融合创新不足等问题,
20 0 0年 5月 1 1~ 1 2日波多黎各国家疫苗计划办公室在圣胡安主办了一个有关疫苗中铝佐剂的专题讨论会。参加会议的有疫苗学家、免疫学家、金属专家、病理学家、风湿病学家和
为了扩大天宝山矿区找矿线索,打开找矿工作的新局面,通过对天宝山矿区的初步调查与研究,认为该矿床应属层控式夕卡岩型矿床,矿体赋存在一定的层位内,成矿物质主要来自地层、
耕作制度改革是农业生产上一项关系全局的战略性措施。我国在解放之后,各地相继进行了耕作制度改革,取得了很大成绩。据统计,1949—1977年的28年中,全国水稻增产1,465亿斤,
为了研究支承结构对单层球面网壳在强震作用下失效特征的影响,建立了更为精细化的数值模型.采用动力荷载域全过程分析方法研究了单层球面网壳与支承结构整体在强震作用下的特征