新版搜索下载系统内测,不限量免费下载(免费至7月1日)(点击打开新版

基于Hadoop平台的随机森林算法研究及图像分类系统实现

资料来自用户(Greta)上传,若本站收录的文献无意侵犯了您的著作版权,请点击版权申明
导师姓名
郑建德
学科专业
计算机技术
文献出处
厦门大学   2014年
关键词
图像分类论文  随机森林论文  词袋模型论文
论文摘要

随着互联网和多媒体技术的不断发展,海量的图像资源和数据涌入互联网,它们深刻地影响着我们的日常生活,此时对于图像内容准确地理解显得尤为重要。图像分类技术融合了机器学习、人工智能等学科的先进思想和理论,旨在将原本无序分布的大批量的图像数据进行有序地归类,是解决图像理解问题的基础。随机森林算法建立在决策树模型基础之上,它是多棵决策树的组合,在分类场景中得到广泛应用。作为一种优秀的分类器模型,也为图像分类提供了新的思路。但当图像资源的数据量特别大时,分类将是一个十分耗时的过程。为了解决以上问题,本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率。首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架;接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法;随后,重点介绍随机森林算法,并在此基础之上,结合MapReduce计算框架,对随机森林模型构建过程进行双重并行化的改进,以提高随机森林算法的运行效率;然后,基于以上研究成果,本文构建了基于Hadoop平台的图像分类原型系统,包括Hadoop平台下处理图像接口的实现、基于DenseSift算法的特征采样过程、基于BoVW模型表示图像、构建图像的空间金字塔模型和利用改进后的随机森林算法进行分类器的训练共五个部分。最后,通过实验验证了基于Hadoop平台的图像并行化处理地有效性,同时证明并行化的随机森林算法相比较于单机版的随机森林,处理过程所消耗的时间大为缩短,并取得了不错的分类效果。基于Hadoop平台的图像并行化处理过程,大大提高了海量图像处理过程的速度,同时针对于图像分类,改进后的随机森林算法在效率上有了明显的提高。

论文目录
关闭目录

摘要

Abstract

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 图像分类问题研究现状

1.2.2 随机森林算法研究现状

1.2.3 Hadoop平台应用现状

1.3 本文的主要研究内容

1.4 本文的结构安排

第二章 Hadoop技术架构概述

2.1 Hadoop简介

2.1.1 项目背景

2.1.2 Hadoop的基本架构模型

2.2 分布式文件系统HDFS

2.2.1 设计原则

2.2.2 NameNode与DataNode

2.2.3 数据存储

2.3 编程模式MapReduce

2.4 本章小结

第三章 图像分类问题研究综述

3.1 图像特征提取

3.1.1 底层特征:颜色、纹理和形状

3.1.2 SIFT特征

3.1.3 Bag of Visual Words特征

3.2 分类算法

3.2.1 朴素贝叶斯

3.2.2 K近邻

3.2.3 BP神经网络

3.2.4 支持向量机

3.3 本章小结

第四章 随机森林算法基本理论

4.1 决策树及相关概念

4.1.1 决策树算法

4.1.2 决策树属性的选择

4.1.3 决策树的剪枝

4.2 随机森林算法

4.2.1 定义

4.2.2 随机性的引入

4.2.3 随机森林的生长

4.2.4 随机森林的分类

4.3 本章小结

第五章 基于MapReduce的随机森林算法并行化研究

5.1 Mahout中随机森林的并行化实现

5.2 随机森林并行化算法进一步改进

5.3 本章小结

第六章 基于Hadoop的图像分类系统设计与实现

6.1 本文图像分类系统简介

6.2 基于Hadoop的图像并行化处理

6.2.1 HipiImageBundle格式

6.2.2 键值对类型ImageHeader/FloatImage

6.2.3 作业的输入格式ImageBundleInputFormat

6.3 基于DenseSift算法和BoVW模型构建图像空间金字塔表示

6.3.1 BoVW模型在图像分类场景中的应用简介

6.3.2 BoVW模型构建及表征图像

6.3.3 构造空间金字塔

6.4 基于分布式Random Forest算法构建分类器

6.4.1 输入数据准备

6.4.2 运行过程

6.5 本章小结

第七章 实验设计及结果分析

7.1 实验数据集

7.2 评价标准

7.3 实验环境搭建

7.3.1 实验环境

7.3.2 系统部署

7.4 实验结果分析

7.4.1 分类结果分析

7.4.2 并行化随机森林分析

7.5 本章小结

第八章 总结与展望

参考文献

致谢

全文下载
全文下载