深度卷积神经网络的发展及其在计算机视觉领域的应用

资料来自用户(Patrick)上传,若本站收录的文献无意侵犯了您的著作版权,请点击版权申明
文献出处
计算机学报  2019年03期
机 构
西北工业大学电子与信息学院,西安交通大学人工智能与机器人研究所
基 金
国家“九七三”重点基础研究发展规划项目基金(2015CB351705),国家自然科学基金重点项目(61332018),国家自然科学基金青年科学基金项目(61703344),中央高校基本科研业务费专项资金(3102017OQD021)资助~~
关键词
类脑智能论文  神经网络论文  深度学习论文  计算机视觉论文  视觉认知论文
论文摘要

作为类脑计算领域的一个重要研究成果,深度卷积神经网络已经广泛应用到计算机视觉、自然语言处理、信息检索、语音识别、语义理解等多个领域,在工业界和学术界掀起了神经网络研究的浪潮,促进了人工智能的发展.卷积神经网络直接以原始数据作为输入,从大量训练数据中自动学习特征的表示.卷积神经网络具有局部连接、权值共享和池化操作等特性,可以有效降低网络复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性.目前,深度卷积神经网络主要是通过增加网络的层数,使用更大规模的训练数据集,以及改进现有神经网络的网络结构或训练学习算法等方法,来模拟人脑复杂的层次化认知规律,拉近与人脑视觉系统的差距,使机器获得"抽象概念"的能力.深度卷积神经网络在图像分类、目标检测、人脸识别、行人再识别等多个计算机视觉任务中都取得了巨大成功.该文首先回顾了卷积神经网络的发展历史,简单介绍了M-P神经元模型、Hubel-Wiesel模型、神经认知机、用于手写识别的LeNet以及用于ImageNet图像分类比赛的深度卷积神经网络.然后详细分析了深度卷积神经网络的工作原理,介绍了卷积层、采样层、全连接层的数学表示及各自发挥的作用.接着该文重点从以下三个方面介绍卷积神经网络的代表性成果,并通过实例展示各种技术方法对图像分类精度的提升效果.从增加网络层数方面,讨论并分析了AlexNet、ZF-Net、VGG、GoogLeNet和ResNet等经典卷积神经网络的结构;从增加数据集规模方面,介绍了人工增加标注样本的难点以及使用数据扩增技术对神经网络性能提升的作用;从改进训练方法方面,介绍了包括L2正则化、Dropout、DropConnect、Maxout等常用的正则化技术,Sigmoid函数、tanh函数以及ReLU函数、LReLU函数、PReLU函数等常用的神经元激活函数,softmax损失、hinge损失、contrastive损失、triplet损失等不同损失函数,以及batch normalization技术的基本思想.针对计算机视觉领域,该文重点介绍了卷积神经网络在图像分类、目标检测、人脸识别、行人再识别、图像语义分割、图片标题生成、图像超分辨率、人体动作识别以及图像检索等方面的最新研究进展.从人类视觉认知机制出发,分析了视觉信息分层处理和"大范围优先"视觉认知过程的相关理论成果和对当前计算模型的一些理论启示.最后提出了未来基于深度卷积神经网络的类脑智能研究待解决的问题与挑战.

在线阅读全文下载
在线阅读全文下载