图像识别对语音语义交互领域形成补充

您当前位置：首页 > 行业分析 > IT通讯 > 　正文

来源：中为咨询www.zwzyzx.com 【日期：2016-08-31 17:54:06】【打印】【关闭】

相关报告

图像识别系统的过程分为五部分：图像输入、预处理、特征提取、分类和匹配。人类感觉信息中的80%都是视觉信息。图像识别是计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说，图像识别就是计算机如何像人一样读懂图片的内容。借助图像识别技术，我们不仅可以通过图片搜索更快的获取信息，还可以产生一种新的与外部世界交互的方式，甚至会让外部世界更加智能的运行。

图像识别过程

图像识别的应用领域非常广泛。从工业视觉到人机交互，从视觉导航到虚拟现实，从安全领域到医学图像，从自动解释道遥感分析，这些在未来服务机器人身体上都是非常重要的功能。

图像应用领域

印刷/手写字体OCR识别技术早已成熟，自然条件下OCR技术在十年前是难题。20世纪90年代，平板扫描仪对印刷体文本的识别率已经达到99%以上，谷歌还申请了图书扫描专利，除此之外手写字体的识别也被广泛用于邮件分类、支票分类、手写表格数字化等领域。但是在2004年300万像素的智能手机诞生后，人们发现手机拍摄的自然条件下的文字识别率大大降低，即使是印刷字体也只能达到60%-70%的识别率。

十年前文本和自然条件下OCR识别率对比

近年来自然条件下OCR识别率不断提高，微软取得突破性进展。经过技术不断突破，业界识别精度达到80%，召回率达到67%。在2014年8月斯德哥尔摩举办的国际模式识别大会（ICPR）上，微软亚洲研究院团队将自然条件下文字识别精度提升到92.12%，召回率提升至92.32%，基本达到商用门槛值。

2014年微软亚洲研究院极大提升了自然条件下OCR识别率

图像识别准确率不断提高，但是仍无法满足商用要求。ImageNet图像分类大赛：以计算机视觉领域“奥林匹克竞赛”之称的ImageNet对象分类为基准。比赛设置：1000类图像分类问题，训练数据集126万张图像，验证集5万张，测试集10万张。2012，2013，2014均采用了该数据集。评价标准采用top-5错误率，即对一张图像预测5个类别，只要有一个和人工标注类别相同就算对，否则算错。近年来识别准确率不断提高，但仍在自然条件下表现不好，仍无法满足商用要求。

ImageNet历年成绩

未来图像识别门槛值突破将依靠深度学习。图像识别技术并不完善，仍然面临许多困难。图像识别的问题，目前是学术界研究的热点，这类AI问题将从三个方面去着手解决：首先是计算能力，通过CPU、GPU、分布式架构等提高计算能力，然后是大数据，数据量越多，一般来说越有利于机器学习，还有算法，目前主流的算法是深度学习的CNN算法和RNN算法。

图像识别未来研究方向