AI思维:从数据中创造价值的炼金术_丁磊_AZW3_MOBI_EPUB_PDF_电子书(无页码)_丁磊
内容节选
AI感知图像和语音 在实际生活中,我们会遇到各种各样的数据,为了更好地对这些数据进行分析掌握,我们将其分为两类:结构化数据和非结构化数据。结构化数据就是能够用统一的结构加以表示的数据,例如数字、符号等。反之,非结构化数据是指那些字段长度可变,不能够用统一的结构加以表示的数据,如图像、视频、语音、文本等信息。非结构化数据与我们的生活息息相关,我们接下来就来了解一下人工智能是如何处理这些非结构化数据的。 前面我们已经提到过像佳丽的特征脸这种简单图像处理的例子,相信你已经有了一定的图像理解的基础。我们现在要从较为直观的人工智能理解图像开始,层层递进,更加全面深入地讲解人工智能理解非结构化数据的方法。 提到人工智能理解图像,就不得不说计算机视觉。计算机视觉是人工智能在视觉领域的应用,也就是说人工智能理解图像要通过计算机视觉来实现。1966年,人工智能先驱马文·明斯基让他的一个学生“花一个夏天把相机接在计算机上,让计算机描述它看到的东西”。但明斯基低估了这个项目的难度,他认为只要一个夏天就能让计算机理解图像,但是之后又过了几十年,计算机还是不能很好地理解图像,直到现在,计算机也没有达到能够完全理解图像的高度。要想真正进入千家万户,计算机视觉仍然需要不断改进和提升。 回到人工智能理解图像的正题。图像就是像素值在二维空间的排列,像素可以用RGB(红绿蓝)三色值来表示,或者灰度值来表示。我们看到的图像无一不是这样类型的数据。虽然人眼能够很简单地理解图像内容,但这对人工智能模型来说却非常复杂。所以我们从以下几个方向对图像理解展开讲解:图像特征、图像分割、图像识别和图像中的目标检测等。 图像特征 图像特征主要包括图像的颜色特征、纹理特征、形状特征和空间关系特征。对图像特征的描述分为全局描述和局部描述。全局描述可以通过原始像素值特征、直方图特征、GIST特征这三种方法来实现,但是因为局部描述比全局描述更细致,所以下面我们主要来介绍局部描述。 局部描述是计算机视觉研究的一个基本问题,它主要用来寻找图像中的关键点,进行物体特征的数字化描述。提到局部特征,首先要想到的是SIFT特征。SIFT全名是尺度不变特征转换(Scale-Invariant Feature Transform),是一种用来检测与描述图像中的局部特征的计算机视觉模型,能够在空间尺度中寻找极值点,并提取出相应的位置、尺度、旋转不变量。尺度可以理解为图像的模糊程度,类似于眼睛近视的度数,尺度越大细节越少。不变量是指计算机视觉识别的图像中物体的本质特征。比如你拍同一个杯子,在不同的角度和位置拍出来的杯子大小以及杯子上花纹的角度位置都是不一样的,但是计算机视觉识别的是杯子的本质特征,虽然位置、大小、角度都发生了变化,但是杯子本身没有发生变化。这个由加拿大教授戴维·洛(David Lowe)总结完善的特征计算方法,在计算机视觉的发展史上非常有影响,在很多涉及图像的人工智能应用里都可以找到它的身影。 局部图像特征的检测与描述可以帮助识别物体,我们在观察一个物体时,如果角度、距离甚至光线不同,我们观察的结果也会有些许误差。但SIFT特征是基于物体上的一些局部外观的关键点,与图像的大小和旋转无关,对于光线、噪声、轻微视角改变的容忍度也比较高。例如图4-9中的两张照片,它们是同一个物体在不同的视角下拍摄而成的,在这两张照片上存在SIFT特征的对应关系,对应的SIFT特征用线条连接起来。可以看出,SIFT特征能较好地描述图像内容,较少受干扰因素的影响。 图4-9 SIFT特征示意图 SIFT特征高度显著且相对容易提取,因而用它很容易辨识物体,而且少有误识。SIFT特征的本质是在不同的尺度空间上查找关键点,并计算出关键点的方向。SIFT所查找到的关键点是一些比较突出的点。这些点包括角点、边缘点、暗区的亮点以及亮区的暗点等,它们不易因光照、线性变换和噪声等因素的干扰而发生变化。在人工智能里,这些点对物体的识别和检测非常重要。除此之外,使用SIFT特征描述部分遮蔽物体的检测率也比较高。 下面我们来具体讲解一下生成SIFT特征的过程。这个过程可以分解为四步。 第一步,尺度空间极值检测:搜索所有尺度上的图像位置,识别潜在的对于尺度和旋转不变的兴趣点。 第二步,关键点定位:在每个候选的位置上,通过模型来确定位置和尺度,根据每个候选位置的稳定程度来选择关键点。 第三步,方向确定:根据图像局部基于像素值变化的梯度方向(像素值增加最快的方向),给每个关键点分配方向。 第四步,关键点描述:在每个关键点周围的邻域内,在选定的尺度上计算图像局部的梯度,从而产生特征表示。 图4-10是SIFT特征产生的过程。左边显示了图像上一个关键点周边各像素点上的梯度,右边是根据梯度的方向分布生成的直方图,作为该关键点的SIFT特征向量。 图4......
- 信息
- 推荐序 “AI思维”——人工智能的落地指南
- 前言
- 第一章 AI思维是时代机遇
- 大赚1 000亿美元的秘密
- 寻找你的“阿尔法”
- AI思维的核心价值
- 第二章 AI思维的底层逻辑
- 模型的泛化能力
- 方差和偏差的权衡
- 相关性和因果性
- 数据的规律性
- 第三章 AI炼金术:数据产生价值
- 从数据到价值的历程
- AI如何做出决策
- 业务优化方法
- 会思考的人工智能
- AI炼金术的应用生态
- 第四章 人人都能理解AI
- AI的分类和聚类
- AI感知图像和语音
- AI理解自然语言
- AI理解商业数据
- AI理解消费数据
- AI理解社交数据
- 第五章 数字化赋能
- 行业数字化是大势所趋
- 工业赋能:数字化的物理世界
- 零售赋能:智能产品定位和营销
- 第六章 企业级AI中台
- 美好而混乱:AI治理的困境
- 以生产目标为核心,提升智能制造水平
- 以消费者为核心,赋能智慧新零售
- 第七章 AI实战的故事
- 零售业AI实战
- 工业AI实战
- 金融业AI实战
- 第八章 AI的挑战与对策
- AI模型的挑战
- AI的伦理和法律挑战
- AI落地的人为因素
- 参考文献
- 后记