大话机器智能:一书看透AI的底层运行逻辑_徐晟_AZW3_MOBI_EPUB_PDF_电子书(无页码)_徐晟
内容节选
4.1 大数据概述 过去,科学研究和企业决策也使用数据来支撑观点。只是近年来,数据的规模和复杂度急剧攀升,数据处理面临许多新的挑战:数据资源呈爆炸式增长,电脑、手机、摄像头、照相机、麦克风等大量电子设备每时每刻都在生产数据;庞大的数据量需要消耗大量计算资源和存储资源,传统的数据处理技术已难以胜任;百花齐放的应用场景催生了多样化的数据类型,进一步增加了数据处理的难度。 为了应对这些挑战,“大数据”技术和概念被提出,它改变了以往的科学研究方法和商业运作模式。无论是交通、餐饮、购物、通信、医疗、社交,人类几乎一切的活动和行为都被逐渐数据化。可以说,数据已然成为一种新的资源,而且是当今社会增长最快的资源。 古希腊数学家、哲学家毕达哥拉斯认为“万物皆数”,数是万物的本源,大自然中的一切都能被定义成数。如今,我们正在努力将2500年前毕达哥拉斯的想法变成现实,越来越多的数据促进了大数据产业的蓬勃发展。 4.1.1 数据是描绘世界的新方式 早在文字发明以前,人类祖先就会结绳记事,学会了计数和简单的算数方法。在原始社会,人类将信息记录在石块、木头、土坯、树皮、兽骨上,以便长期保存这些信息。由于当时通用文字和数字还未形成,每个人记录的内容和图案只有自己才看得懂。后来,通用的象形文字逐渐形成,人类学会了使用语言交流,并逐渐发展出了数学和计数系统。自计算机被发明以来,人类开始试图将生活中接触到的一切都变成数据,数据被存储到磁带、软盘、硬盘、光盘里,成为推动人类文明发展不可缺少的一部分。 今天所有的科学理论都建立在数据之上。只有以数据为基础,才称得上是现代科学,没有数据支撑的认知理论属于哲学、佛学的范畴。比如要解释什么是人,古人只能从文学、哲学的角度描述,但我们今天可以用数据来表达:人的全身肌肉大约有639块,由60亿条肌纤维构成;人由大约59种元素构成,其中6种(碳、氧、氢、氮、钙、磷)占了人身体的99%;人的心脏每天跳动约10万次,每天输送约6000升血液;通常一个人有206块骨头,成人皮肤的表面积大约有2平方米;正常人的体温保持在36~38摄氏度,等等。 以前,人们只能概念性地描述很多事物。但在今天,数据提供了一种全新的描述世界的方法。大到宇宙,小到细胞,数据让我们重新定义和认识了世间万物。 如今,人类几乎所有的社会活动都离不开数据。全球数据总量每年以指数级规模增长,数据积累的速度超过以往任何时期。根据国际数据公司IDC统计,2011年全球数据总量已经超过1ZB(1ZB=10亿TB),而且至少以每两年翻番的速度飞速增长。在数据规模急剧增长的同时,数据类型也越来越复杂,除了数据库软件中的结构化数据,还有视频、音频、文档、图片等各种非结构化数据。 “大数据”的概念早在20世纪被提出。麦肯锡公司对这一概念的定义是“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合”。可见,大数据的背后其实是为了处理它们而产生的一系列技术解决方案。今天,“大数据”的内涵更加丰富,它在不同的语境中有着不同的含义,既指复杂且大量的数据集合,也指一系列海量数据处理技术,还能代表一种由数据驱动的商业模式。 4.1.2 大数据到底有多大 提到大数据,首先它得是“大”数据。很多人刚接触大数据时,会产生这样的疑问:到底多大的数据才配称得上是大数据呢?实际上,这是一个很主观的概念。大数据的“大”是相对的,没有确切的界定。大数据并不单指数据容量的大小,还要看对这些数据按照特定需求进行处理的难度。 每个时期都有它的“大数据”。20世纪大多数人认为图书馆就是最大的信息仓库。在计算机刚被普及时,一个3.5英寸软盘的存储空间是1.44MB。互联网发展起来后,人们用于存储图像、音乐和视频的容量需求超过GB。如今,一部未经压缩的4KB电影存储容量已经达到TB级,全球数据总量超过ZB。曾经人们眼中的大数据在今天看来只是小数据。 大数据不仅仅指大量数据,还有数据类型丰富、处理速度快、价值密度低等特点。比如商家要分析美食受欢迎程度,收集的大数据中除了包含食物的做法、吃法、成分、价格,还可以有不同人的年龄、性别、收入、文化背景。一些看似对美食评价没有直接影响的数据,把它们和其他信息关联起来,或许会得到有意义的结论。这是大数据类型丰富的表现。 过去,数据存储很昂贵,对企业来说是一笔不小的投入,因此保存数据前必须想清楚用途。以银行为例,银行业务最关心的是转账、汇款等财务数据以及客户的卡号、证件号等个人资料,至于客户在手机银行App上逗留了多久、看过哪些内容,以往是不会记录的,因为把这些数据存下来,需要耗费大量的研发资源和存储资源,是一笔不小的投入。如今,随着大数据技术的发展,数据积累变得便捷,硬件成本不断下降,处理大数据的技术手段变得丰富,导致各个行业都会想尽办法获取更多数......
- 信息
- 作者简介
- 前言
- 第1章 世界充满不确定性
- 1.1 解题最重要的是思路
- 1.2 随机世界
- 1.3 概率的威力
- 1.4 直觉和错觉
- 1.5 生活中的大数定律
- 1.6 如何验证假设
- 1.7 经验和实践如何共存
- 1.8 结语
- 第2章 数据代表真相吗
- 2.1 小心数据的陷阱
- 2.2 数据收集的偏差
- 2.3 数据处理的悖论
- 2.4 数据呈现的误导
- 2.5 如何正确解读数据
- 2.6 结语
- 第3章 如何获得有用信息
- 3.1 数据、信息、知识
- 3.2 用信息丈量世界
- 3.3 信息是如何交换的
- 3.4 信息的加密与解密
- 3.5 信息里的噪声
- 3.6 结语
- 第4章 大数据处理与挖掘
- 4.1 大数据概述
- 4.2 数据处理的流程和方法
- 4.3 大数据改变了什么
- 4.4 结语
- 第5章 机器是如何学习的
- 5.1 机器学习是什么
- 5.2 机器学习算法
- 5.3 没有完美的算法
- 5.4 结语
- 第6章 模拟大脑的神经网络
- 6.1 不断演进的人工智能
- 6.2 机器会不会思考
- 6.3 深度学习算法
- 6.4 场景是算法的综合应用
- 6.5 结语
- 第7章 海量运算背后的技术
- 7.1 不断提升的计算能力
- 7.2 如何完成协作计算
- 7.3 无处不在的计算资源
- 7.4 软件代码共享的好处
- 7.5 结语
- 第8章 人工智能下的隐私与安全
- 8.1 大数据与隐私计算
- 8.2 人工智能与算法安全
- 8.3 如何构建防御体系
- 8.4 结语
- 第9章 未来会变成什么样子
- 9.1 可预见的未来
- 9.2 不可预知的未来
- 9.3 结语