大话机器智能:一书看透AI的底层运行逻辑_徐晟_AZW3_MOBI_EPUB_PDF_电子书(无页码)_徐晟

内容节选

4.1 大数据概述 过去,科学研究和企业决策也使用数据来支撑观点。只是近年来,数据的规模和复杂度急剧攀升,数据处理面临许多新的挑战:数据资源呈爆炸式增长,电脑、手机、摄像头、照相机、麦克风等大量电子设备每时每刻都在生产数据;庞大的数据量需要消耗大量计算资源和存储资源,传统的数据处理技术已难以胜任;百花齐放的应用场景催生了多样化的数据类型,进一步增加了数据处理的难度。 为了应对这些挑战,“大数据”技术和概念被提出,它改变了以往的科学研究方法和商业运作模式。无论是交通、餐饮、购物、通信、医疗、社交,人类几乎一切的活动和行为都被逐渐数据化。可以说,数据已然成为一种新的资源,而且是当今社会增长最快的资源。 古希腊数学家、哲学家毕达哥拉斯认为“万物皆数”,数是万物的本源,大自然中的一切都能被定义成数。如今,我们正在努力将2500年前毕达哥拉斯的想法变成现实,越来越多的数据促进了大数据产业的蓬勃发展。 4.1.1 数据是描绘世界的新方式 早在文字发明以前,人类祖先就会结绳记事,学会了计数和简单的算数方法。在原始社会,人类将信息记录在石块、木头、土坯、树皮、兽骨上,以便长期保存这些信息。由于当时通用文字和数字还未形成,每个人记录的内容和图案只有自己才看得懂。后来,通用的象形文字逐渐形成,人类学会了使用语言交流,并逐渐发展出了数学和计数系统。自计算机被发明以来,人类开始试图将生活中接触到的一切都变成数据,数据被存储到磁带、软盘、硬盘、光盘里,成为推动人类文明发展不可缺少的一部分。 今天所有的科学理论都建立在数据之上。只有以数据为基础,才称得上是现代科学,没有数据支撑的认知理论属于哲学、佛学的范畴。比如要解释什么是人,古人只能从文学、哲学的角度描述,但我们今天可以用数据来表达:人的全身肌肉大约有639块,由60亿条肌纤维构成;人由大约59种元素构成,其中6种(碳、氧、氢、氮、钙、磷)占了人身体的99%;人的心脏每天跳动约10万次,每天输送约6000升血液;通常一个人有206块骨头,成人皮肤的表面积大约有2平方米;正常人的体温保持在36~38摄氏度,等等。 以前,人们只能概念性地描述很多事物。但在今天,数据提供了一种全新的描述世界的方法。大到宇宙,小到细胞,数据让我们重新定义和认识了世间万物。 如今,人类几乎所有的社会活动都离不开数据。全球数据总量每年以指数级规模增长,数据积累的速度超过以往任何时期。根据国际数据公司IDC统计,2011年全球数据总量已经超过1ZB(1ZB=10亿TB),而且至少以每两年翻番的速度飞速增长。在数据规模急剧增长的同时,数据类型也越来越复杂,除了数据库软件中的结构化数据,还有视频、音频、文档、图片等各种非结构化数据。 “大数据”的概念早在20世纪被提出。麦肯锡公司对这一概念的定义是“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合”。可见,大数据的背后其实是为了处理它们而产生的一系列技术解决方案。今天,“大数据”的内涵更加丰富,它在不同的语境中有着不同的含义,既指复杂且大量的数据集合,也指一系列海量数据处理技术,还能代表一种由数据驱动的商业模式。 4.1.2 大数据到底有多大 提到大数据,首先它得是“大”数据。很多人刚接触大数据时,会产生这样的疑问:到底多大的数据才配称得上是大数据呢?实际上,这是一个很主观的概念。大数据的“大”是相对的,没有确切的界定。大数据并不单指数据容量的大小,还要看对这些数据按照特定需求进行处理的难度。 每个时期都有它的“大数据”。20世纪大多数人认为图书馆就是最大的信息仓库。在计算机刚被普及时,一个3.5英寸软盘的存储空间是1.44MB。互联网发展起来后,人们用于存储图像、音乐和视频的容量需求超过GB。如今,一部未经压缩的4KB电影存储容量已经达到TB级,全球数据总量超过ZB。曾经人们眼中的大数据在今天看来只是小数据。 大数据不仅仅指大量数据,还有数据类型丰富、处理速度快、价值密度低等特点。比如商家要分析美食受欢迎程度,收集的大数据中除了包含食物的做法、吃法、成分、价格,还可以有不同人的年龄、性别、收入、文化背景。一些看似对美食评价没有直接影响的数据,把它们和其他信息关联起来,或许会得到有意义的结论。这是大数据类型丰富的表现。 过去,数据存储很昂贵,对企业来说是一笔不小的投入,因此保存数据前必须想清楚用途。以银行为例,银行业务最关心的是转账、汇款等财务数据以及客户的卡号、证件号等个人资料,至于客户在手机银行App上逗留了多久、看过哪些内容,以往是不会记录的,因为把这些数据存下来,需要耗费大量的研发资源和存储资源,是一笔不小的投入。如今,随着大数据技术的发展,数据积累变得便捷,硬件成本不断下降,处理大数据的技术手段变得丰富,导致各个行业都会想尽办法获取更多数......

  1. 信息
  2. 作者简介
  3. 前言
  4. 第1章 世界充满不确定性
  5. 1.1 解题最重要的是思路
  6. 1.2 随机世界
  7. 1.3 概率的威力
  8. 1.4 直觉和错觉
  9. 1.5 生活中的大数定律
  10. 1.6 如何验证假设
  11. 1.7 经验和实践如何共存
  12. 1.8 结语
  13. 第2章 数据代表真相吗
  14. 2.1 小心数据的陷阱
  15. 2.2 数据收集的偏差
  16. 2.3 数据处理的悖论
  17. 2.4 数据呈现的误导
  18. 2.5 如何正确解读数据
  19. 2.6 结语
  20. 第3章 如何获得有用信息
  21. 3.1 数据、信息、知识
  22. 3.2 用信息丈量世界
  23. 3.3 信息是如何交换的
  24. 3.4 信息的加密与解密
  25. 3.5 信息里的噪声
  26. 3.6 结语
  27. 第4章 大数据处理与挖掘
  28. 4.1 大数据概述
  29. 4.2 数据处理的流程和方法
  30. 4.3 大数据改变了什么
  31. 4.4 结语
  32. 第5章 机器是如何学习的
  33. 5.1 机器学习是什么
  34. 5.2 机器学习算法
  35. 5.3 没有完美的算法
  36. 5.4 结语
  37. 第6章 模拟大脑的神经网络
  38. 6.1 不断演进的人工智能
  39. 6.2 机器会不会思考
  40. 6.3 深度学习算法
  41. 6.4 场景是算法的综合应用
  42. 6.5 结语
  43. 第7章 海量运算背后的技术
  44. 7.1 不断提升的计算能力
  45. 7.2 如何完成协作计算
  46. 7.3 无处不在的计算资源
  47. 7.4 软件代码共享的好处
  48. 7.5 结语
  49. 第8章 人工智能下的隐私与安全
  50. 8.1 大数据与隐私计算
  51. 8.2 人工智能与算法安全
  52. 8.3 如何构建防御体系
  53. 8.4 结语
  54. 第9章 未来会变成什么样子
  55. 9.1 可预见的未来
  56. 9.2 不可预知的未来
  57. 9.3 结语