人工智能产品经理:AI时代PM修炼手册(修订版)_张竞宇_AZW3_MOBI_EPUB_电子书(无页码)_张竞宇
内容节选
4.3 数据采集 数据采集(Data Acquisition)过程类似于人用耳朵听、用眼睛看、用鼻子闻等各种感受外界的行为,接收外部信息是人制定决策、采取行动、摆明态度之前的重要一步,人工智能产品同样需要这样的过程。没有数据的采集,机器不会凭空学习,而学习的内容决定了机器可以实现智能化、类人化的上限。不同人工智能产品的数据采集过程完全不同,由于数据类型多、数据量大,需要采用各种工具和技术辅助才能实现采集过程。 4.3.1 数据来源 随着计算资源、开放训练平台的使用门槛越来越低,依靠计算能力在人工智能领域中建立门槛,已经越来越难。谷歌的Cloud TPU(Cloud Tensor Processing Unit)已经实现只需要数百美元的代价就可以在24小时内将ImageNet(计算机视觉系统识别项目名称,是目前世界上图像识别最大的数据库)中的ResNet-50模型训练到75%的精度。因此,数据就自然成为人工智能领域中毋庸置疑的竞争“壁垒”。 数据采集阶段首先考虑的重点是“数据从哪来”,互联网行业的数据由于原本就存放在各种类型的数据库里,具备天然的优势,因此互联网巨头掌握着垄断性的行业数据量。谷歌搜索广告业务带来了海量的用户搜索和历史浏览的记录数据。Meta(即原来的Facebook)上用户平均每天分享25亿个内容条目,包括状态更新、墙上的帖子、图片、评论和视频,上传约3亿张图片。这些数据可以让广告主将用户的社交图谱与其他数据结合起来,通过分析用户去过的地方和购买行为构建更丰富的用户画像,以便于精准营销。 除了社交网络、搜索引擎这些互联网数据采集渠道,万物互联时代,对线下场景数据的采集随着各类传感器技术的发展也成为兵家必争之地。例如,Amazon通过收购线下超市Whole Foods、创建无人便利店Amazon Go,以及推出智能语音控制音响Echo等手段采集用户的偏好和消费行为的数据。 尽管如此,并不意味着创业公司在数据方面毫无优势可言,人工智能的模型训练过程对行业数据的纵深度要求极高,例如在精准医疗领域,即使都是患者的眼部影像数据,训练对糖网进行预测的模型和对白内障进行预测的模型所需要的数据可能完全不同。因此,即便是互联网巨头也无法垄断各细分行业的数据,这也给做垂直细分领域的公司打了一针“强心剂”。 常见的数据获取方式有以下三种。 (1)直接购买行业数据(有些可以免费获得):从开放数据集网站(包括科研、算法竞赛、政府开发数据、个人组织公开数据等)、运营商、行业数据分析公司直接购买数据。 例如:ICPSR,提供全球领先的社会和行为学研究数据,如图4-8所示。 图4-8 ICPSR提供全球领先的社会和行为学研究数据 美国政府开放数据,如图4-9所示。 图4-9 美国政府开放数据 加州大学欧文分校(University of California,Irvine,简称UCI)创立的机器学习社区,涵盖六大领域的不同数据格式和类型的数据集,如图4-10所示。 图4-10 加州大学欧文分校的机器学习社区 数据堂,提供包括语音识别/语料库、图像识别/视频处理、生活服务/天气、社交网络/电子商务以及金融征信等数十种数据类型,如图4-11所示。 图4-11 数据堂 (2)自行采集,通过自身行业积累直接获取用户数据,也可以通过爬虫技术采集合法的互联网数据。自行采集数据的好处是按需定制,可以自定义采集的指标、字段、频率等。 网络爬虫(Web Crawler):爬虫本质上是一种自动获取网页内容并可以按照指定规则提取相应内容的程序,同时也是搜索引擎的重要组成部分,为搜索引擎系统提供数据来源,如图4-12所示。爬虫可以将结构化、非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。同时也支持图片、音频、视频等文件的采集以及有针对性的数据或文件的爬取,尤其对需要从指定的网站中获取数据、作为训练集来训练的模型非常有帮助。 图4-12 搜索引擎中使用的爬虫技术 爬虫技术由于具备很强的时效性特征,也被普遍应用在网络舆情监测、客户购买倾向、市场趋势、竞争对手分析、行业垂直搜索等领域中。例如客户全景画像利用网络爬虫系统对客户相关信息进行实时采集、监测、更新,不仅可以更全面地了解客户实时情况,而且通过采集到的数据可以用来训练金融风控模型,对潜在的客户营销商机和信用风险进行预判,有效提升客户营销和贷后风险管理效率,提升商业银行综合效益。 (3)第三方合作,整合行业资源,与友商或上下游的合作伙伴交换或购买数据。例如做精准医疗的人工智能公司可以从医院获得不包含患者姓名、手机号等敏感信息的医学影像数据。还有常见的电商公司与新闻聚合应用之间经常有数据合作关系,它们会交换用户的IMEI(国际移动设备识别码,International Mobile Equ......
- 信息
- 内容简介
- 前言
- 第1章 人工智能时代重新定义产品经理
- 1.1 人工智能时代产品的特殊性
- 1.2 人工智能产品经理的价值定位
- 1.3 人工智能产品经理需要兼具“软硬”实力
- 1.4 人工智能产品经理入门
- 第2章 懂行业的产品经理才不会被人工智能淘汰
- 2.1 人工智能时代将公司重新分类
- 2.2 什么叫作“懂行业”
- 2.3 如何修炼成为行业产品专家
- 2.4 本章小结
- 第3章 定义人工智能产品需求
- 3.1 重新定义需求分析
- 3.2 量化需求分析
- 第4章 人工智能产品体系
- 4.1 人工智能产品实现逻辑
- 4.2 基础设施
- 4.3 数据采集
- 4.4 数据处理
- 4.5 机器“大脑”处理过程:理解、推理和决策
- 4.6 资源配置统筹的关键环节:系统协调
- 4.7 不可逾越的红线:安全、隐私、伦理和道德
- 4.8 运维管理
- 第5章 机器学习
- 5.1 什么是机器学习
- 5.2 机器学习流程拆解
- 5.3 人工智能产品经理必备的算法常识
- 5.4 机器学习的常见开发平台
- 第6章 人工智能产品经理工作流程
- 6.1 设定清晰的目标
- 6.2 技术预研
- 6.3 需求分析和产品设计
- 6.4 充分参与研发过程
- 6.5 持续的产品运营
- 第7章 方法论、沟通和CEO视角
- 7.1 蜕变的必经之路:端到端产品管理
- 7.2 跨部门沟通
- 7.3 用CEO的视角进行产品管理
- 写在后面的话