R数据挖掘实战_【意大利】安德烈亚·奇里洛_AZW3_MOBI_EPUB_PDF_电子书(无页码)_【意大利】安德烈亚·奇里洛

内容节选

7.1定义数据建模策略 “我向克劳夫提出的这个解决方案也许太过草率了。他是一位非常出色的专业人士,我从没有听说过他的请求会得不到满意的答复。而且,从他的话语间,我感觉导致现金流下降的原因不排除欺诈的假设。如果事情真是这样的话,我会更加紧张。”安迪说道。 “尽管如此,我们也要按‘一切照旧’的情形去处理当前的问题。重点是眼下需要获得以往的违约事件相关的数据,以及有过违约历史记录的公司列表。”安迪说道,“什么?公司还给了你过去的违约事件的数据集,你还对它进行了清理?这真是太好了。接下来,请把数据集发给我,我们就可以马上把它用起来了。” “clean_casted_stored_data_validated_complete,是这个数据集吗?文件名字太长没有关系的。”只需要用glimpse()函数运行一下,观察文件的内容就行了。glimpse(clean_casted_stored_data_validated_complete) Observations: 11,523 Variables: 16 $ attr_3 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... $ attr_4 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... $ attr_5 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... $ attr_6 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... $ attr_7 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... $ default_numeric "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", ... $ default_flag 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... $ customer_code 8523, 8524, 8525, 8526, 8527, 8528, 8529, 8530, 8531, 8533, 8534, 8535, 8536, 8537, 8538, 8539, 8540, 8541, 8542, 8544, ... $ attr_10 -1.000000e+06, 7.591818e-01, -1.000000e+06, 6.755027e-01, 1.000000e+00, 1.000000e+00, 9.937470e-01, 1.000000e+00, 3.7204... $ attr_11 3.267341e-02, 4.683477e-02, 4.092031e-02, 1.482232e-01, 3.383478e-02, 6.593393e-02, 6.422492e-02, 2.287126e-02, 4.475434... $ attr_12 7598, 565, 50000, 1328460, 389, 25743, 685773, 27054, 48, 648, 1683, 5677342, 322, 775, 150000, 1054413, 116014, 4424......

  1. 信息
  2. 内容提要
  3. 作者简介
  4. 审稿人简介
  5. 前言
  6. 第1章 为何选择R语言
  7. 1.1 什么是R语言
  8. 1.2 R语言的发展历史
  9. 1.3 R语言的优势
  10. 1.4 安装R语言和编写R语言代码
  11. 1.5 R语言的基本概念
  12. 1.6 R语言的劣势以及如何克服这些劣势
  13. 1.7 更多参考
  14. 1.8 小结
  15. 第2章 数据挖掘入门
  16. 2.1 获取并组织银行数据
  17. 2.2 使用数据透视表汇总数据
  18. 2.3 使用ggplot2程序包对数据进行可视化
  19. 2.4 更多参考
  20. 2.5 小结
  21. 第3章 数据挖掘进阶
  22. 3.1 CRISP-DM方法论之数据挖掘周期
  23. 3.2 业务理解
  24. 3.3 数据理解
  25. 3.4 数据准备
  26. 3.5 建模
  27. 3.6 评估
  28. 3.7 部署
  29. 3.8 小结
  30. 第4章 保持室内整洁
  31. 4.1 概述
  32. 4.2 数据源
  33. 4.3 数据仓库和数据库
  34. 4.4 数据挖掘引擎
  35. 4.5 用户界面
  36. 4.6 如何使用R语言创建数据挖掘架构
  37. 4.7 更多参考
  38. 4.8 小结
  39. 第5章 如何解决数据挖掘问题
  40. 5.1 安静祥和的一天
  41. 5.2 数据清洗
  42. 5.3 更多参考
  43. 5.4 小结
  44. 第6章 观察数据
  45. 6.1 汇总EDA介绍
  46. 6.2 图形化EDA
  47. 6.3 更多参考
  48. 6.4 小结
  49. 第7章 最初的猜想
  50. 7.1 定义数据建模策略
  51. 7.2 应用线性回归
  52. 7.3 更多参考
  53. 7.4 小结
  54. 第8章 浅谈模型性能评估
  55. 8.1 定义模型性能
  56. 8.2 衡量回归模型的性能
  57. 8.3 衡量分类问题模型的性能
  58. 8.4 区分训练数据集与测试数据集
  59. 8.5 更多参考
  60. 8.6 小结
  61. 第9章 不要放弃—继续学习 包括多元变量的回归
  62. 9.1 从简单线性回归到多元线性回归
  63. 9.2 降维
  64. 9.3 使用R语言拟合多元线性模型
  65. 9.4 更多参考
  66. 9.5 小结
  67. 第10章 关于分类模型问题的不同展望
  68. 10.1 为什么需要分类模型
  69. 10.2 逻辑回归
  70. 10.3 支持向量机
  71. 10.4 更多参考
  72. 10.5 小结
  73. 第11章 最后冲刺
  74. 11.1 随机森林
  75. 11.2 集成学习
  76. 11.3 在新数据上应用估计模型
  77. 11.4 结构化更加良好的预测分析方法
  78. 11.5 对预测数据应用集成学习中的多数投票技术
  79. 11.6 更多参考
  80. 11.7 小结
  81. 第12章 寻找罪魁祸首
  82. 12.1 提取PDF文件中的数据
  83. 12.2 文本情感分析
  84. 12.3 开发词云
  85. 12.4 N元模型分析
  86. 12.5 网络分析
  87. 12.6 更多参考
  88. 12.7 小结
  89. 第13章 借助R Markdown分享公司现状
  90. 13.1 富有说服力的数据挖掘报告的原则
  91. 13.2 编制R Markdown报告
  92. 13.3 在RStudio中编制R Markdown报告文档
  93. 13.4 渲染和分享R Markdown报告
  94. 13.5 更多参考
  95. 13.6 小结
  96. 第14章 结语
  97. 附录 日期、相对路径和函数处理
  98. 彩图