元数据

精通特征工程

  •  精通特征工程|200
  • 书名: 精通特征工程
  • 作者: 爱丽丝·郑 阿曼达·卡萨丽
  • 简介: 本书介绍大量特征工程技术,阐明特征工程的基本原则。主要内容包括:机器学习流程中 的基本概念,数值型数据的基础特征工程,自然文本的特征工程,词频- 逆文档频率,高效的分类变量编码技术,主成分分析,模型堆叠,图像处理,等等。
  • 出版时间 2019-04-15 00:00:00
  • ISBN: 9787115509680
  • 分类: 科学技术-工业技术
  • 出版社: 人民邮电出版社
  • PC地址:https://weread.qq.com/web/reader/2f032990718ff6432f07b91

高亮划线

第2章 简单而又奇妙的数值

  • 📌 好的特征不仅能够表示出数据的主要特点,还应该符合模型的假设,因此通常必须进行数据转换

    • ⏱ 2021-01-11 20:24:04
  • 📌 要对数值型数据进行合理性检查,首先要看看它的量级

    • ⏱ 2021-01-11 20:25:15
  • 📌 然后,还要考虑一下特征的尺度

    • ⏱ 2021-01-11 20:25:23
  • 📌 对数变换(指数变换的一种特殊形式)可以使变量的分布更加接近于高斯分布

    • ⏱ 2021-01-11 20:27:21

2.2 处理计数

  • 📌 分位数是可以将数据划分为相等的若干份数的值 ^26211907-16-6938-6959
    • ⏱ 2021-01-11 20:42:42

2.3 对数变换

  • 📌 对于具有重尾分布的正数值的处理,对数变换是一个非常强大的工具 ^26211907-17-1610-1640
    • ⏱ 2021-01-11 20:47:14

2.4 特征缩放/归一化

  • 📌 在稀疏特征上执行min-max缩放和标准化时一定要慎重,它们都会从原始特征值中减去一个量 ^26211907-18-2330-2374
    • ⏱ 2021-01-11 21:06:17

2.6 特征选择

第5章 分类变量:自动化时代的数据计数

  • 📌 可以用一个简单的问题作为能否使用分类变量的试金石:“我们是需要知道两个值有多大不同,还是只需要知道它们是否不同 ^26211907-35-708-808
    • ⏱ 2021-01-11 21:36:09

5.1 分类变量的编码

5.2 处理大型分类变量

  • 📌 分箱计数的思想稍有一点复杂:它不使用分类变量的值作为特征,而是使用目标变量取这个值的条件概率 ^26211907-37-5946-6037
    • ⏱ 2021-01-11 21:48:49

读书笔记

2.6 特征选择

划线评论

  • 📌 特征选择不是为了减少训练时间(实际上,一些技术会增加总体训练时间),而是为了减少模型评分时间 ^7512473-7nhtUx0Gq
    • 💭 什么意思
    • ⏱ 2021-01-11 21:14:43

5.1 分类变量的编码

划线评论

  • 📌 简单地为k个可能类别中的每个类别分配一个整数,如从1到k,但这样做的结果是使类别彼此之间有了顺序,这在分类变量中是不允许的 ^7512473-7nhvtwav8
    • 💭 分类变量编码不能有顺序?
    • ⏱ 2021-01-11 21:38:36

本书评论