元数据
精通特征工程
- 书名: 精通特征工程
- 作者: 爱丽丝·郑 阿曼达·卡萨丽
- 简介: 本书介绍大量特征工程技术,阐明特征工程的基本原则。主要内容包括:机器学习流程中 的基本概念,数值型数据的基础特征工程,自然文本的特征工程,词频- 逆文档频率,高效的分类变量编码技术,主成分分析,模型堆叠,图像处理,等等。
- 出版时间 2019-04-15 00:00:00
- ISBN: 9787115509680
- 分类: 科学技术-工业技术
- 出版社: 人民邮电出版社
- PC地址:https://weread.qq.com/web/reader/2f032990718ff6432f07b91
高亮划线
第2章 简单而又奇妙的数值
-
📌 好的特征不仅能够表示出数据的主要特点,还应该符合模型的假设,因此通常必须进行数据转换
- ⏱ 2021-01-11 20:24:04
-
📌 要对数值型数据进行合理性检查,首先要看看它的量级
- ⏱ 2021-01-11 20:25:15
-
📌 然后,还要考虑一下特征的尺度
- ⏱ 2021-01-11 20:25:23
-
📌 对数变换(指数变换的一种特殊形式)可以使变量的分布更加接近于高斯分布
- ⏱ 2021-01-11 20:27:21
2.2 处理计数
- 📌 分位数是可以将数据划分为相等的若干份数的值 ^26211907-16-6938-6959
- ⏱ 2021-01-11 20:42:42
2.3 对数变换
- 📌 对于具有重尾分布的正数值的处理,对数变换是一个非常强大的工具 ^26211907-17-1610-1640
- ⏱ 2021-01-11 20:47:14
2.4 特征缩放/归一化
- 📌 在稀疏特征上执行min-max缩放和标准化时一定要慎重,它们都会从原始特征值中减去一个量 ^26211907-18-2330-2374
- ⏱ 2021-01-11 21:06:17
2.6 特征选择
第5章 分类变量:自动化时代的数据计数
- 📌 可以用一个简单的问题作为能否使用分类变量的试金石:“我们是需要知道两个值有多大不同,还是只需要知道它们是否不同 ^26211907-35-708-808
- ⏱ 2021-01-11 21:36:09
5.1 分类变量的编码
5.2 处理大型分类变量
- 📌 分箱计数的思想稍有一点复杂:它不使用分类变量的值作为特征,而是使用目标变量取这个值的条件概率 ^26211907-37-5946-6037
- ⏱ 2021-01-11 21:48:49
读书笔记
2.6 特征选择
划线评论
- 📌 特征选择不是为了减少训练时间(实际上,一些技术会增加总体训练时间),而是为了减少模型评分时间 ^7512473-7nhtUx0Gq
- 💭 什么意思
- ⏱ 2021-01-11 21:14:43
5.1 分类变量的编码
划线评论
- 📌 简单地为k个可能类别中的每个类别分配一个整数,如从1到k,但这样做的结果是使类别彼此之间有了顺序,这在分类变量中是不允许的 ^7512473-7nhvtwav8
- 💭 分类变量编码不能有顺序?
- ⏱ 2021-01-11 21:38:36