机器学习中的数据预处理有哪些常见/重要的工具

如题所述

推荐答案 2017-09-01

不太清楚你说的是搭建pipeline的工具还是说pipeline里面处理数据的工具，就顺道都说一下。

pipeline工具本身一般是控制这些工具的流程，最简单的crontab就定时执行就好，但是有时候会有数据依赖的问题，比如第7步依赖第三步的两个文件以及平行的第6步的文件，这个依赖并不是线性的，而是一个图的形式。当中加上有些技术延迟比如有些数据生成失败了需要重启某些特定的步骤重新生成，这个问题就稍微复杂了。crontab一般在这时候就搞不定，需要一些专门的pipeline管理，比如 spotify/luigi · GitHub 或者 Azkaban

2. 预处理文本数据本身一般用一些Linux的工具比如cut啊awk啊等等做数据筛选和清理，自己写一写python小工具做数据的简单组合比如复杂的regex规则组合，比较大的数据归类和抽象一般用Hive之类的hadoop工具都可以，里面也可以插入linux小工具和自己写的工具。

工业界的数据项目多数时间要设计如何清理数据，这和学术界的玩具数据玩起来很不一样，欢迎来到真实的世界。-ITjob

温馨提示：答案为网友推荐，仅供参考

当前网址：http://33.wendadaohang.com/zd/RBBWhRh5chBc4cWW4PB.html

相似回答

机器学习中的数据预处理有哪些常见/重要的工具答：分箱：分箱方法是一种简单常用的预处理方法，通过考察相邻数据来确定最终值。所谓“分箱”，实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中，考察每一个箱子中的...

机器学习数据预处理主要有哪些方法呢?答：1、数据清洗 数据清洗是处理含有错误、缺失值、异常值或重复数据等问题的数据的过程。常见的清洗操作包括删除重复数据、填补缺失值、校正错误值和处理异常值，以确保数据的完整性和一致性。2、特征选择特征选择是从原始数据中选择最相关、最具有代表性的特征子集，以减少输入特征的维度并提高模型的效果和效...

现代科研中,如何使用机器学习方法解决数据分析问题?答：1.数据收集和预处理：首先，需要收集相关的数据集，并进行数据清洗、缺失值处理、异常值检测等预处理工作，以确保数据的质量和完整性。2.特征选择和提取：根据研究问题的特点，选择合适的特征或通过特征工程方法提取新的特征。特征选择的目的是减少冗余信息和噪声，提高模型的性能。3.模型选择和训练：根据数...

大家正在搜