请问数据预处理一般主要包括哪些处理流程呢?[阿里云机器学习PAI]

请问数据预处理一般主要包括哪些处理流程呢?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
3 条回复 A 作者 M 管理员
  1. 您好,PAI-Designer数据预处理一般主要包括三个处理流程:

    1.将原始数据表中,取值为非数值类型的字段,通过SQL替换为数值类型的取值,以保障此预处理后,表中所有字段的取值都是数值类型的取值。

    2.将表中字段换为double类型,以保障此预处理后,表中字段均满足后续归一化处理的字段属性要求。

    3.将表中字段的取值均归一化。

  2. 楼主你好,我给出一些数据预处理步骤,希望对你有帮助! 数据预处理一般主要包括以下处理流程: 1. 数据清洗:清洗数据,去除无效数据,缺失值填充,异常值处理等;

    1. 数据转换:将数据转换为模型可以识别的格式,如将文本转换为数值;

    2. 数据缩放:将数据缩放到一定范围,以便模型更好地拟合数据;

    3. 数据分割:将数据分割为训练集和测试集,以便模型训练和评估;

    4. 特征选择:从原始数据中选择有用的特征,以便模型更好地拟合数据。

  3. 【回答】

    主要分4步(比把大象放冰箱里多了一步):

    • 一、数据清洗:就是把 “异常”数据变成正常数据,涉及到两种异常情况:

      1. 缺失值

      2. 异常值

    • 二、数据集成:将两个数据框以关键字为依据,在R里用merge函数实现。

      在进行数据集成可能会存在两种情况:

      1. 同名异义

      2. 异名同义

    • 三、数据变换:很容易理解, 把数据变换就是转化成适当的形式。

    涉及3点内容:

    1. 简单函数变化

    2. 规范化

    3. 连续属性离散化

    4. 四、数据归约:数据规归能够降低无效错误的数据对建模的影响、缩减时间、降低存储数据的空间。

    涉及2点内容:

    1. 属性归约

    2. 数值归约

    以上回答, 希望能够帮助你。

  4. 数据清洗、数据集成、数据变换、数据归约