联系我们产物要懂点数据分析（三）-分析历程

栏目分类

小程序开发价格: 小程序开发价格; 联系我们; 小程序开发公司; 小程序开发资讯; 小程序开发

热点资讯

联系我们中医直言: 当桂附地黄丸代替六味地黄随处吐花时,

江西小程序开发大型扬剧《子胥过江》首演

你的位置：江西小程序开发 > 小程序开发价格 > 联系我们产物要懂点数据分析（三）-分析历程

联系我们产物要懂点数据分析（三）-分析历程

发布日期：2024-10-12 08:55 点击次数：166

软件开发

前边的著述咱们照旧共享了数据的方针和齐集，这篇著述，咱们接续分析下数据分析中的清洗和考据、加工践诺，但愿能帮到人人。

一、数据齐集

数据分析的对象即是数据，通过数据齐集来获取数据。数据齐集在《产物要懂点数据分析（一）-数据齐集和数据方针》中照旧盘考，这里不张开。

二、数据清洗

在原始数据内部存在着大齐作假、类似的数据，如果径直使用有可能会导致分析成果出现严重的偏差。数据清洗是对“脏数据”进行持续，晋升数据的质地。

常见的“脏数据”的类型有作假、缺失、类似等。数据清洗即是运用创新数据的作假、删除或填充缺失的数据、删除合并类似数据等期间，将数据整理成合法式的数据。

1. 创新数据作假

数据作假多由数据源输入不法式导致的。常见的作假类型有：

数据值作假。如杰出域值（性别出现男、女以外的其他值）、杰出限制（年齿大于150岁）。

分离理的值。如拼写稿假（姓名出现字母）、数据填错（手机号码填到身份证号码字段上了）等。

编码门径作假。如全角半角问题、文本编码问题。

数据逻辑不一致。如身份证是女的、性别填成男的。

单元规格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。

抒发神气不一致。如国度“中国”和“中华东谈主民共和国”。

2. 补充/删除缺失数据

并非整个字段缺失齐需要持续，如一个学生用户的责任单元字段是可能为空的。

若何持续缺失的数据，需要详细谈判填充难度、数据穷苦性、缺失情况来详细谈判。

如果填充很容易，则径直进行填充。如知谈身份证号码，填充年齿字段。

如果数据不穷苦，且缺失数据较少，则径直填充默许值无意删除对应的数据（行）。

如果数据不穷苦，但缺失相比严重，则径直删除数据属性字段（列）。

如果数据穷苦，则不错通过盘算推算的神气算出可能的值进行填充，也不错勾通业务和现存数据测度可能的值。

如果数据穷苦，可是没目的盘算推算，则就只可东谈主工进行填充了。

要注视空值对数据持续的影响。假定有10个用户，两个月收入为0，另外八个为10000。那么要谈判用户月收入是否确凿为0。可能用户平静了没责任，可能是用户没填。那么在求平均值时，如果是用户平静了的情况，则平均收入为：( 0 * 2 + 10000 * 8 ) / 10。如果用户没填则要剔除两个用户，应该这样盘算推算：(10000 * 8) / 8。

3. 合并删除类似数据

出现类似数据的原因许多，联系我们每每是抒发不一致导致的。

类似数据时常并不是一模同样一式多份的数据。是以，关于数据相似进程的判断是很有必要的。如手机设立“iPhone X”和“iPhone 10”是同样的数据，却是两个不同样的抒发。是否是类似数据要勾通数据自己和业务进行分析。

三、数据考据

数据经过持续之后，有部分数据被鼎新、填充、删除，更有甚者原始数据就存在问题。在进行分析前，需要进行数据考据。

1. 交叉考据

如果有其他有关数据，无意其他数据源，不错纠合多个表、多个字段进行交叉分析。

通过身份证信息不错考据用户性别、年齿等信息。致使通过对用户举止的分析，不错测度用户的性别，然后再进行考据。

2. 东谈主工抽查

关于一些穷苦的数据，还不错通过东谈主工抽查的神气进行考据。抽取一定量的数据样本进行东谈主工检讨，把柄抽查成果测度数据样本的数据质地。

举例，当场抽取1000条数据，作假2条。那么测度作假率为0.2%足下。再比对这个作假率是否合适分析的条件。

第51分钟，恩佐-费尔南德斯推射，梅西在禁区前沿碰了一下皮球入网。

常见的数据抽取神气有：

当场抽取。从数据样本中当场抽取一定量的数据。

等距抽取。按一定距离抽取数据，没隔断一定数目的样本抽取一次。

分层抽取。将合并类型的数据样天职层多个头绪，如高收入群、中收入群、低收入群，然后把柄每个头绪的占比抽取一定量的数据。

分类抽取。将不同类型的数据样本把柄不同的类型进行分类，如学生群体、熟识群体、员工群体，然后在每个分类中抽取一定量的数据。

四、数据加工

在数据清洗后，咱们得到了一个完好正确的数据。可是数据源和数据分析所需要的数据并不十足一致，在运转分析前。还需要将部分数据进行加工。

数据拆分

从数据字段中抽取需要的数据践诺。如从身份证中抽取诞生年月日、从手机型号中抽取手机品牌。

数据合并

数据合并是数据拆分的逆操作，将多个字段合并成一个字段。如将诞生年、月、日三个字段合并成诞诞辰期一个字段。

数据匹配

从不同的表中匹配到需要的信息构成新的数据表。

如用订单表匹配用户信息表，不错得到一个订单的区域表。

结构调遣

将数据表的结构进行调遣，主如若为了便捷后续数据持续。

数据盘算推算

对数据进行浅易的加减乘除、平均、加权等盘算推算。产生新的字段无意新的数据表。

数据调遣

把柄分析的需要将字段进行盘算推算和调遣。如将诞生年月调遣成年齿联系我们，将广东、湖南调遣成华南区等。

上一篇：联系我们中医直言: 当桂附地黄丸代替六味地黄随处吐花时, 好多病就覆没了

下一篇：没有了