联系我们 产物要懂点数据分析(三)-分析历程

江西小程序开发

你的位置:江西小程序开发 > 小程序开发价格 > 联系我们 产物要懂点数据分析(三)-分析历程
联系我们 产物要懂点数据分析(三)-分析历程
发布日期:2024-10-12 08:55    点击次数:166
软件开发

前边的著述咱们照旧共享了数据的方针和齐集,这篇著述,咱们接续分析下数据分析中的清洗和考据、加工践诺,但愿能帮到人人。

一、数据齐集

数据分析的对象即是数据,通过数据齐集来获取数据。数据齐集在《产物要懂点数据分析(一)-数据齐集和数据方针》中照旧盘考,这里不张开。

二、数据清洗

在原始数据内部存在着大齐作假、类似的数据,如果径直使用有可能会导致分析成果出现严重的偏差。数据清洗是对“脏数据”进行持续,晋升数据的质地。

常见的“脏数据”的类型有作假、缺失、类似等。数据清洗即是运用创新数据的作假、删除或填充缺失的数据、删除合并类似数据等期间,将数据整理成合法式的数据。

1. 创新数据作假

数据作假多由数据源输入不法式导致的。常见的作假类型有:

数据值作假。如杰出域值(性别出现男、女以外的其他值)、杰出限制(年齿大于150岁)。

分离理的值。如拼写稿假(姓名出现字母)、数据填错(手机号码填到身份证号码字段上了)等。

编码门径作假。如全角半角问题、文本编码问题。

数据逻辑不一致。如身份证是女的、性别填成男的。

单元规格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。

抒发神气不一致。如国度“中国”和“中华东谈主民共和国”。

2. 补充/删除缺失数据

并非整个字段缺失齐需要持续,如一个学生用户的责任单元字段是可能为空的。

若何持续缺失的数据,需要详细谈判填充难度、数据穷苦性、缺失情况来详细谈判。

如果填充很容易,则径直进行填充。如知谈身份证号码,填充年齿字段。

如果数据不穷苦,且缺失数据较少,则径直填充默许值无意删除对应的数据(行)。

如果数据不穷苦,但缺失相比严重,则径直删除数据属性字段(列)。

如果数据穷苦,则不错通过盘算推算的神气算出可能的值进行填充,也不错勾通业务和现存数据测度可能的值。

如果数据穷苦,可是没目的盘算推算,则就只可东谈主工进行填充了。

要注视空值对数据持续的影响。假定有10个用户,两个月收入为0,另外八个为10000。那么要谈判用户月收入是否确凿为0。可能用户平静了没责任,可能是用户没填。那么在求平均值时,如果是用户平静了的情况,则平均收入为:( 0 * 2 + 10000 * 8 ) / 10。如果用户没填则要剔除两个用户,应该这样盘算推算:(10000 * 8) / 8。

3. 合并删除类似数据

出现类似数据的原因许多,联系我们每每是抒发不一致导致的。

类似数据时常并不是一模同样一式多份的数据。是以,关于数据相似进程的判断是很有必要的。如手机设立“iPhone X”和“iPhone 10”是同样的数据,却是两个不同样的抒发。是否是类似数据要勾通数据自己和业务进行分析。

三、数据考据

数据经过持续之后,有部分数据被鼎新、填充、删除,更有甚者原始数据就存在问题。在进行分析前,需要进行数据考据。

1. 交叉考据

如果有其他有关数据,无意其他数据源,不错纠合多个表、多个字段进行交叉分析。

通过身份证信息不错考据用户性别、年齿等信息。致使通过对用户举止的分析,不错测度用户的性别,然后再进行考据。

2. 东谈主工抽查

关于一些穷苦的数据,还不错通过东谈主工抽查的神气进行考据。抽取一定量的数据样本进行东谈主工检讨,把柄抽查成果测度数据样本的数据质地。

举例,当场抽取1000条数据,作假2条。那么测度作假率为0.2%足下。再比对这个作假率是否合适分析的条件。

第51分钟,恩佐-费尔南德斯推射,梅西在禁区前沿碰了一下皮球入网。

常见的数据抽取神气有:

当场抽取。从数据样本中当场抽取一定量的数据。

等距抽取。按一定距离抽取数据,没隔断一定数目的样本抽取一次。

分层抽取。将合并类型的数据样天职层多个头绪,如高收入群、中收入群、低收入群,然后把柄每个头绪的占比抽取一定量的数据。

分类抽取。将不同类型的数据样本把柄不同的类型进行分类,如学生群体、熟识群体、员工群体,然后在每个分类中抽取一定量的数据。

四、数据加工

在数据清洗后,咱们得到了一个完好正确的数据。可是数据源和数据分析所需要的数据并不十足一致,在运转分析前。还需要将部分数据进行加工。

数据拆分

从数据字段中抽取需要的数据践诺。如从身份证中抽取诞生年月日、从手机型号中抽取手机品牌。

数据合并

数据合并是数据拆分的逆操作,将多个字段合并成一个字段。如将诞生年、月、日三个字段合并成诞诞辰期一个字段。

数据匹配

从不同的表中匹配到需要的信息构成新的数据表。

如用订单表匹配用户信息表,不错得到一个订单的区域表。

结构调遣

将数据表的结构进行调遣,主如若为了便捷后续数据持续。

数据盘算推算

对数据进行浅易的加减乘除、平均、加权等盘算推算。产生新的字段无意新的数据表。

数据调遣

把柄分析的需要将字段进行盘算推算和调遣。如将诞生年月调遣成年齿联系我们,将广东、湖南调遣成华南区等。



Powered by 江西小程序开发 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024 云迈科技 版权所有