前边的著述咱们照旧共享了数据的方针和齐集,这篇著述,咱们接续分析下数据分析中的清洗和考据、加工践诺,但愿能帮到人人。
一、数据齐集
数据分析的对象即是数据,通过数据齐集来获取数据。数据齐集在《产物要懂点数据分析(一)-数据齐集和数据方针》中照旧盘考,这里不张开。
二、数据清洗
在原始数据内部存在着大齐作假、类似的数据,如果径直使用有可能会导致分析成果出现严重的偏差。数据清洗是对“脏数据”进行持续,晋升数据的质地。
常见的“脏数据”的类型有作假、缺失、类似等。数据清洗即是运用创新数据的作假、删除或填充缺失的数据、删除合并类似数据等期间,将数据整理成合法式的数据。
1. 创新数据作假
数据作假多由数据源输入不法式导致的。常见的作假类型有:
数据值作假。如杰出域值(性别出现男、女以外的其他值)、杰出限制(年齿大于150岁)。
分离理的值。如拼写稿假(姓名出现字母)、数据填错(手机号码填到身份证号码字段上了)等。
编码门径作假。如全角半角问题、文本编码问题。
数据逻辑不一致。如身份证是女的、性别填成男的。
单元规格不一致。如身高“1.75m”和“175cm”、“2019-01-01”和“01/01/2019”。
抒发神气不一致。如国度“中国”和“中华东谈主民共和国”。
2. 补充/删除缺失数据
并非整个字段缺失齐需要持续,如一个学生用户的责任单元字段是可能为空的。
若何持续缺失的数据,需要详细谈判填充难度、数据穷苦性、缺失情况来详细谈判。
如果填充很容易,则径直进行填充。如知谈身份证号码,填充年齿字段。
如果数据不穷苦,且缺失数据较少,则径直填充默许值无意删除对应的数据(行)。
如果数据不穷苦,但缺失相比严重,则径直删除数据属性字段(列)。
如果数据穷苦,则不错通过盘算推算的神气算出可能的值进行填充,也不错勾通业务和现存数据测度可能的值。
如果数据穷苦,可是没目的盘算推算,则就只可东谈主工进行填充了。
要注视空值对数据持续的影响。假定有10个用户,两个月收入为0,另外八个为10000。那么要谈判用户月收入是否确凿为0。可能用户平静了没责任,可能是用户没填。那么在求平均值时,如果是用户平静了的情况,则平均收入为:( 0 * 2 + 10000 * 8 ) / 10。如果用户没填则要剔除两个用户,应该这样盘算推算:(10000 * 8) / 8。
3. 合并删除类似数据
出现类似数据的原因许多,联系我们每每是抒发不一致导致的。
类似数据时常并不是一模同样一式多份的数据。是以,关于数据相似进程的判断是很有必要的。如手机设立“iPhone X”和“iPhone 10”是同样的数据,却是两个不同样的抒发。是否是类似数据要勾通数据自己和业务进行分析。
三、数据考据
数据经过持续之后,有部分数据被鼎新、填充、删除,更有甚者原始数据就存在问题。在进行分析前,需要进行数据考据。
1. 交叉考据
如果有其他有关数据,无意其他数据源,不错纠合多个表、多个字段进行交叉分析。
通过身份证信息不错考据用户性别、年齿等信息。致使通过对用户举止的分析,不错测度用户的性别,然后再进行考据。
2. 东谈主工抽查
关于一些穷苦的数据,还不错通过东谈主工抽查的神气进行考据。抽取一定量的数据样本进行东谈主工检讨,把柄抽查成果测度数据样本的数据质地。
举例,当场抽取1000条数据,作假2条。那么测度作假率为0.2%足下。再比对这个作假率是否合适分析的条件。
第51分钟,恩佐-费尔南德斯推射,梅西在禁区前沿碰了一下皮球入网。
常见的数据抽取神气有:
当场抽取。从数据样本中当场抽取一定量的数据。
等距抽取。按一定距离抽取数据,没隔断一定数目的样本抽取一次。
分层抽取。将合并类型的数据样天职层多个头绪,如高收入群、中收入群、低收入群,然后把柄每个头绪的占比抽取一定量的数据。
分类抽取。将不同类型的数据样本把柄不同的类型进行分类,如学生群体、熟识群体、员工群体,然后在每个分类中抽取一定量的数据。
四、数据加工
在数据清洗后,咱们得到了一个完好正确的数据。可是数据源和数据分析所需要的数据并不十足一致,在运转分析前。还需要将部分数据进行加工。
数据拆分
从数据字段中抽取需要的数据践诺。如从身份证中抽取诞生年月日、从手机型号中抽取手机品牌。
数据合并
数据合并是数据拆分的逆操作,将多个字段合并成一个字段。如将诞生年、月、日三个字段合并成诞诞辰期一个字段。
数据匹配
从不同的表中匹配到需要的信息构成新的数据表。
如用订单表匹配用户信息表,不错得到一个订单的区域表。
结构调遣
将数据表的结构进行调遣,主如若为了便捷后续数据持续。
数据盘算推算
对数据进行浅易的加减乘除、平均、加权等盘算推算。产生新的字段无意新的数据表。
数据调遣
把柄分析的需要将字段进行盘算推算和调遣。如将诞生年月调遣成年齿联系我们,将广东、湖南调遣成华南区等。