如何保证Hive中数据的质量

问题分析

考官主要考核你的实际工作经验,在工作中是如何对数据进行清洗转换的。

核心问题讲解

  • 脏数据的清理,对于无效的、重复的、缺失的数据,要进行过滤筛选。
  • 格式转换,类似于日期、金额等数据需要转换为统一的格式进行存储。
  • 敏感数据脱敏,对于身份证号、手机号等敏感数据,通常要进行加密处理。避免对用户造成损失。
  • 对数据进行分类打标签,有很大的业务价值
    计算在表中出现的次数,每天记录一个值,久而久之可以形成变化趋势,可以发现某些业务细节的波动,发现异常的用户行为。
    对关键业务指标做统计值校验,比如N个商品销量的最大最小、中位数、90%位数、平均数、标准差等,同样是每天采集并形成变化趋势,可以发现异常业务情况。
  • 解析数据后结构化,统一不同来源的信息结构,便于后续的统计分析。
    数据质量是个很大话题,除了数据准确性,至少还包括数据产出及时性、表间的数据一致性,用户甚至会把任何的数据看不懂都认为是数据质量问题,有些可能只是理解上的偏差。要真正解决数据质量问题,还需要更多技术和规范的努力。

问题扩展

企业在不同的发展时间,系统处理会有所差异,特别是二次开发比较多的公司。后续规范的数据与前面不规范的数据,可以通过相对应的关系,进行结构的统一;如果暂时无法统一,最好分开进行统计,避免出现错误的统计结果。

点击此处
隐藏目录