在这一段时间的工作中,遭遇到了很多的问题,也尝试了多种解决方案,最后获得良好的效果,这也离不开同事的帮助,从中可以感悟到自身的不足,需要在以后的时间中加强自我的能力。下面是小编带来的2018数据分析工作总结。
近期主要完成了某产品用户画像分析,从9月底拿到数据,到上周输出第三稿,中间历时一个半月,如果从收到需求,到三稿输出,那就超过两个月,在这次整个分析过程中,遇到了不少问题,尝试了使用不同方法,现在是时候做一个复盘、总结、反思。
在开始阶段,遇到的主要问题是客户的要求是分析产品用户画像报告,因为没有直接跟客户沟通,而需求只有简单的一句话,我只能根据经验列出要分析的要点,确定需要的数据维度。在我确定分析框架后,我发现如果按照我方的想法最后输出的结果却不是客户想到的,那就白做了,所以确定分析框架后还需要客户确认,思路是否可行,分析方向有无异议。这个问题还算比较好解决,客户同意了分析思路即可。
经过与客户沟通后,到了第二阶段,发起提数需求。这个过程总体算比较顺利,客户方数据库工程师首先反馈了一份样本数据,让我方确认数据是否正确,如正确,则提供全量样本。数据验证的过程,主要是由我来完成,对样本数据,我提出了一些疑问,对方也一一解答。当然还有个别字段逻辑问题,我没有发现,对后续的分析带来了一些影响,造成最后能使用的维度减少,是一个遗憾。
拿到全量数据后,对数据进行清洗。在这个过程中发现数据质量非常不理想,很多字段的缺失值占比很大,个别字段也有异常值,总体样本中能使用的记录锐减。一开始我的处理方法比较简单,对缺失值占比达的字段直接不使用,带来的后果就是输出的第一版分析报告过于简单。
重新回到数据,再次对数据进行摸底,而且也调整分析方法,尝试使用聚类分析方法,按用户活跃渠道,对用进行分群,分群后,再结合其他维度,对用户进行描述。这一次输出的报告还是存在一些问题,最大问题就是用户群之间区别不明显,只能继续修改。中间因为要做另一个分析,用户画像分析就暂时先放一边。
完成另一个分析后,继续回到产品用户画像分析,这次同事提出了一些建议,在没有更好的思路前,我按照同事的建议第三次修改分析报告。当然还是要先处理数据,这次我对异常值、缺失值就行了处理,异常值使用的是盖帽法,对缺失值,在一些字段中用0填补,这样增加了可使用的维度。数据清洗完后,对连续变量进行分箱处理,这一次还是先使用聚类分析,对几个字段进行聚类,这样增加了两个大的维度,接着基于两个大的维度,使用对应分析方法,结合其他维度观察变量间的关系,最后的结果显示有部分变量之间是存在明显的关系,有些几乎没有区别。数据处理完后,再次输出分析报告。
完成第三次分析后,我回过头来看看分析中存在的问题,尤其是使用对应分析,查阅了一些资料,发现在对应分析中,应该先进行预分析。聚类分析,两次我都是使用k-means聚类,其实还可以使用二阶聚类,二阶聚类适用于分类变量,这是快速聚类不适用的,我尝试在清洗后的数据中使用二阶聚类,效果尚可。
最近恰好又在看丁亚军老师的讲课视频,讲到聚类分析,再结合我在工作中的应用,对聚类分析方法有了新的认识。聚类方法在刚兴起的时候,是不被传统的统计学家们接受,因为这个方法太简单,没有使用到过多的统计学知识。在实际的工作中,聚类使用的频率还是很高的,尤其是在用户分群方面,用户特征的描述。对应分析是第一次用到,为什么会想到使用对应分析,主要是根据变量类型,几个分类型变量,探究变量间的关系,除了相关分析外,对应分析也使用,而且它的结果更直观。
最后能完成第三稿也要感谢同事的建议,一个人的力量是有限的,群策群力、集思广益才能做得更好。
来源:网络整理 免责声明:本文仅限学习分享,如产生版权问题,请联系我们及时删除。