This Is A Custom Widget

This Sliding Bar can be switched on or off in theme options, and can take any widget you throw at it or even fill it with your custom HTML Code. Its perfect for grabbing the attention of your viewers. Choose between 1, 2, 3 or 4 columns, set the background color, widget divider color, activate transparency, a top border or fully disable it on desktop and mobile.

This Is A Custom Widget

This Sliding Bar can be switched on or off in theme options, and can take any widget you throw at it or even fill it with your custom HTML Code. Its perfect for grabbing the attention of your viewers. Choose between 1, 2, 3 or 4 columns, set the background color, widget divider color, activate transparency, a top border or fully disable it on desktop and mobile.

大数据挖掘(big data mining)的业务流程




随着互联网的发展,数据的量越来越大,由此产生了数据仓库(data warehouse)。因其太大,无法用传统的方法进行处理,由此产生了数据库知识发现(knowledge discovery in database)。
对大数据加以处理利用,通常的思路有两个:
一个是:假设-数据-检验。在真正利用数据前,已经有了一个因果的理论假设,然后利用已有的数据来证明这个假设是否属实。
另一个是:数据库知识发现(knowledge discovery in database)。用具体的技术方法对数据进行处理而得出结论。由此形成了跨行业数据挖掘标准流程(CRISP-DM 即 cross-industry standard process for data mining)。其中包括六个阶段:
▪ 业务理解(business understanding)
▪ 数据理解(data understanding)
▪ 数据准备(data preparation)
▪ 数据建模(modeling)
▪ 模型评估(evaluation)
▪ 模型发布(deployment)

业务理解(business understanding)

了解大数据项目的目的,确定工作目标,拟订工作方案,制定项目计划。

数据理解(data understanding)

包括数据采集、数据描述、数据初步探索、数据特征统计、数据质量检验(数据的一致性、完整性、正确性、最小性)。

数据准备(data preparation)

数据采集得到的是粗造的数据,其中有大量的错误、重复的信息。要将这种原始的数据进行数据清洗、清理,并根据大数据项目的目的、技术限制等进行数据的整合、转换、格式化才可以用于下一步的数据建模做数据分析用。

数据建模(modeling)

用合适的数据挖掘工具、技术方法、根据大数据项目的目的,对数据进行处理得出有用的分析信息。并从技术方法上,对这一大数据项目的数据分析,建立完整的程序、文件,直到规范化的模板(模型)。

模型评估(evaluation)

根据业务理解中大数据项目的目的,考察数据模型对数据的处理是否达标。

模型发布(deployment)

用评估后的模型来处理数据,由此而得来的结果,以易于理解、易于使用的方式呈现出来。

CRISP-DM 跨行业数据挖掘标准流程

事实上,就方法学而言,CRISP-DM并不是什么新观念,本质来看就是在分析应用中提出问题、分析问题和解决问题的过程。而可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,以至CRISP-DM如今已经成为事实上的行业标准,“调查显示,50%以上的数据挖掘工具采用的都是CRISP-DM的数据挖掘流程”。

附录:
以下是我们在做商务平台数据分析时的注意事项总结
电子商务平台数据处理注意事项:
1.备份采集的原始数据;
2.首先要做删除相同项处理;
3.紧接着要对所有要参与计算的数字列做异常数据处理(比如:价格、运费是文字属性的、item number没有采集到的)
4.item number、销售个数的属性全部转化为数字属性。
5.所有的itemno都要从链接里面分离出来用(不要用程序采集的),避免因个别的没有采集到而影响分析过程。
6.跨国(例如:usa、ca)采集数据放在一起分析时注意价格、运费的货币符号前缀不统一问题,此时取值函数要做适当处理(如:统一转换为RMB)。
7.分析过程中要在做数据变化前,做数据文件的中间过程备份,以备出错时还有原先的数据在。
8.遇到的事情:数据行数大时,操作“隐藏”行,当取消隐藏时,要很长时间(30万条数据,取消隐藏,2个小时还没有完成!)。原因:隐藏的行挨着函数行4行。
9.每做一步(拖一步函数后)都要做:复制、数字粘贴,否则,会很慢。
10.上面这些处理完毕,再依模板文件的步骤做进一步的数据分析。
11.运用模板注意:copy函数到新文件里,要检查、调整copy来的函数里面的数据取用范围(比如:原函数是Q5:Q3000,而新文件的数据范围是Q5:Q3800)。
12.新建立数据分析模板时,每一步的处理目的、做法、注意事项都要备注清楚,达到目的:其他人拿到模板文件就可以做数据处理。
13.给数据使用部门的数据分析结果文件必须将所有函数清空。

By | 2017-08-03T18:43:54+00:00 二月 9th, 2017|分类:大数据挖掘的标准流程|标签: , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , |0 条评论

关于作者:

留言