例解R语言在概率论与数理统计中的应用(2)

3.5.2区间估计:26 3.6 R与统计检验28 3.6.1对均值28 3.6.2对方差30 3.7分布拟合检验31 第四章 本文总结32 第五章 致谢33 参考文献34 第一章 绪论 1.1 本文的研究背


3.5.2区间估计: 26

3.6  R与统计检验 28

3.6.1对均值 28

3.6.2对方差 30

3.7分布拟合检验 31

第四章 本文总结 32

第五章 致谢 33

参考文献 34

第一章 绪论

1.1 本文的研究背景、目的与意义

伴随着时代的进步,个人电脑开始普及,互联网覆盖着世界的每个角落,笼罩着各行各业。强大的网络系统让线上线下海量的可提取数据有了爆炸式的增长。很多商业公司的网络系统里保存着TB级的客户数据,政府,教育机构以及学术研究中心同样拥有各种各样的学术档案和信息数据。而这些海量的数据中存在的规律以及庞大的经济价值是不言而喻的,甚至在这些数据中收集有价值的信息已经成为一种普遍的产业。但同时,寻找一种让大众便于理解和消化的方式展现这些潜在规律数据的信息也渐渐富有挑战性。

需求推动改革进步,数据分析科学也伴随着庞大网络数据的产生进行着发展。其实早在个人电脑个英特网的产生之前,很多统计学,经济学的研究人员就开发出了很多统计方法分享在各种大众的论坛上。然后这些全新的研究方法会被强大的程序员附上代码,开发到数据分析的统计软件中。这就成就了多元化的统计软件,使得数据处理分析变得更加高效便捷化。

在早期个人电脑刚出现运用在数据分析中的时候,在机器上运行一次数据是非常不容易的,机会也是非常难得的。在运行数据前,统计学家和分析师们会十分小心精细的调整好各种参数和数据选项,还有一系列的计算机计算执行代码公式。等到所有的计算程序全都运行结束后,展现的数据也可能是成千上万的。需要人为地检查筛选整个过程,删除多余不需要的数据。一直到今天,大多数的统计软件一定程度上继承了这种处理流程(导入数据—数据准备,探索和清理—拟合一个统计模型—评估模型拟合结果—模型的交叉验证—在数据上评估模型预测模型—形成结果)。

当然,统计软件的强大功能还不仅仅在此,生动形象有吸引力的图形展示数据法,会将数据信息整合成让人充满阅读兴趣的分析报告给需要这些数据的大众。而本文将要运用到的R软件,正是涵盖了这些优点的全面软件。

1.2 国内外研究现状

1.2.1 概率论与数理统计概括研究

18世纪60年代,英国伟大的数学家贝叶斯(T.Bayes),给出了现代概率论中著名的“贝叶斯定理”: 是互相独立的不相容事件,且对任意i有 ,则对任意事件B,有   (1-1)

19世纪末,20世纪初,英国统计学家皮尔逊(Pearson)发展了统计相关和回归理论,对现代数理统计起了至关重要的作用。

20世纪20年代至30年代,英国数学家费希尔(Fisher)拓展了正态总体下的各种统计量的抽样分布,将已有的相关性,回归性理论建造为系统的相关分析和回归分析。

1928年,维夏特(J.Wishart)将狭义的多元统计分析发展为一个统计学中的独立分支。

第二次世界大战期间,沃尔德(A。wald)提出了序贯分析和统计决策理论。

20世纪50年代,沃尔德发表了《统计决策函数》,把各种各样的统计问题统一起来用决策的观点来研究。

数理统计在最近的几年里理论上的发展并不是很明显,但最令人瞩目的是它在这个大数据时代下的普及和广泛应用。几乎渗透到了每一个行业中,学科中,只要有数据的地方,就会有数理统计的身影。很明显,数理统计已经成为了当今时代下不可或缺的数据工具之一。相信在将来,数理统计在数据处理上还会对社会做出巨大的贡献。

1.2.2 R语言概括研究

R语言是由S语言转化而来的,S语言是一种统计绘图用的语言。由Rick Becker开发于20世纪70年代的贝尔实验室。在一款名为Splus的商业软件的基础上,可以便捷的编写函数,建立数学模型,拥有极好的拓展性,在国际上有很好的学术应用。