概述

简介

数据用于描绘我们所在的世界,通过观察来收集,通过计算机来存储。计算机从这些描绘中推理出这个世界的一些属性。数据科学建立了一套通过计算获得结果的规则。有效数据分析的三个重点方面:探索、预测与推断。本文逐一介绍上述三个方面,介绍了目前计算科学领域的统计学观点以及最基本的知识。我们聚焦于很少的核心技术集能广泛应用于现实世界。数据科学的创建不仅要求熟练掌握统计学和计算技术,还要意识到如何在场景中落地。
无论我们希望去研究的是现实生活中的哪个方面,如地球天气、世界市场、政治观点或者人类意志,我们手头收集的数据,不完整的描述了上述主题。数据科学面临一个核心的挑战,即使如何通过部分数据得出可信的结论。
为此目标努力下,我们结合运用计算和随机工具。如,我们想通过观察温度变化了解气候变化的趋势。计算机能允许我们利用所有可能的信息去得出可信的结论。相较于仅聚焦于某地区的平均温度,我们将参考所有地区的问题来得出更加精确的结论。随机性将让我们能采用各种不同的方式来处理这些不完整的信息。相比通过某一种方式假定温度变量,我们将试着去运用随机性作为一种方式,来构建一些可能的场景,通过我们掌握的数据来保证这些场景的连续性。
要到达这一目的,就要求必须通过计算机编程实现。因此本文穿插了更细致的从零开始的编程基础的介绍。有编程经验的读者会发现,我们涵盖了计算领域的几个主题,但是呢,并咩有出现对于计算机科学的经典介绍。数据科学同样要求对数字质量的的严格推理要求,但本文并咩有假定读者在数学或者统计学方面的背景。在本书中你将发现并不存在大量的方程,反而使通过描述计算机的编程语言来代替。

-------------本文结束感谢您的阅读-------------