什么是数据科学
数据科学是关于从海量的多维度的数据集中,通过探索、预测与推断出有用的结论的科学。探索涉及到信息的识别模式。预测涉及到使用我们已经知道的信息去猜测我们想获得的预期的值。推断则涉及到对必然性的量化:我们在数据中发现的模式特征还会出现不同的现象吗?我们预测的精确度如何?我们探索的主要工具是运用可视化与事实统计的方法,通过机器学习和优化实现预测,而推断则是通过统计学上的测试与建模。
数据科学的核心之一在于统计学,因为统计学所研究的内容,就是如何使通过不完整的信息得出的结论尽可能的健壮。计算同样是数据科学的核心之一,因为通过程序可以让我们将分析方法应用于实际生活中的海量的多维度的数据中:不仅限于数字,还有文本、图像、视频,还有传感器扫描数据等。数据科学涵盖了上述所有方面,但是友不止于各部分应用的简单组合。通过研究一个特定领域,数据科学家试着寻求关于数据恰当的问题,运用推断以及计算工具推断出问题的正确答案。