大数据时代,人人都在谈数据,人人都在说数据是战略资产,但数据到底是什么?我们首先要对数据的定义和概念有一个清晰的理解,才能更好地了解数据对我们个人、企业及社会带来的价值和影响。
一、数据的概念
数据是对真实世界(包括对象、事件、概念等)的一种符号化描述,描述的方式包括文本、图像、声音、视频和数字等形式。
从这个定义可以看到,数据首先是一种符号,这种符号包括了文本、数字、图形、视频等形式。其次,既然数据是一种符号,那么符号需要有承载的载体,而现实世界中可以承载文本、数字、图形等符号的载体是多种多样的,古时候包括石头、 竹简、纸等载体,随着信息技术的发展,出现了磁盘、光盘等数字化的载体。
根据数据的这一定义,我们可以发现在日常的生活中,到处存在着数据,例如下面这些。
(1)书籍:书本上的内容是一种数据,数据的载体是纸张,符号是文本或者图像。
(2)门店的商品价格单:我们进入咖啡店,经常可以看到小木板上写着各品类咖啡的价格,这也是一种数据,数据的载体是木板,符号是文本、数字和图像。
(3)岩石壁画:刻在岩壁上的图像也是一种数据,载体是石头,符号是图像。
(4)监控录像:监控内容也是一种数据,载体是磁盘等数字化设备,符号是视频。
(5)数据库中的内容:存储在数据库表中的数据,载体是磁盘等数字化设备,符号是数字和文本。
二、数据的常见分类
从数据的承载形式来分,可以分为数字化数据和非数字化数据(物理原子化数据)。数字化数据指的是采用信息技术,底层是以0和1来表示的数据,当前电脑、手机上存储的数据都属于数字化的数据。非数字化数据指的是用物理原子来表示的数据,例如一本实体书,打印出来的一张图片等,这些均属于非数字化数据。
从数据的结构和格式来看,可以分为结构化数据和非结构化数据。数据库中存储在一张表的数据是结构化数据,表中每一行每一列的数据都有特定的含义和类型。文本、图像、音频、视频等则均属于非结构化数据。
我们当前在说的大数据,更多的是指计算机可以处理的数字化数据,包括数字的结构化数据和数字的非结构化数据。
三、对数据本质的理解
1、数据的本质是一种符号,是对真实世界的一种描述
数据本质上是一种表示方式,是人为创造的符号形态,是对现实世界的一种描述。数据的实际范围比我们通常想象的要大的多,不能简单的认为存储在数据库里面的哪些数字才是数据。书本上的内容、广告牌上的内容,甚至石头上的内容都属于数据的范围。只是考虑到数据处理技术、处理成本等因素,很多的非数字化的数据还没有进行处理和分析而已。
2、数据不等于真实世界
数据是对真实世界的简化描述,只能无限逼近真实世界,永远无法完完全全地反映世界。例如我们用数据来描述一个人,我们往往会用到姓名、性别、年龄、籍贯、身高、照片、性格描述等信息,通过这些数据可以反映了这个人的主要特征,但不是所有的特征。
要完整地反映这个人,需要把这个人从出生到现在,所有经历的人和事都记录下来,把这个人从头到脚所有的特征都进行描述。这种情况是不可能的,所以数据是对描述对象的简化后的模型,只能无限逼近。
3、数据是无限的,能解决问题的数据就是好数据
既然数据是对现实世界的简化模型,因此我们在做记录和使用数据时,不要单纯地追求数据的大而全,而是应该从解决问题的角度出发,来考虑需要哪些数据,只要能够解决问题的数据就是好数据。
本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com