大数据技术指的是从各种庞大而多样的数据中快速提取有价值信息的能力。适用于大数据的技术包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据具有以下四个显著特点:首先是数据量巨大。例如,目前人类制造的所有印刷材料所占的数据量仅为200PB。而一般个人计算机硬盘的容量只有TB级别,而一些大型企业的数据量已经接近EB级别。
其次是数据类型多样。现今的数据类型不仅仅局限于文本形式,更多的是图片、视频、音频、地理位置信息等多种类型的数据,占据了绝大多数。
第三是处理速度快。数据处理需要遵循“1秒定律”,即从各种类型的数据中快速提取出高价值的信息。最后,大数据的价值密度往往较低。以视频为例,一小时的视频中,在不间断的测试过程中,可能只有一两秒的数据是有用的。