2026年01月19日/ 浏览 12
1.数据存储就是根据不同的应用环境,通过采取合理、安全、有效的方式将数据保存到物理介质上,并能保证对数据实施有效的访问。这里面包含两个方面:
①数据临时或长期驻留的物理媒介;
②保证数据完整安全存放和访问而采取的方式或行为。
2.数据存储首先要解决的是存储介质的问题。存储介质是数据存储的载体,是数据存储的基础。存储介质并不是越贵越好、越先进越好,要根据不同的应用环境,合理选择存储介质。存储介质的类型主要有磁带、光盘和磁盘三种。
3.存储管理在存储系统中的地位越来越重要,例如如何提高存储系统的访问性能,如何满足数据量不断增长的需要,如何有效的保护数据、提高数据的可用性,如何满足存储空间的共享等。存储管理的具体内容如表所示。

4.当前最常见的数据备份结构可以分为四种:DAS备份结构、基于LAN的备份结构、LAN-FREE备份结构和SERVER-FREE备份结构。常见的备份策略主要有三种:完全备份、差分备份和增量备份。
5.备份软件主要分为两大类:一是操作系统自带的软件,如麒麟操作系统的“备份”工具,这类软件实现的功能都很简单;二是专业备份软件,其能够实现比较全面的功能。
6.根据容灾系统保护对象的不同,容灾系统分为应用容灾和数据容灾两类。应用容灾用于克服灾难对系统的影响,保证应用服务的完整、可靠和安全等一系列要求,使得用户在任何情况下都能得到正常的服务;数据容灾则关注于保证用户数据的高可用性,在灾难发生时能够保证应用系统中的数据尽量少丢失或不丢失,使得应用系统能不间断地运行或尽快地恢复正常运行。
7.国际标准SHARE78定义的容灾系统有七个等级:从最简单的仅在本地进行磁带备份,到将备份的磁带存储在异地,再到建立应用系统实时切换的异地备份系统。恢复时间也可以从几天到小时级到分钟级、秒级或零数据丢失等。从技术上看,衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间。
8.数据质量评价与控制
数据质量是一个广义的概念,是数据产品满足指标、状态和要求能力的特征总和。
1)数据质量描述:数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素和数据质量非定量元素。
2)数据质量评价过程:数据质量评价过程是产生和报告数据质量结果的一系列步骤,图描述了数据质量评价过程。

3)数据质量评价方法:数据质量评价程序是通过应用一个或多个数据质量评价方法来完成的。数据质量评价方法分为直接评价法和间接评价法:
直接评价法:通过将数据与内部或外部的参照信息,如理论值等进行对比。确定数据质量。
间接评价法:利用数据相关信息,如数据只对数据源、采集方法等的描述推断或评估数据质量。
4)数据质量控制
数据产品的质量控制分成前期控制和后期控制两个大部分。前期控制包括数据录入前的质量控制、数据录入过程中的实时质量控制;后期控制为数据录入完成后的后处理质量控制与评价。依据建库流程可分为:
前期控制:是在提交成果(即数据入库)之前对所获得的原始数据与完成的工作进行检查,进一步发现和改正错误。
过程控制:实施减少和消除误差和错误的实用技术和步骤,主要应用在建库过程中,用来对获得的数据在录入过程中进行属性的数据质量控制。
系统检测:在数据入库后进行系统检测,设计检测模板,利用检测程序进行系统自检。
精度评价:对入库属性数据用各种精度评价方法进行精度分析,为用户提供可靠的属性数据。
5)数据清理
数据清理也称数据清洗。从广义上讲,是将数据库精简以除去重复记录,并使剩余部分转换成符合标准的过程。而狭义上的数据清理是特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性、适时性、有效性以适应后续操作的过程。从提高数据质量的角度出发,凡是有助于提高数据质量的处理过程,都可以认为是数据清理。一般说来,数据清理主要包括数据分析、数据检测和数据修正三个步骤,如图所示。

数据清理的三个步骤:
数据分析:是指从数据中发现控制数据的一般规则,比如字段域、业务规则等,通过对数据的分析,定义出数据清理的规则,并选择合适的清理算法。
数据检测:是指根据预定义的清理规则及相关数据清理算法,检测数据是否正确,比如是否满足字段域、业务规则等,或检测记录是否重复。
数据修正:是指手工或自动地修正检测到的错误数据或重复的记录。