这篇文章将为大家详细讲解有关大数据中如何用数据目录解决数据蔓延的问题,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
当数据库被复制用于企业不同的任务时,大数据成为一个大问题。数据目录提供了一个强大的的解决方案。
企业的安全分析团队需要自己的生产数据库的副本,以便他们可以查找出欺诈性帐户。企业的应付帐款部门需要一个可以分析的提取物来提高供应链效率。企业的销售经理需要其所有客户记录。而企业的数据库管理员正在使用两个快照和两个完整备份来确保所有数据都是安全的。
当数据不必要地重复时,数据蔓延发生
企业所面临的是一个典型的数据蔓延问题。当组织(无论出于何种原因)创建多个生产数据副本时,廉江会发生这种情况。创建每个副本总有一个很好的理由,但总体来说,它们变得一团糟。
随着业务用户越来越希望在大数据的背景下自己分析数据,数据蔓延正成为一个真正的问题。据IDC公司估计,目前多达60%的存储容量用于复制数据,2018年复制数据存储的总成本将高达500亿美元。但据估计,只有不到20%的组织拥有复制管理标准。调研机构Gartner公司分析师DaveRussell表示,许多公司将会保留30至40份业务数据。
数据蔓延导致组织不同步
除了数据蔓延对基础设施和性能造成的明显影响之外,数据完整性成为一个真正的问题。例如,对客户关系管理(CRM)系统中的客户记录进行更新的销售人员有可能与客户数据库中的相同记录不同步。恢复错误备份的数据库管理员可能会用旧信息覆盖生产数据。
许多企业正在为复制蔓延问题开发的基于技术的解决方案,其代价高昂,但是对于许多客户组织来说,最简单和***成本效益的方法是以数据目录为基础的良好数据治理。
企业数据目录维护公司拥有的所有数据的单个目录。这不仅可以包括生产数据,还包括备份、摘录、摘要。生产数据可以使用独特的签名进行“指纹识别”,以便过时的副本不会无意中进入关键任务应用程序。同样,副本和提取可以根据其预期用途进行标记。目录甚至可以通过确保标记有某些元标记的数据不会被覆盖来提高数据完整性。
数据目录加强数据治理策略是解决方案
数据目录的使用应该与良好的治理实践相结合。例如,员工需要知道哪些数据可用于分析用途,哪些不应该被触及,这是副本或新的相关数据。数据库管理员需要清楚的参数来说明如何恢复备份的数据集。使数据治理既有效又令人愉快的一种方法是鼓励商业用户通过众包的数据质量程序标记自己的数据来加入这个过程。
使用数据目录减少了数据蔓延的基础设施损失,减少了孤立数据的发生。它还可以减轻数据库管理员的负担,同时提高对业务用户请求的响应速度。例如,需要客户记录的销售经理可以使用目录来查找其他部门中已经存在的数据库,并避免加入积压的IT作业单。
企业不应该因为内部数据太多而受到影响。其解决办法不是拒绝具有敏捷性的查看过程的请求,而是为了更好地理解自己拥有哪些数据,以便更加有用。合适的目录可以提供管理和治理,这是一条可以解决数据蔓延和数据驱动的公司的路径。
关于大数据中如何用数据目录解决数据蔓延的问题就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。