数据湖

海量储存

快速加工

灵活分析

指导决策

一个集中化分布式存储海量的多种来源,多种类型数据,并可以对数据进行快速加工,具有灵活多样的分析工具的平台,其本质上是一套适应大数据时代更加先进的企业数据架构

平台简介

“ 一个集中式分布化存储库,允许以任意规模存储所有结构化和非结构化数据 ”

一个集中式分布化存储库,允许以任意规模存储所有结构化和非结构化数据,可以按原样存储数据,并运行不同类型的分析,包含可视化到大数据处理、实时分析和机器学习,以指导企业做出更好的决策的系统

平台功能

Platform Function

提供高可靠性、高性能、可伸缩的分布式存储系统及可扩展的大规模数据处理能力

采用Hadoop框架体系在一定程度上降低单位存算成本的同时统一承载海量结构化、半结构化及非结构化数据

提供丰富的数据计算分析引擎

具备对结构化、半结构化和非结构化数据进行多层次融合分析的能力,包含批处理、流式计算、交互式分析到机器学习等各类计算引擎

具有完善的数据管理能力

可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。不仅能存储原始数据,还能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,能帮助用户完整详细追溯任意一条数据的产生过程

建设的关键能力包括

混合处理

支持所有类型数据入湖无需预先设计模型,同时支持事务型和分析型数据处理,数据入湖就能即席分析、持续迭代

联邦分析

支持多类型数据格式融合分析,无需额外数据搬迁,可通过标准查询语句实现跨源数据探索计算分析

弹性伸缩

计算和存储层可独立弹性扩展,具备大容量存储池和“理论上”无限弹性计算资源能力,快速应对数据和业务变化

分级存储

支持冷热数据分级存储数据自动管理,合理利用存储,降低成本

数据探索

具备集成算法开发能力能快速构建算法模型及数据探索,甚至与标准数据库查询语句融合支持采用标准接口完成算法及AI业务开发

数据发布

能将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求

平台优势

Platform Advantage

更直观的数据价值

在数据应用实现商业变现之前,就数据本身而言,纳入灵活但可控的数据共享工具及平台,加速湖内和湖外、组织内和组织外数据的碰撞,共融互通而形成更完整的数据全景从而为业务服务;


纳入数据商业化/社会化运营工具,例如数据沙箱、智能脱敏、自主订阅、用量统计等,撬动数据资产本身的价值


更灵活的数据分析

纳入“数据不动计算动”联邦学习能力,解决数据迁移、数据安全和数据权责的问题;纳入“既能保证数据事务性又能保证数据分析性”混合事物/分析处理架构,解决从事务性数据库导入到数据仓库产生的时效性和一致性问题;纳入针对“大宽表”的即席多维度分析能力,解决传统上做多维度分析时需要将数据预先按主题拆分和转换处理过程而导致的分析长链路以及低时效问题等

更精细的资产管理

可以从冷热数据、业务标签等不同角度对数据进行分级分层存储,在预先定义好的数据管控规则和基于日志的机器学习运维任务下,做到半自动甚至全自动的数据管理,合理利用系统资源,实现“数据自治”

更智能的数据接入

在大数据时代信息进一步爆炸,无论是数据量还是数据种类和复杂度都呈指数级发展,数据湖可以成为整个数据的融合汇聚中心


通过数据感知技术,根据接入的数据类型、更新频率、数据量大小以及预设好的使用场景等信息,智能判别数据接入方式、自动化地进行底层协议及技术的匹配,降低接入数据湖的门槛和整体运维的成本


平台价值

Platform Value

深度挖掘数据价值,助力企业数字化转型落地

实现数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程

满足企业各级数据分析应用需求

利用数据湖智能分析、数据可视化等技术,实现数据共享、日常报表自动生成、快速和智能分析,满足企业各级数据分析应用需求


立即体验,开启数字化转型之旅 !