在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器。
奇点云自研的一站式大数据智能服务平台——DataSimba,旨在提供数据采集、数据加工、数据治理、数据规范、数据资产、数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台。其主要核心模块包括了数据开发套件、数据治理套件、数据服务引擎、数据智能、数据安全。
1、数据采集
数据采集作为数据中台第一个环节,不仅仅是要“采集”,也要将数据合理的“存”起来。DataSimba数据采集研发了两套采集工具,一套是批量采集DataX,一套是实时采集DataS。
DataX为批量离线采集工具,支持市面上基本所有的关系型DB、NoSQL等数据库。
DataS为实时的在线采集工具,支持关系型DB的操作日志的实时读取,如MySQL的binlog,也支持网页埋点的服务日志的实时读取。
2、数据开发
数据开发套件作为产品的核心模块,底层是基于hadoop开源生态圈中的Hive、Spark、Flink、Impala为计算引擎,以Hdfs、Hbase、kudu为分布式存储,为数据开发、数据分析、数据挖掘、算法工程师提供了一套可视化开发界面。开发人员可在开发套件上做一站式开发,包括可视化数据同步配置、创建各种开发任务(包括实时任务和离线任务)、数据建模、调度配置、运维监控等,大大地提高了开发人员的开发效率。同时开发套件实时采集了数据表的元信息、表级、字段级的血缘关系,为数据地图提供了丰富的元数据。
3、数据治理
数据治理套件主要围绕开发完成的数据进行一系列的数据质量监控、数据规范定义、数据元信息展示。一方面提供了多种规则模板,监控各个环节任务产出的数据质量,每天定时产出数据质量检测报告,让数据开发对数据的质量做到心中有数,可以及时地修正脏数据;其次提供了元数据管理,形成全局数据地图,分析数据血缘,数据影响,为数据开发与维护提供支撑;最后还帮助开发人员制定一系列的数据标准进行名称、指标、维度的设计规范,统一口径,消除二义性。然后利用数学统计、机器学习、深度挖掘等大数据技术构建企业的标签体系,把原始数据加工成企业可阅读易理解的标签体系,并且应用在不同的业务场合中,帮助企业解决痛点,提升商业价值。
4、数据服务
数据服务引擎打通了应用方和数据的通道,可以让数据紧密的跟业务结合在一起,加速数据业务化过程。传统的数据仓库,通常在已有N个维度中随机挑选几个维度进行大数据量的聚合操作,返回结果集非常缓慢,OLAP引擎可以支持大数据量多维度查询秒级结果返回,大大地提高了工作效率;另一方面传统数仓在报表类数据展示上花费了很大的人力和物力,而且非常难维护开发好的接口,数据API通过可视化模式快速生成接口,并且建立起接口元信息,方便以后的维护,只需要轻松修改下接口元信息即可满足前方业务的变动,而且数据API还提供了接口访问信息的采集与监控,让业务方可以及时地感知到接口的使用情况。
5、数据安全
数据安全可以帮助企业建立数据安全体系。数据安全在数据访问、数据流动、数据运维等几个关键环节中都加入了身份认证和权限访问控制,通过网络传输加密、高可靠的数据存储、敏感数据脱敏、日志审计、事件溯源、高危操作拦截等功能来保障企业数据的稳定性和安全性。
6、数据模型
好的数据模型,是高内聚低耦合的设计,是可以满足未来业务发展的扩展性。当然也不能过度设计,够用的同时兼顾扩展性。
数据模型设计是一套方法论加上对业务的深刻理解,将业务高度抽象成的多维数据模型结构,模型的数量与复杂度与业务强相关,如大家都比较熟悉的电商业务,按业务过程来切分,可设计为流量数据模型、收藏数据模型、加购数据模型、交易数据模型等。
7、业务模型
前面的业务创新智能化提到,围绕节本增效,业务通过融合后的全域数据、算法技术,将业务经验与数据智能相结合,为运营提高决策效率,如智能选品模型;为业务提升经济价值,如智能折扣模型;为后端部门减少成本,如智能排班模型。
DataSimba作为企业级一站式大数据智能服务平台,产品体系和服务能力随着业务场景不断升级迭代,现已在商业综合体、大时尚、医药、酒类等领域投入使用,实现数据化企业运营,帮助企业能够真正盘活数据资产,创造更多的商业价值!