1. PA真人视讯

      睿治

      智能数据治理平台

      睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额》报告中,陆续在四年蝉联数据治理解决方案市场份额领先。

      在线免费试用 DEMO体验 视频介绍

      详解企业级数仓设计与搭建,Flink/SparkSQL全部涵盖!

      时间:2022-04-21来源:三月浏览数:297

      本质上,数据仓库就是一种数据库,由一张一张数据表组成,用来存放数据。

      大数据,其实就是数据库技术以及分布式体系的结合。所以要搞好大数据,就得从这两方面入手!

      今天咱们主要聊聊数据仓库技术。本质上,数据仓库就是一种数据库,由一张一张数据表组成,用来存放数据。

      当然,两者之间的差异也是非常大的,比如数据库是为捕获数据而设计的,数据仓库是为分析数据而生。目的和应用场景不同,让它们在架构体系和建模设计上面有非常大的不同。这里就不过多赘述了。

      数仓通常是一个企业数据分析的起点,架构和逻辑一般如下图所示:

      数仓在构建的时候通常需要ETL处理和分层设计,基于业务系统采集的结构化和非结构化数据进行各种ETL处理成为DWD层,再基于DWD层设计上层的数据模型层,形成DM,中间会有DWB/DWS作为部分中间过程数据。


      而在实践中,数仓随着技术和业务的不断开展,也演进出了几种主要的架构方法,从传统数仓架构,到Lambda架构(离线数仓+实时数仓),再到Kappa架构(实时数仓)不一而足。


      各个架构各有优劣,实际工作中到底选择哪种架构,还是需要根据具体的业务需求来决定。


      当然,更多的时候,为了应对更广泛的场景,大多数公司采用的是混合架构,也就是Lambda和Kappa的结合,比如大部分实时指标统计使用Kappa架构完成计算,少量关键指标使用Lambda架构用批处理重新计算,增加一次校对过程。

      这些复杂架构落地的过程中,大数据工程师们会面临非常多的挑战,比如离线&实时数仓的技术选型要怎么选、分层设计要怎么做,更具体的,基于Spark SQL的离线数仓要怎么搭建、基于FlinkSQL的实时数仓又要怎么搭建……非常容易踩坑!

      (部分内容来源网络,如有侵权请联系删除)
      立即申请数据分析/数据治理产品免费试用 我要试用
      customer

      在线咨询

      在线咨询

      点击进入在线咨询

      联系客服

      扫描下方二维码,添加客服

      亿信微信二维码

      扫码添加好友,获取专业咨询服务