Azure Data Guide

Azure 数据处理指引

简介

Azure 的服务用订阅区分不同部门的费用。数据由数据工程师从数据源(各数据库等)导出。

Azure 数据存储服务

服务 功能及特性 客户端
Azure Data Catalog 数据源登记处
Azure Cosmos DB 全球部署、低延迟;支持 SQL(关系数据库)、MongoDB、Cassandra、Gremlin、Table 模式;支持事务,字段默认索引
Azure Data Lake 存储大数据,兼容 Hadoop,节省数据分析时间 Azure 数据工厂、AzCopy
Azure Data Warehouse (不支持跨数据库查询);支持 OLAP
Azure SQL DB 托管关系数据库服务,按需扩展、收缩 TSQL、Azure 数据工厂、应用
Azure Storage 含 Blob(仅存储、最便宜)、Files、Queue、Table 4 种服务,存储媒介;账户名需全局为一 AzCopy

Azure 数据处理服务

服务 作用
Azure Data Factory 协调数据流动、数据转换,可连接多种数据源。
Azure Databricks 托管的 Spark 兼容服务。
Azure HDInsight 包含 Hadoop、Spark、Kafka、HBase、Storm,用于处理大数据。使用 Hive 导入数据。
Azure Stream Analytics 实时处理、响应流数据。
Azure Synapse Analytics Azure Synapse Analytics 融合数据仓库和大数据挖掘,ELT 方式处理数据,加速大数据 BI 报告生成。可用 Azure 数据工厂、 PolyBase 导入,用 TSQL 查询。
 

商业分析有以下几种,Azure Synapse Analytics 可加速描述性分析,一般生成 BI 报告。

名称 分析内容
描述性分析 Descriptive analytics 已经发生
预测性分析 Predictive analytics 将要发生
指导性分析/优先分析 Prescriptive/Preemptive analytics 如何应对

数据存储

不同分类的数据需要考虑不同存储需求。

数据分类

数据类型 特性 可用存储
结构化数据 也叫关系数据,结构预定义 SQL DB
半结构化数据 也叫非关系数据,结构序列化传输时由 XML、JSON、YAML 定义 Cosmos DB
非结构化数据 也叫无结构数据,以原始格式存储的文件:媒体文件、日志等,查询时定义数据结构,用于数据挖掘。 Blob

半结构化数据语言

XML 用元素和属性两种 tag 定义数据结构,太冗长。JSON 用花括号定义数据结构,常用于返回数据。YAML 用换行、缩进定义数据结构。

Azure Storage

Azure Storage 在 Azure Resource Group 中。Storage 设置值 Storage 账号层面有效,需要不同设置的 Storage,就需要不同的 Storage 账号。配置虚拟网络后能让 Storage 内容仅在虚拟网络中传播。

数据处理

分工

角色 职责
数据工程师 云平台数据管理员,兼顾数据整形、数据安全
数据科学家 分析、评估数据,进行描述分析及预测分析
AI 工程师 集成应用与 AI 服务

事务

事务需满足 ACID 保证。

名称 特点及功能
OLTP 在线事务系统 高可用;支持大量用户高速处理大量小型事务
OLAP 在线分析系统 处理大型复杂事务
Author: njun
njun's picture
Updated: 2020/10/31