数据仓库Hive

如题所述

第1个回答 2022-06-18

一个公司里面不同项目可能用到不同的数据源，有的存在MySQL里面，又的存在MongoDB里面，甚至还有些要做第三方数据。

但是现在又想把数据整合起来，进行 数据分析 。此时数据仓库(Data Warehouse，DW)就派上用场了。它可以对多种业务数据进行筛选和整合，可以用于数据分析、数据挖掘、数据报表。

总的来说，数据仓库是将多个数据源的数据按照一定的主题集成起来，因为之前的数据各不相同，所以需要 抽取、清洗、转换 。

整合以后的数据不允许随便修改，只能分析，还需要定期更新。

上面我们说过，数据仓库接收的数据源是不同的，要做集成的话，需要 抽取、清洗、转换 三个步骤，这就是 ETL (Extract-Transform-Load)

国内最常用的是一款基于Hadoop的开源数据仓库，名为 Hive ，它可以对存储在 HDFS 的文件数据进行 查询、分析 。

Hive对外可以提供HiveQL，这是类似于SQL语言的一种查询语言。在查询时可以将HiveQL语句转换为 MapReduce 任务，在Hadoop层进行执行。

Hive的最大优势在于免费，那其他知名的商业数据仓库有那些呢？比如Oracle,DB2，其中业界老大是 Teradata

Teradata数据仓库支持大规模并行处理平台(MPP)，可以高速处理海量实际上，性能远远高于Hive。对企业来说，只需要专注于业务，节省管理技术方面的精力，实现ROI（投资回报率）最大化。

上面提到了Hive是最著名的开源数据仓库，它是Hadoop生态中一个重要的组件。

Hadoop的生态中，HDFS解决了分布式存储的问题，MapReduce解决了分布式计算的问题，而HBASE则提供了一种NoSQL的存储方法。

但是如果需要的HDFS上的文件或者HBASE的表进行查询，需要自定义MapReduce方法。那么Hive其实就是在HDFS上面的一个中间层，它可以让业务人员直接使用SQL进行查询。

所以Hive是用进行数据提取转换加载的，而且它可以把SQL转换为MapReduce任务，而Hive的表就是HDFS的目录或者文件。

上图为Hive的体系结构

Hive主要包含以下几种数据模型：

本文为什么是数据仓库？的笔记

相似回答

大家正在搜