如何进行MySQL数据库与HDFS的实时数据同步

如题所述

推荐答案推荐于2018-04-18

您好，很高兴为您解答。

通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增，因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询，如Apache Drill,Cloudera Impala和Stinger Initiative正脱颖而出，新一代的资源管理Apache YARN 支持这些。
　　
为了支持这种日渐强调实时性操作,发布一个新MySQL Applier for Hadoop(用于Hadoop的MySQL Applier)组件。它能够把MySQL中变化的事务复制到Hadoop / Hive / HDFS。Applier 组件补充现有基于批处理Apache Sqoop的连接性。
　　
这个组件(MySQL Applier for Hadoop)的复制是通过连接MySQL主服务，一旦二进制日志被提交，就读取二进制日志事务，并且把它们写到HDFS.
　　
这个组件使用libhdfs提供的API，一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。

　　它连接MySQL主服务读二进制日志，然后提取发生在主服务上的行插入事件，解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。把它追加到HDFS 中一个文本文件。
　　
数据库被映射为单独的目录,它们的表映射为子目录，保存在数据仓库目录。每个表的数据被写到Hive/ HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。

如若满意，请点击右侧【采纳答案】，如若还有问题，请点击【追问】

希望我的回答对您有所帮助，望采纳！

~ O(∩_∩)O~

温馨提示：答案为网友推荐，仅供参考

当前网址：http://33.wendadaohang.com/zd/h50B4cdR4PPW0PRcPh.html

其他回答

第1个回答 2018-07-06

通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增，因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询，如Apache Drill, Cloudera Impala和Stinger Initiative正脱颖而出，新一代的资源管理Apache YARN 支持这些。
为了支持这种日渐强调实时性操作,我们正发布一个新MySQL Applier for Hadoop(用于Hadoop的MySQL Applier)组件。它能够把MySQL中变化的事务复制到Hadoop / Hive / HDFS。Applier 组件补充现有基于批处理Apache Sqoop的连接性。
这个组件(MySQL Applier for Hadoop)的复制是通过连接MySQL主服务，一旦二进制日志被提交，就读取二进制日志事务，并且把它们写到HDFS.
这个组件使用libhdfs提供的API，一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。
它连接MySQL主服务读二进制日志，然后：
•提取发生在主服务上的行插入事件
•解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。
•把它追加到HDFS 中一个文本文件。
数据库被映射为单独的目录,它们的表映射为子目录，保存在数据仓库目录。每个表的数据被写到Hive/ HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。

相似回答

怎么通过sqoop将hdfs上数据导入到mysql答：1、在MYSQL中创建一个参数表A，用来记录要传输的表的表名B和字段。2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。3、从MYSQL的参数表A中，读取要传输的表B。把这些字段拼凑成一个insert语句，例如，拼凑为insert into b(column1,column2..) values(value1,value2...)4、从H...

mysql同步数据到hive---binlog方式答：因为本身binlog的方式同步mysql数据为的就是节约mysql的读取压力，而小的表对于不会有太大压力，这些表可以直接通过jdbc的方式去同步。这个是整个环节里面最复杂的一部分，涉及的细节也比较多。首先，我们要明确一下总体的思路是什么。总体的思路就是要读取hdfs上的老的历史数据，然后和新的binlog数据合并...

mysql导入到hive hdfs上显示又数据了 hive表里面什么都没有答：hdfs显示但是hive里面没有的话，很可能hive配置使用的是自带的deby数据库。hive的配置文件弄好，如果用sqoop的话，把hive的配置文件hive-site.sh拷贝一份到sqoop的conf目录下，让sqoop知道保存的数据是到mysql元数据库的hive。

大家正在搜

实时数据库与关系型数据库从数据库实时采集数据实时数据需要存数据库实时数据怎么存储到数据库 plc数据实时存入数据库实时获取数据库中的值 sql数据实时显示数据实时数据库有几种数据库大数据