业务背景关系表结构是被人们普遍接受的数据模型,通常一行数据由多个属性组成,每个属性是一列。但是磁盘是一维的,文件只能顺序写,那么先写谁后写谁呢?不同的写文件顺序就对应了不同的存储模型。传统数据库通常采用行式存储,即先存一行数据,再存下一行数据。在大数据时代,一个常见分析型场景是在数据仓库中进行分析,如商店的商品信息,有商品号,进货日期,价格等包含多个属性,这就是一个很常见的数据模型。而查询很多时候是计算某个属性上的聚合值,比如计算一个地区的平均身高,所有人的平均年龄等。列式存储通常将不同数据的同一个属性值存在一起,在查询时只遍历需要的数据。因为每一个属性在表中就是一列,所以很直观的就叫列式存储。(东哥曾经很流氓的跟我说,你把表转过来看,其实行式存储也是列式存储。。。)针对这种场景,但不仅限于这种场景,出现了很多列式存储的文件格式和存储系统,比如 Parquet,CarbonData,Cassandra等。并且在大数据时代的分析型场景下碾压了传统的关系型数据库,于是提出了新名词 NoSQL,Not only SQL,不仅仅是SQL,本意是去掉关系数据库中对事务的支持,在大数据场景事务的概
Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 收集、聚合事件流数据的分布式框架通常用于log数据 采用ad-hoc方案,明显优点如下: 可靠的、可伸缩、可管理、可定制、高性能 声明式配置,可以动态更新配置 提供上下文路由功能 支持负载均衡和故障转移 功能丰富 完全的可扩展数据收集的框架分布式流式实时收集日志文件系统,便于实时在线的流式计算,常配合 Storm 和 spark streming 使用。Flume is a distributed分布式的, reliable可靠的, and available可用的 service for efficiently高效 collecting收集, aggregating聚合, and movin
admin
这个人很懒,什么都没写!!!