曹世宏的博客

记录一些学习资料


  • 首页

  • 分类

  • 标签

  • 归档

  • 关于

  • 搜索

HDFS常用Shell命令和基础开发

发表于 2018-06-08 | 更新于 2019-11-15 | 分类于 大数据
HDFS常用Shell命令Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。 HDFS有三种shell命令方式: hadoop fs :适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统。 Hadoop dfs:只能适用与HDFS文件系统。 hdfs dfs:跟hadoop dfs命令作用一样,也只能适用与HDfS文件系统。 我这里的的命令用的都是第三种,hdfs dfs。 对文件和文件夹 ...
阅读全文 »

ZooKeeper技术原理

发表于 2018-06-03 | 更新于 2019-11-15 | 分类于 大数据
ZooKeeper简介ZooKeeper概述:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 ZooKeeper分布式服务框架主要是用来解决分布式应用中经常遇到的一些数据管理问题,提供分布式、高可用性的协调服务能力。 安全模式下ZooKeeper依赖于Kerberos和L搭配Server进行 ...
阅读全文 »

Kafka技术原理

发表于 2018-06-02 | 更新于 2019-11-15 | 分类于 大数据
Kafka简介Kafka概述:Kafka由 linked-in 开源 。 kafka-高产出的分布式消息系统(A high-throughput distributed messaging system)。 Kafka是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可以在廉价的PC Server上搭建起大规模消息系统。 Kafka的特性: 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer ...
阅读全文 »

Flume技术原理

发表于 2018-06-02 | 更新于 2019-11-15 | 分类于 大数据
Flume简介Flume概述:Flume是开源日志系统。是一个分布式、可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,FLume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。 Flume是什么?Flume是流式日志采集工具,FLume提供对数据进行简单处理并且写到各种数据接收方(可定制)的能力,Flume提供从本地文件(spooling directory source)、实时日志(taildir、exec)、REST消息、Thift、Avr ...
阅读全文 »

Loader技术原理

发表于 2018-06-01 | 更新于 2019-08-25 | 分类于 大数据
Loader简介什么是Loader:Loader是实现FusionInsight HD与关系型数据库、文件系统之间交互数据和文件的数据加载工具。基于开源Sqoop研发,做了大量优化和扩展。提供可视化向导式的作业配置管理界面;提供定时调度任务,周期性执行Loader作业;在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。 Loader的特点: 图形化:提供图形化配置、监控界面,操作简便。 高性能:利用MapReduce并行处理数据。 高可靠:Loader Server采 ...
阅读全文 »

Flink技术原理

发表于 2018-05-31 | 更新于 2019-11-15 | 分类于 大数据
Flink简介Flink概述: Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并发化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink与Storm类似,属于事件驱动型实时流系统。 Flink特点: Streaming-first、流处理引擎。 Fault-tolerant,容错,可靠性,checkpoint。 Scalable,可扩展性,1000节点以上。 Performance,性能,高吞吐量, 低延迟。 Flink关键特 ...
阅读全文 »

Pregel(图计算)技术原理

发表于 2018-05-30 | 更新于 2019-11-15 | 分类于 大数据
图计算简介图结构数据: 许多大数据都是以大规模图或网络的形式呈现。 许多非图结构的大数据,也常常会被转换为图模型后进行分析。 图数据结构很好地表达了数据之间的关联性。 关联性计算是大数据计算的核心——通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息。 传统图计算解决方案的不足之处:很多传统的图计算算法都存在以下几个典型问题: 常常表现出比较差的内存访问局部性 针对单个顶点的处理工作过少 计算过程中伴随着并行度的改变 针对大型图(比如社交网络和网络图)的计算问题,可能的解决方案 ...
阅读全文 »

Spark技术原理

发表于 2018-05-25 | 更新于 2019-11-15 | 分类于 大数据
Spark概述Spark简介:Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。 Spark在2014年打破了Hadoop保持的基准排序纪录 Spark/206个节点/23分钟/100TB数据 Hadoop ...
阅读全文 »

Storm(流计算)技术原理

发表于 2018-05-24 | 更新于 2019-11-15 | 分类于 大数据
流计算概述什么是流数据:数据有静态数据和流数据。 静态数据: 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。 图:静态数据的一般处理流程 流数据: 近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——流数据,即数据以大量、快速、时变的流形式持续到达。 实例:PM2.5检测、电子商务网站用户点 ...
阅读全文 »

Impala技术原理

发表于 2018-05-22 | 更新于 2019-11-15 | 分类于 大数据
Impala简介Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级大数据,在性能上比Hive高出3~30倍。 Impala的运行需要依赖于Hive的元数据。Impala是参照 Dremel系统进行设计的。 Impala采用了与商用并行关系数据库类似的分布式查询引擎,可以直接与HDFS和HBase进行交互查询。 Impala和Hive采用相同的SQL语法、ODBC驱动程序和用户接口。 图:Impala与其他组件的关系 ...
阅读全文 »
1…131415…27
曹世宏

曹世宏

你的责任就是你的方向,你的经历就是你的资本,你的性格就是你的命运。

264 日志
25 分类
135 标签
RSS
GitHub E-Mail qq CSDN
友情链接
  • 我的CSDN
  • 华为培训认证
  • 鸿鹄论坛
  • CSDN博客
  • 博客园
  • w3cshool
  • 51cto
0%
© 2017 – 2022 曹世宏
全站共 1.1m 字