曹世宏的博客

Hive技术原理

发表于 2018-05-22 | 更新于 2019-11-15 | 分类于大数据

Hive概述数据仓库的概念：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。传统数据仓库面临的挑战：无法满足快速增长的海量数据存储需求。无法有效处理不同类型的数据。计算和处理能力不足。 Hive简介： Hive是一个构建于Hadoop顶层的数据仓库工具，可以查询和管理PB级别的分布式数据。支持大规模 ...

阅读全文 »

云数据库

发表于 2018-05-20 | 更新于 2019-11-15 | 分类于大数据

云数据库概述云计算是云数据库兴起的基础：云计算的概念：通过整合、管理、调配分布在网络各处的计算资源，通过互联网以统一界面，同时向大量的用户提供服务。云计算特点：按需服务，随时服务，通用型，高可靠性，极其廉价，超大规模，虚拟化，高扩展性。云数据库的概念：云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易。云数据库具有高可扩展性、高可用性、采 ...

阅读全文 »

NoSQL数据库

发表于 2018-05-19 | 更新于 2019-11-15 | 分类于大数据

NoSQL简介NoSQL概念: 图；NoSQL概念的演变 NoSQL最初表示的“反SQL”运动，用新型的非关系型数据库取代关系型数据库。现在NoSQL（Not only SQL）表示关系和非关系型数据库各有优缺点，彼此都无法互相取代。 NoSQL的特点：通常，NoSQL数据库具有以下几个特点：灵活的可扩展性。灵活的数据模型与云计算紧密融合。现在有很多公司都使用了NoSQL数据库：如Google，Facebook，百度，阿里等。 NoSQL兴起的原因原因一：关系型数据库已经无法满足W ...

阅读全文 »

HBase技术原理

发表于 2018-05-17 | 更新于 2019-11-15 | 分类于大数据

HBase基本介绍BigTable简介：BigTable是一个分布式存储系统，BigTable起初用于解决典型的互联网搜索问题。 BigTable是一个分布式存储系统。利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据。使用谷歌分布式文件系统GFS作为底层数据存储。采用Chubby提供协同服务管理。可以扩展到PB级别的数据和上千台机器，具备广泛应用性、可扩展性、高性能和高可用性等特点。谷歌的许多项目都存储在BigTable中，包括搜索、地图、财经。 HBase简介：H ...

阅读全文 »

蓝桥杯第九届省赛Java-B组

发表于 2018-05-14 | 更新于 2019-03-21 | 分类于算法

第一题：第几天 2000年的1月1日，是那一年的第1天。那么，2000年的5月4日，是那一年的第几天？注意：需要提交的是一个整数，不要填写任何多余内容。日期类题目解题方法如下：解法1：2000年是闰年二月有29天，一月和三月有31天，四月有30天，所以：31+29+31+30+4=125 解法2：在考场可以拿电脑自带日期计算器：解法3：利用vbs脚本：新建记事本，写入如下代码，把文件后缀txt改为vbs就行。求两日期间隔类题目： 1msgbox( DateDiff( ...

阅读全文 »

深度优先遍历和广度优先遍历

发表于 2018-05-14 | 分类于算法

深度优先遍历深度优先遍历(Depth-First Traversal)简称DFS。算法思想：首先以一个未被访问过的顶点作为起始顶点，沿当前顶点的边走到未访问过的顶点；当没有未访问过的顶点时，则回到上一个顶点，继续试探别的顶点，直到所有的顶点都被访问过。图：深度优先遍历示例图如上图，采用图的深度优先遍历的话，从0号节点遍历的顺序应该是：0,1,2,3,4. 程序源代码示例： 1234567891011121314151617181920212223242526public clas ...

阅读全文 »

Hadoop的优化与发展

发表于 2018-05-11 | 更新于 2019-11-15 | 分类于大数据

Hadoop1.0的缺陷与不足：Hadoop1.0的核心组件（仅指MapReduce和HDFS，不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件），主要存在以下不足：抽象层次低，需人工编码表达能力有限开发者自己管理作业（Job）之间的依赖关系难以看到程序整体逻辑执行迭代操作效率低资源浪费（Map和Reduce分两阶段执行）实时性差（适合批处理，不支持实时交互式）针对Hadoop的改进与提升：Hadoop的优化与发展主要体现在两个方面：一方面是Hadoo ...

阅读全文 »

Yarn技术原理

发表于 2018-05-11 | 更新于 2019-11-15 | 分类于大数据

Yarn的基本介绍Yarn基本定义：Apache Hadoop YARN（Yet Another Resource Negotiator,另一种资源协调者）是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来的巨大的好处。 YARN在产品中的位置：图：Yarn在FusionInsight产品中的位置 YARN是Hadoop2.0中的资源管理系统，它是一个通用的资源管理模块，可为各类应用程序提供 ...

阅读全文 »

MapReduce技术原理

发表于 2018-05-11 | 更新于 2019-11-15 | 分类于大数据

MapReduce基本介绍MapReduce基本定义：MapReduce是面向大数据并行处理的计算模型、框架和平台。它包含以下三层含义： MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。 MapReduce是一个并行计算与运行软件框架（Software Framework）。 MapReduce是一个并行程序设计模型与方法（Programming Model & Methodology）。 MapReduce模型简介： MapR ...

阅读全文 »

HDFS技术原理

发表于 2018-05-10 | 更新于 2019-11-15 | 分类于大数据

HDFS概述及应用场景HDFS概述：HDFS(Hadoop Distributed File System)基于Google发布的GFS论文设计开发，运行在通用硬件平台上的分布式文件系统。其除具有其他分布式文件系统的相同特性外，还有自己特有的特性：高容错性：认为硬件总是不可靠的。高吞吐量：为大量数据访问的应用提供高可用吞吐量支持。大文件存储：支持存储TB-PB级别的数据。 HDFS适合做：大文件存储、流式数据访问。 HDFS不适合做：大量小文件、随机写入、低延迟读取。 HDFS应用场 ...

阅读全文 »

曹世宏

你的责任就是你的方向，你的经历就是你的资本，你的性格就是你的命运。

RSS

GitHub E-Mail qq CSDN