您好、欢迎来到现金彩票网!
当前位置:手机棋牌游戏平台 > 伪语义树 >

Hadoop基础理论知识

发布时间:2019-08-25 21:00 来源:未知 编辑:admin

  大数据时代已经到来,给我们的生活、工作、思维方式都带来变革。如何寻求大数据后面的价值,既是机遇又是挑战。不管是金融数据、还是电商数据、又还是社交数据、游戏数据… … 这些数据的规模、结构、增长的速度都给传统数据存储和处理技术带来巨大的考验。幸运的是,Hadoop的诞生和所构建成的生态系统给大数据的存储、处理和分析带来了曙光。

  不管是国外的著名公司Google、Yahoo!、微软、亚马逊、 EBay、FaceBook、Twitter、LinkedIn等等,又还是国内的著名公司中国移动、阿里巴巴、华为、腾讯、百度、网易、京东商城等,都在使用Hadoop及相关技术解决大规模化数据问题,以满足公司需求和创造商业价值。

  1)搜索引擎:这也正是Doug Cutting设计Hadoop的初衷,为了针对大规模的网页快速建立索引;

  2)大数据存储:利用Hadoop的分布式存储能力,例如数据备份、数据仓库等;

  3)大数据处理:利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等;

  4)科学研究:Hadoop是一种分布式的开源框架,对于分布式系统有很大程度地参考价值。

  1)单机模式:Hadoop的默认操作模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,会保守地选择最小配置,即单机模式。该模式主要用于开发调试MapReduce程序的应用逻辑,而不会和守护进程交互,避免增加额外的复杂性。

  2)伪分布模式:指在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式操作之上多了代码调试功能,可以查阅内存的使用情况、HDFS的输入输出以及守护进程之间的交互。

  3)全分布模式:指一种实际意义上的Hadoop集群,其规模可从几个节点的小集群到成百上千个节点的大集群,甚至是成千上万的超大集群。

  适合大数据的处理。HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。

  5)Namenode 使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包括文件映射,文件属性等。

  从社会学来看,Namenode是HDFS里面的管理者,发挥者管理、协调、操控的作用。

  从社会学的角度来看,Datanode是HDFS的工作者,发挥按着Namenode的命令干活,并且把干活的进展和问题反馈到Namenode的作用。

  数据存储系统,数据存储的可靠性至关重要。HDFS是如何保证其可靠性呢?它主要采用如下机理:

  1)冗余副本策略,即所有数据都有副本,副本的数目可以在hdfs-site.xml中设置相应的复制因子。

  2)机架策略,即HDFS的“机架感知”,一般在本机架存放一个副本,在其它机架再存放别的副本,这样可以防止机架失效时丢失数据,也可以提供带宽利用率。

  3)心跳机制,即Namenode周期性从Datanode接受心跳信号和快报告,没有按时发送心跳的Datanode会被标记为宕机,不会再给任何I/O请求,若是Datanode失效造成副本数量下降,并且低于预先设置的阈值,Namenode会检测出这些数据块,并在合适的时机进行重新复制。

  5)校验和,客户端获取数据通过检查校验和,发现数据块是否损坏,从而确定是否要读取副本。

  6)回收站,删除文件,会先到回收站/trash,其里面文件可以快速回复。

  7)元数据保护,映像文件和事务日志是Namenode的核心数据,可以配置为拥有多个副本。

  8)快照,支持存储某个时间点的映像,需要时可以使数据重返这个时间点的状态。

  NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;

  DataNode:Slave节点,奴隶,干活的。负责存储client发来的数据块block;执行数据块的读写操作。

  冷备份:b是a的冷备份,如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息,减少a坏掉之后的损失。

  上部分提到Hadoop存储大数据的核心模块HDFS,这一部分介绍Hadoop处理大数据部分的核心模块MapReduce。

  由此可知,Hadoop核心之MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。因此,对于MapReduce,可以简洁地认为,它是一个软件框架,海量数据是它的“菜”,它在大规模集群上以一种可靠且容错的方式并行地“烹饪这道菜”。

  MapReduce主要是用于解决Hadoop大数据处理的。所谓大数据处理,即以价值为导向,对大数据加工、挖掘和优化等各种处理。

  MapReduce擅长处理大数据,它为什么具有这种能力呢?这可由MapReduce的设计思想发觉。MapReduce的思想就是“分而治之”。Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义:一是数据或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会分配到存放着所需数据的节点上进行计算;三是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer,用户可以根据具体问题,通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值,缺省值为1。

  hadoop是用于管理海量数据,且能够对海量数据进行高效率处理的一种系统框架。其特点有:1. 扩容性:能可靠的存储和处理海量数据2.成本低:普通的机器就能够组成服务器集群来进行数据的存储和处理3.高效...博文来自:小冷在努力~

  本文为博主原创,允许转载,但请声明原文地址:理论知识/Hadoop1.x的问题:  (1) Na...博文来自:u014394255的博客

  最近打算学习hadoop 看了一下hadoop权威指南感觉越看越迷糊 后来听说陆嘉恒的hadoop实战比较适合入门 可是看第一章理论基础时仍然很迷糊,网上看说只要有java基础就差不多 但是理论部分涉及的东西似乎和java没什么太大关系 rn所以我想请教一下熟悉hadoop的朋友 是不是我需要了解java之外的一些理论知识 还是说这个东西就得硬啃 还是说我的java水平还远远不够 还是说理论部分先了解一下 实际操作后慢慢就会懂rn请求指点 谢谢论坛

  1. 简述类和对象的概念,并举例说明类:具有相同属性和行为方法事物的抽象的集合对象:类的具体的实例化  举例:人类对象:人类中的马云、马化腾   2. 简述类继承的特点1. 子类继承父类,子类可以使...博文来自:baidu_32542573的博客

  一、爬虫的背景知识企业产生的数据:大的公司会根据用户的行为记录数据,数据会被大公司利用,用来做数据的分析数据平台的数据:数据公司将数据包装成API形式,贩卖数据政府和机构的数据:政府公开的一些数据数据...博文来自:cc576795555的博客

  1.软件的3个要素构成:软件:信息处理系统的部分或全部程序、规程、规则以及相关的文档软件产品:一组计算机程序、规程以及可能有的相关文档和数据。 2.软件产品质量是指:实体(软件产品)特性的总和,表示实...博文来自:QT_1115081933_DS的博客

  A Guide to MPEG Fundamentals and Protocol Analysis (Including DVB and ATSC)

  基础课件 ,jsp基础,ppt课件基础课件 ,jsp基础,ppt课件基础课件 ,jsp基础,ppt课件基础课件 ,jsp基础,ppt课件

  平面设计的一般流程 平面设计表现手法常识 广告设计师应具备的能力 卡通造型绘制要点

  测试的基础理论:测试的常见种类,回归测试,集成测试,软件质量量化标准-测试角度,系统测试,性能测试

  单元测试基础理论知识单元测试基础理论知识单元测试基础理论知识单元测试基础理论知识单元测试基础理论知识

  JAVA理论知识基础复习 构造方法 new关键字 方法的重载 特殊变量this 关键字static 定义常量 继承 方法的重写 特殊变量super 多态性 等相关知识点总结

  1.互联网的组成2.计算机网络的类别博文来自:yutong5818的博客

  Javac编译原理1.javac编译器的基本结构javac的各个模块就是完成了将java源代码转变成java字节码的任务,所以javac主要就有四大模块,分别是词法分析器、语法分析器、语义分析器和代码...博文来自:SpringLiVn的博客

  引言介绍什么是NoSQL,NoSQL和RDBMS之间有什么区别,有什么埸景下需要用NoSQL数据库,NoSQL数据的优点和缺点;谈谈NoSQL一些基本的背景之后,这章会重点深入谈讨HBase数据库,H...博文来自:weixin_44178639的博客

  无线标准标准涉及数据链路层逻辑链路控制子层LLC媒体访问控制子层MAC物理层无线射频信号编码DSSS直序扩频FHSS跳频扩频媒体访问方式—CSMA/CA根据算法侦听一定时长...博文来自:小水池

  例子如下:二进制数在内存中以补码的形式存储。按位取反:二进制每一位取反,0变1,1变0。~9的计算步骤:转二进制:01001计算补码:01001按位取反:10110转为原码:按位取反:11001末位加...博文来自:Csoap2的博客

  1.maven是什么?Maven是一个项目管理和综合工具。Maven提供了开发人员构建一个完整的生命周期框架。开发团队可以自动完成项目的基础工具建设,Maven使用标准的目录结构和默认构建生命周期。在...博文来自:Haker_枫

  1、hbase中的一下基本概念rowkey(主键)、列族、cell和时间戳timestamp1、主键是用来检索记录的主键,访问hbasetable中的行,只有三种方式通过单个rowkey访问通过row...博文来自:Cruise的博客

  1.throw和throws的区别?throws:用来声明一个方法可能产生的所有异常,不做任何处理而是将异常往上传,谁调用我我就抛给谁。用在方法声明后面,跟的是异常类名可以跟多个异常类名,用逗号隔开表...博文来自:zll_fashion的博客

  简介SpringBoot是一个简化Spring开发的框架。用来监护spring应用开发,约定大于配置,去繁就简!!我们在使用SpringBoot时只需要配置相应的SpringBoot就可以用所有的Sp...博文来自:的博客

  Java理论知识1.什么是程序?一系列有序指令的集合。2.JavaSE与JavaEEJavaSE:Java平台标准版,是Java技术的核心,主要用于桌面程序的开发。JavaEE:Java平台企业版,主...博文来自:技术宅-Nopi的博客

  HTML基础理论知识致自己的复习笔记。1.什么是HTML?HTML是用来描述网页的一种超文本标记语言。2.什么是W3C标准?W3C标准不是某一个标准,而是一系列的标准集合。W3C标准包括结构化标准语言...博文来自:技术宅-Nopi的博客

  Django模型理论知识简介Django模型所在的位置:URL---视图---模型(mysql)什么是模型:模型就是数据的唯一的权威的信息源包含所存储的诗句的必要字段和行为(...博文来自:weixin_33962621的博客

  CSS基础理论知识致自己的复习笔记1.什么是CSS?CSS全称为层叠样式表,通常又称风格样式表,是用来进行网页风格设计的。2.CSS的优势1)内容与表现分离。2)表现的统一。3)丰富的样式,使得页面布...博文来自:技术宅-Nopi的博客

  51单片机的特点集成度高,抗干扰能力强,可靠性高。开发性能好,开发周期短,控制能力强。低功耗,低电压,具有掉电保护功能,广泛用于智能仪器仪表中。通用性和灵活性好。电平特性TTL电平:+5V(1)0V(...博文来自:zzl_godstyle的博客

  全套视频共分为15章,211课时,从初级讲起,做到全方位技术提高,内容包括系统概述、安装与基本环境设置,本地用户与组账户的管理,建立Active Directory域,NTFS磁盘的安全性与管理,访问网络文件,分布式文件系统(DFS),利用配置文件来管理用户环境,组策略与安全设置,注册表与注册表编辑器,远程桌面连接,磁盘系统的管理,防火墙技术,系统疑难故障的排除等。

  文章目录实验1:图像灰度变换实验一内容实验一理论知识VS2017中配置opencv3.4.1环境实验一代码实验二:直方图均衡实验二内容实验二理论知识实验二代码实验三:空域滤波实验三内容实验三理论知识实...博文来自:记忆碎片的博客

  一:了解什么是数据库?普遍观点认为,数据库是一个长期存储在计算机内的,有组织的,有共享的,统一管理的数据集合.常用的数据类型有哪些?整数数据类型,浮点数数据类型,精确小数类型,二进制数据类型,日期/时...博文来自:的博客

http://lsm-systems.com/weiyuyishu/383.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有