大数据基础部分第一节
写在前边的话
大数据是个啥子嘛,废话不多说,拿来百度百科的解释:,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
概览目录
- Linux基础
- Hadoop的背景知识与起源
- 搭建Hadoop环境
- Apache Hadoop的体系结构
- HDFS
- MapReduce
- MapReduce编程案例
- NoSQL数据库之:HBase
- 数据分析引擎之:Hive
- 数据分析引擎之: Pig
- 数据采集引擎:Sqoop和Flume
- 集成管理工具:HUE
- Hadoop HA的实现和HDFS的联盟
- NoSQL数据库之:Redis
- 实时处理框架:Apache Storm
本次的实验环境:
- linux操作系统
- Hadoop的介质
- Spark的介质
学习路线和课程简介:
- 基础:java基础(java SE):变量,类型,循环,面向对象,I/O,反射,泛型,JDBC Linux基础大数据: 数据的处理 (1)离线计算 (2)实时计算
- Hadoop (1)数据存储:HDFS (2)数据计算:MapReduce(java程序) ---> 离线计算 (3)其它组件(生态圈):HBase,Hive,Pig,Flume,Sqoop ~~~~等等
- Storm:实时计算框架(java语言) (1)NoSQL:Redis内存数据库 (2)Storm中的内容
- Spark (1)Scala编程语言:可以看成是java的升级 (2)Spark Core : 整个Spark的核心 ---> 相当于MapReduce (3)Spark SQL (4)Spark Streaming:实时计算框架
项目实战
本次课程所有的介质我已保存到网盘,可以随时
Linux的实验环境
- 版本:RedHat 7.4 64位 自带netcat服务器(测试:Spark Streming)
- VM:12
- 类型:RedHat Linux 7 64位
- 网卡:仅主机模式
- 一共5台虚拟机 192.168.235.11 bigdata11 (ip地址根据自己网络情况来定,命名方式是为了便于记忆) 192.168.235.12 bigdata12 192.168.235.13 bigdata13 192.168.235.14 bigdata14 192.168.235.14 bigdata15
配置Linux和Linux的目录结构
- 对Linux了解- 关闭防火墙 查看防火墙状态:systemctl status firewalld.service 关闭防火墙:systemctl stop firewalld.service 禁用防火墙(永久):systemctl disable firewalld.service- 设置主机名(配置文件) /etc/hosts vi /etc/hosts 注:vi编辑器不会用的可以百度下,类似于咱们windows下的记事本 末尾添加一行 192.168.235.11 bigdata11 注:ip以及名字根据自己的情况而定
文件目录操作命令 (此项重点掌握)
咱们来个约定: mkdir /root/tools --->所有的安装包 mkdir /root/training --->安装目录
Linux的权限管理
这部分需要了解
安装常用软件:首先去上面的网盘里找到一个winSCP.exe的软件安装到自己电脑上(相当于FTP上传文件到linux里),然后连接到linux,把网盘里那个jdk-8xxxxxxxx-64.tar.gz拖到咱们约定好的/root/tools下。先把jdk装了吧。
- 切换到tools文件夹下执行 tar -zxvf jdk-8xxxxx-64.tar.gz -C ~/training/ (意思就是安装到约定好的training目录下)
- 设置环境变量 vi ~/.bash_profile 文件末尾添加以下内容 JAVA_HOME=/root/training/jdk1.8.0_144 export JAVA_HOME
PATH=$JAVA_HOME/bin:$PATH
export PATH 然后保存退出后 java -version 检查是否配置生效
Linux的权限管理
- 这部分内容需要掌握