Logstash6整合Hadoop

LogstashHadoop

3124 1

前提

本文是之前elk的后续，故默认已搭建好logstash等elk相关环境。侧重点是Hadoop安装以及其与logstash的Output插件的整合。ELK的搭建可见：ELK实时日志管理-系统搭建

假设存在两台服务器并处于同一局域网中，分别是192.168.0.79和192.168.0.80，系统均是CentOS7，且均已安装Java 8。

ELK系统已部署在192.168.0.79
Hadoop将部署于192.168.0.80

原则Hadoop集群需要ssh免密登陆配置，以便操作节点的启动与停止，这里暂不涉及此方面需求，故舍去。相关的可在官方文档-Hadoop: Setting up a Single Node Cluster. 查看。

下载并解压Hadoop

可从官方 Apache Download Mirrors获取链接下载。本文下载的为Hadoop-2.8.5：

wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz

完成后解压文件：

tar -zxvf hadoop-2.8.5.tar.gz

得到hadoop-2.8.5文件夹

配置

进入解压后的hadoop-2.8.5文件夹：

cd hadoop-2.8.5

etc/hadoop/hadoop-env.sh

编辑etc/hadoop/hadoop-env.sh配置一些默认项，这里主要是设置 JAVA_HOME，即填写完整的 Java 安装路径。

vi etc/hadoop/hadoop-env.sh

注释掉原来的

# export JAVA_HOME=${JAVA_HOME}

192.168.0.80的Java安装目录为/home/parim/apps/jdk1.8.0_181，故添加：

export JAVA_HOME=/home/parim/apps/jdk1.8.0_181

enter description here

若是需要搭建Local (Standalone) Mode，通过如下命令启动即可：

bin/hadoop

本文需要搭建Pseudo-Distributed Operation，故需要继续配置其他文件。

etc/hadoop/core-site.xml

该文件中有两个参数需要设置：

fs.defaultFS - 默认文件系统的名称，端口号可自定义
hadoop.tmp.dir - 其他临时目录的根目录
打开core-site.xml文件：

vi etc/hadoop/core-site.xml

拷贝以下所有行的内容放入到标签 <configuration></configuration> 中间。

&lt;property&gt;
	&lt;name&gt;fs.defaultFS&lt;/name&gt;
	&lt;value&gt;hdfs://192.168.0.80:54310&lt;/value&gt;
&lt;/property&gt;

&lt;property&gt;
  &lt;name&gt;hadoop.tmp.dir&lt;/name&gt;
  &lt;value&gt;/home/parim/apps/hadoop-2.8.5/tmp-data&lt;/value&gt;
  &lt;description&gt;Parent directory for other temporary directories.&lt;/description&gt;
&lt;/property&gt;

1
2
3
4
5
6
7
8
9
10

enter description here

fs.defaultFS

默认文件系统的名称，本身是一个URL，其方案和权限决定了FileSystem的实现。

此URL的方案（scheme ）确定命名FileSystem 实现类的配置属性（fs.SCHEME.impl）。
此URL的权限（authority ）用于确定文件系统的主机，端口等。
fs.defaultFS是旧版本fs.default.name的代替，在新版中fs.default.name已被弃用。
参考core-default.xml#fs.defaultFS

hadoop.tmp.dir

hadoop.tmp.dir的目录默认指向的是：/tmp/hadoop-${USERNAME}

这样会有个问题，系统重启时会自动删除/tmp目录下的文件，导致你之前对hadoop做的很多

操作都被删除了，需要重新再来，比如你想hdfs导入的文件会都被删除。

参考：

etc/hadoop/hdfs-site.xml

这里有两个参数需要配置：

dfs.replication - 默认备份（块复制,block replication）。创建文件时可以指定实际的备份数。如果未在创建时指定备份，则使用默认值。hdfs-default.xml#dfs.replication
dfs.datanode.hostname - datanode默认的hostname，这个不是必须的，因为这里是两台服务器之间传递信息，所以需要配置，否则会导致后面的读写操作异常。

打开hdfs-site.xml文件：

vi etc/hadoop/hdfs-site.xml

拷贝以下所有行的内容放入到标签 <configuration></configuration> 中间。

    &lt;property&gt;
        &lt;name&gt;dfs.replication&lt;/name&gt;
        &lt;value&gt;1&lt;/value&gt;
    &lt;/property&gt;

    &lt;property&gt;
        &lt;name&gt; dfs.datanode.hostname&lt;/name&gt;
        &lt;value&gt;192.168.0.80&lt;/value&gt;
    &lt;/property&gt;

1
2
3
4
5
6
7
8
9
10

enter description here

启动单节点伪分布式集群

以下为在本地运行一个MapReduce job的实现，由于不是必须运行在YARN上，故暂且没配置与启动YARN。

格式化HDFS

在第一使用 Hadoop 之前，需要先格式化 HDFS，使用下面的命令

bin/hdfs namenode -format

若有需要选择的，输入按提示Y即可。

启动单节点集群

使用以下命令启动cHadoop 的单节点集群(使用对应的用户来启动)，如下：

sbin/start-dfs.sh

若该用户之前设置了免密登录，此处可免去多次输入密码的操作，反之则需要根据提示多次输入登录密码。

检测运行

可以使用 ‘jps’ 工具/命令, 验证是否所有 Hadoop 相关的进程正在运行。

/home/parim//apps/jdk1.8.0_181/bin/jps

如果 Hadoop 成功启动，那么 jps 输出应显示： NameNode, SecondaryNameNode, DataNode.

访问

可通过web访问NameNode，默认链接如下：

 http://localhost:50070/

创建HDFS目录

创建执行 MapReduce jobs所需要的HDFS目录：

 bin/hdfs dfs -mkdir /user
 # bin/hdfs dfs -mkdir /user/&lt;username&gt;,username即启动Hadoop的用户名，这里假设为parim
 bin/hdfs dfs -mkdir /user/parim

1
2
3

测试

将Hadoop的logs文件夹中的文件复制到分布式文件系统中：

bin/hdfs dfs -put logs logstash

默认会在HDFS中的/user/parim下创建logstash文件夹并向其写入logs中的文件，若未执行上面创建目录操作，会报无法找到/user/parim的错误。

查看分布式文件系统上logstash中的文件：

 bin/hdfs dfs -cat logstash/*

停止/关闭 Hadoop

当需要停止时可执行如下命令

sbin/stop-dfs.sh

如果用户不是ssh免密码登录，此时需要再多次输入登录密码

Logstash输出到Hadoop

上面是Hadoop安装到操作的基本流程，接下来转到192.168.0.79配置Logstash到Hadoop的输出。

Logstash6的Output plugins有webhdfs，其作用是使用webhdfs REST API将Logstash事件发送到HDFS。

默认Logstash启动配置文件为01-logstash-initial.conf，进入Logstash安装目录并打开文件：

vi config/01-logstash-initial.conf

在output部分追加如下内容：

webhdfs {
	# hdfs的namenode地址
	host =&gt; &quot;192.168.0.80&quot;  
	# Hadoop的webhdfs使用的端口
	port =&gt; 50070     
    # hadoop运行的用户，以这个用户的权限去写入hdfs    
	user =&gt; &quot;parim&quot;
	# 按年月日建log文件
	path =&gt; &quot;/user/parim/logstash-data/logstash-%{+YYYY}-%{+MM}-%{+dd}.log&quot;
	codec =&gt; &quot;json&quot;
	flush_size =&gt; 5000
	idle_flush_time =&gt; 5
	retry_interval =&gt; 3
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14

保存后，重启Logstash即可。

enter description here

放行端口

为了Logstash与Hadoop通信， 192.168.0.80的Hadoop默认配置下，需要放行端口50070和50075，此处是基于firewall防火墙下的命令：

sudo firewall-cmd --zone=public --add-port=50070/tcp --permanent
sudo firewall-cmd --zone=public --add-port=50075/tcp --permanent
sudo firewall-cmd --reload

1
2
3

访问http://192.168.0.80:50070可见如下，当看到logstash-data文件夹时，说明整合成功：

enter description here

进入logstash-data下载里面的log文件，打开可见类似记录：

{&quot;source&quot;:&quot;/home/parim/apps/nginx-1.10/logs/access.log&quot;,&quot;@version&quot;:&quot;1&quot;,&quot;learner_type&quot;:&quot;exam&quot;,&quot;tags&quot;:[&quot;beats_input_codec_plain_applied&quot;],&quot;type&quot;:&quot;logs&quot;,&quot;offset&quot;:1656526468,&quot;beat&quot;:{&quot;version&quot;:&quot;6.4.0&quot;,&quot;hostname&quot;:&quot;dev.windcoder.com&quot;,&quot;name&quot;:&quot;dev.windcoder.com&quot;},&quot;@timestamp&quot;:&quot;2018-09-29T01:45:53.093Z&quot;,&quot;input&quot;:{&quot;type&quot;:&quot;log&quot;},&quot;prospector&quot;:{&quot;type&quot;:&quot;log&quot;},&quot;read_timestamp&quot;:&quot;2018-09-29T01:45:53.093Z&quot;,&quot;nginx&quot;:{&quot;access&quot;:{&quot;client_ip&quot;:&quot;192.168.0.221&quot;,&quot;method&quot;:&quot;GET&quot;,&quot;body_sent&quot;:{&quot;bytes&quot;:&quot;0&quot;},&quot;referer&quot;:&quot;http://sd.windcoder.com/learner/course/detail/1423705&quot;,&quot;x_forwarded&quot;:&quot;121.69.9.234&quot;,&quot;msec&quot;:&quot;[1538185552.664]&quot;,&quot;user_name&quot;:&quot;-&quot;,&quot;cookie_sid&quot;:&quot;-&quot;,&quot;time_iso8601&quot;:&quot;2018-09-29T09:45:52+08:00&quot;,&quot;url&quot;:&quot;/api/learner/exam/myExam/examList&quot;,&quot;user_agent&quot;:&quot;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36&quot;,&quot;http_version&quot;:&quot;1.0&quot;,&quot;response_code&quot;:&quot;302&quot;}},&quot;host&quot;:{&quot;name&quot;:&quot;dev.windcoder.com&quot;}}

Hadoop与Java版本

Hadoop	Java
2.7及以后版本	Java 7 +
2.6及以前版本	Java 6 +

HadoopJavaVersions

预览

除特别注明外，本站所有文章均为 windcoder 原创，转载请注明出处来自： logstash6zhenghehadoop
License CC BY-SA 4.0 以商业目的使用本网站原创内容需获许可，非商业目的使用授权遵循CC BY-NC 4.0

Loading comments...

1 条评论

Logstash6整合Hadoop-报错与解决方案 - 程式筆記2020-01-21 08:00:00
[…] 上接Logstash6整合Hadoop […]
- 回复

预览