详解如何使用Spark和Scala分析Apache访问日志

2023-08-22 10:04:04 383

安装

首先需要安装好Java和Scala，然后下载Spark安装，确保PATH和JAVA_HOME已经设置，然后需要使用Scala的SBT构建Spark如下：

$sbt/sbtassembly

构建时间比较长。构建完成后，通过运行下面命令确证安装成功：

$./bin/spark-shell

scala>valtextFile=sc.textFile("README.md")//创建一个指向README.md引用
scala>textFile.count//对这个文件内容行数进行计数
scala>textFile.first//打印出第一行

Apache访问日志分析器

首先我们需要使用Scala编写一个对Apache访问日志的分析器，所幸已经有人编写完成，下载Apachelogfileparsercode。使用SBT进行编译打包：

sbtcompile
sbttest
sbtpackage

打包名称假设为AlsApacheLogParser.jar。
然后在Linux命令行启动Spark：

//thisworks
$MASTER=local[4]SPARK_CLASSPATH=AlsApacheLogParser.jar./bin/spark-shell

对于Spark0.9，有些方式并不起效：

//doesnotwork
$MASTER=local[4]ADD_JARS=AlsApacheLogParser.jar./bin/spark-shell
//doesnotwork
spark>:cpAlsApacheLogParser.jar

上传成功后，在SparkREPL创建AccessLogParser实例：

importcom.alvinalexander.accesslogparser._
valp=newAccessLogParser

现在就可以像之前读取readme.cmd一样读取apache访问日志accesslog.small：

scala>vallog=sc.textFile("accesslog.small")
14/03/0911:25:23INFOMemoryStore:ensureFreeSpace(32856)calledwithcurMem=0,maxMem=309225062
14/03/0911:25:23INFOMemoryStore:Blockbroadcast_0storedasvaluestomemory(estimatedsize32.1KB,free294.9MB)
log:org.apache.spark.rdd.RDD[String]=MappedRDD[1]attextFileat:15
scala>log.count
(alotofoutputhere)
res0:Long=100000

分析Apache日志

我们可以分析Apache日志中404有多少个，创建方法如下：

defgetStatusCode(line:Option[AccessLogRecord])={
linematch{
caseSome(l)=>l.httpStatusCode
caseNone=>"0"
}
}

其中Option[AccessLogRecord]是分析器的返回值。

然后在Spark命令行使用如下：

log.filter(line=>getStatusCode(p.parseRecord(line))=="404").count

这个统计将返回httpStatusCode是404的行数。

深入挖掘

下面如果我们想知道哪些URL是有问题的，比如URL中有一个空格等导致404错误，显然需要下面步骤：

过滤出所有404记录
从每个404记录得到request字段(分析器请求的URL字符串是否有空格等)
不要返回重复的记录

创建下面方法：

//getthe`request`fieldfromanaccesslogrecord
defgetRequest(rawAccessLogString:String):Option[String]={
valaccessLogRecordOption=p.parseRecord(rawAccessLogString)
accessLogRecordOptionmatch{
caseSome(rec)=>Some(rec.request)
caseNone=>None
}
}

将这些代码贴入SparkREPL，再运行如下代码：

log.filter(line=>getStatusCode(p.parseRecord(line))=="404").map(getRequest(_)).count
valrecs=log.filter(line=>getStatusCode(p.parseRecord(line))=="404").map(getRequest(_))
valdistinctRecs=log.filter(line=>getStatusCode(p.parseRecord(line))=="404").map(getRequest(_)).distinct
distinctRecs.foreach(println)

总结

对于访问日志简单分析当然是要grep比较好，但是更复杂的查询就需要Spark了。很难判断Spark在单个系统上的性能。这是因为Spark是针对分布式系统大文件。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

详解如何使用Spark和Scala分析Apache访问日志

热门推荐

随机推荐