Java mapreduce解析parquet日志

微信扫一扫,分享到朋友圈

Java mapreduce解析parquet日志

1.单输入格式

指定输入格式ParquetInputFormat

//指定输入格式
job.setInputFormatClass(ParquetInputFormat.class);
ParquetInputFormat.addInputPath(job, new Path(args[1]));
ParquetInputFormat.setReadSupportClass(job, CheckLevelRunner.MyReadSupport.class);
//这个提供的是定义读文件的方式
public static final class MyReadSupport extends DelegatingReadSupport<Group> {
public MyReadSupport() {
super(new GroupReadSupport());
}
@Override
public org.apache.parquet.hadoop.api.ReadSupport.ReadContext init(InitContext context) {
return super.init(context);
}
}

解析Parquet遇到空文件的情况:

此时可以设置mapreduce容错参数:

Mapreduce.map.failures.maxpercent:这个参数表示当Map Task失败比例超过该值,则整个作业失败,默认值为0。在这里设置成5,在这里map的数量与输入文件数量一致,因此如果空文件的数量小于5%,则任务会成功,大于5%,任务失败。

job.getConfiguration().set("mapreduce.map.failures.maxpercent", "5");

2.多输入格式

其中一个目录的文件格式是Text,另一个是Parquet。使用MultipleInputs根据输入源设置多个map来处理数据。

//设置多输入、多mapper
MultipleInputs.addInputPath(job, new Path(path1), TextInputFormat.class, NormalMap.class);
MultipleInputs.addInputPath(job, new Path(path2), ParquetInputFormat.class, ParquetMap.class);
ParquetInputFormat.setReadSupportClass(job, CheckLevelRunner.MyReadSupport.class);

3.mapreduce中调用http接口遇到的问题

将程序部署服务器上,发现会报这个错:

Exception in thread “main” java.lang.NoSuchFieldError: INSTANCE,

调查发现,是因为httpclient有两个版本,自己引入了4的版本,而org.apache.hadoop这个包中包含了httpclient3.1的版本,两个版本冲突,最后去掉了自己引入的版本,使用了hadoop包中3.1的httpclient。

三星回应120Hz屏幕耗电:要看谁做的

上一篇

SpringBoot第四集:整合JdbcTemplate和JPA(2020最新最易懂)

下一篇

你也可能喜欢

Java mapreduce解析parquet日志

长按储存图像,分享给朋友