存储架构 2018-06-21

spark 读取hive 数据

1.启动spark-shell 需要加上mysql jar位置 spark-shell --master local[2] --jars /Users/walle/app/mysql-connector-java-8.0.11.jar2. 简单sql spar……
综合技术 2018-06-21

spark 读取hive 数据

1.启动spark-shell 需要加上mysql jar位置 spark-shell --master local[2] --jars /Users/walle/app/mysql-connector-java-8.0.11.jar2. 简单sql spar……
存储架构 2018-06-21

spark 读取parquet

列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项……
存储架构 2018-06-21

Tuning spark on yarn

In this blog we will learn how to tuning yarn with spark in both mode yarn-client and yarn-cluster,the only requirement to get started is that you must have……
存储架构 2018-06-21

理Apache Spark内存管理脉络

编辑推荐:本文来自于51cto,本文阐述的原理基于 Spark 2.1 版本,主要梳理出 Spark 内存管理的脉络。Spark 作为一个基于内存的分布式计算引擎,其内存管理模……
存储架构 2018-06-18

java-spark的各种常用算子的写法

通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在……
综合编程 2018-06-18

java-spark的各种常用算子的写法

通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在……
存储架构 2018-06-14

Hadoop(十)spark环境搭建

本篇使用 Spark 2.3.0 Apache Spark是一个快速且通用的集群计算系统。它提供Java,Scala,Python和R中的高级API以及支持通用执行图的优化引擎。它还支持一组丰富的更高……
存储架构 2018-06-14

大数据框架:Hadoop到Spark

编辑推荐:本文来自于tencent.com,介绍了Hadoop的基础信息,Spark 基于内存的计算框架等知识。Hadoop 1. Hadoop是什么 Hadoop软件库是一个利用简单的编程模……