Spark在美团的实践

本文已发表在《程序员》杂志2016年4月期。 前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学...

2022-12-10 197 阅读

spark on yarn申请内存大小的计算方法

最近在调试sparkStreaming程序的时候,遇到一个问题:我设置的sparkStreaming的相关参数如下:spark.executor.instances: 56spark.executor.memory :2Gspark.driver.memory:5G按照这部分...

2022-12-10 365 阅读

Spark配置参数详解

以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性...

2022-12-10 758 阅读

Win10怎么样锁定电脑屏幕 Win10如何自动锁定听语音

在Windows10系统点击桌面左下角的开始按钮,在弹出菜单中点击帐户头像。 2 然后在弹出的菜单中点击锁定菜单项。 END 方法/步骤2   1 我们也可以右键点击开始按钮...

2022-12-10 312 阅读

yarn资源memory与core计算配置

  yarn调度分配主要是针对Memory与CPU进行管理分配,并将其组合抽象成container来管理计算使用     memory配置   计算每台机子最多可以拥有多少个container:      ...

2022-12-10 367 阅读

【总结】Spark任务的core,executor,memory资源配置方法

执行Spark任务,资源分配是很重要的一方面。如果配置不准确,Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。 怎么去配置Spark任务的executors,cores,memory,有如下几个因...

2022-12-10 642 阅读

Hive on Spark调优

之前在Hive on Spark跑TPCx-BB测试时,100g的数据量要跑十几个小时,一看CPU和内存的监控,发现 POWER_TEST阶段(依次执行30个查询)CPU只用了百分之十几,也就是没有把整个集群的性能...

2022-12-10 203 阅读

【Oozie学习之一】Oozie

环境  虚拟机:VMware 10  Linux版本:CentOS-6.5-x86_64  客户端:Xshell4  FTP:Xftp4  jdk8  CM5.4   同类产品:Azkaban   一、简介Oozie由Cloudera公司贡献给Apac...

2022-12-10 252 阅读

mysql Spark SQL实战:使用Spark SQL 连接hive ,将统计结果存储到 mysql中

1.需求:使用Spark SQL 连接hive ,读取数据,将统计结果存储到 mysql中 2.将写好的代码打包上传的集群,然后提交spark运行,前提是hive,HDFS已经启动3.代码:(1)pom.xml<dependency>...

2022-12-10 432 阅读

spark sql/hive小文件问题

针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Pr...

2022-12-10 278 阅读