首页 storm

storm

  • 自2013到2019年大数据领域发生了什么变化

    自2013到2019年大数据领域发生了什么变化

    What changed in the Big data landscape from 2013 to 2019 自2013到2019年大数据领域发生了什么变化 作者:Abbass Marouni 翻译:helight 原文地址:https://blog.marouni.fr/bidata-trends-analysis/ 译者序 在网上看到这篇文章之后发现还挺有意思,文章也算比较简短,就试着联系了一下作者说:我想把他翻译成中文,不做商业用途只是练习和技术布道。作者的回应也非常快,当晚就给我回复,所以就...

    storm 2019-02-14 152 0 stormkafkafaas
  • Flink Distributed Runtime Environment

    Flink Distributed Runtime Environment

    Flink分布式运行时环境 Tasks and Operator Chains 任务和操作链 Job Managers, Task Managers, Clients 作业管理器,任务管理器,客户端 Task Slots and Resources 任务执行槽和资源 State Backends 转态后端 Savepoints 保存点 Tasks and Operator Chains 任务和操作链 Flink对分布式任务的执行操作,它是把操作子任务链起来放到任务中。每个任务由一个线程来执行。把操作链起来...

    storm 2018-08-13 89 0 kafka
  • Flink Dataflow Programming Model

    Flink Dataflow Programming Model

    Dataflow Programming Model 数据流编程模型 Levels of Abstraction :数据处理层抽象 Programs and Dataflows 编程和数据流 Parallel Dataflows 并行数据流 Windows 窗口 Time 时间 Stateful Operations 带状态的操作 Checkpoints for Fault Tolerance 容错检查点 Batch on Streaming 基于流的批处理 Levels of Abstraction...

    storm 2018-08-09 96 1 kafka
  • Spark分区器HashPartitioner详解和扩展

    Spark分区器HashPartitioner详解和扩展

    在Spark中,存在两类分区函数:HashPartitioner和RangePartitioner,它们都是继承自Partitioner,主要提供了每个RDD有几个分区(numPartitions)以及对于给定的值返回一个分区ID(0~numPartitions-1),也就是决定这个值是属于那个分区的。 1 HashPartitioner分区 HashPartitioner分区的原理很简单,对于给定的key,计算其hashCode,并除于分区的个数取余,如果余数小于0,则用余数+分区的个数,最后返回的值就是这个...

    storm 2015-11-30 70 0 storm
  • 【转载】从Hadoop到Spark的架构实践

    【转载】从Hadoop到Spark的架构实践

    当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆;同年,Spark Meetup在北京、上海、深圳和杭州四个城市举办,其中仅北京就成功举办了5次,内容更涵盖Spark Core、Spark Streaming、Spark MLlib、Spark SQL等众多领域。而作为较早关注和引入Spark的移动互联网大数据综合服务公司,TalkingData也积极地参与到国内Spark社区的各种活动,并多次在Meetup中分享公司的Spark使用经验。本文则...

    storm 2015-09-29 59 0 kernelstorm
  • spark1.3.1单机安装测试备忘

    spark1.3.1单机安装测试备忘

    1.下载,安装spark和scala: http://spark.apache.org/downloads.html 下载1.3.1的hadoop2.6版本. spark-1.3.1-bin-hadoop2.6.tgz 下载到本地之后直接解压即可: helight@helight-xu:/data/spark$ tar zxf spark-1.3.1-bin-hadoop2.6.tgz http://www.scala-lang.org/download/ 下载scala,2.11.6,也是直接...

    storm 2015-06-09 60 0 kernelstorm
  • Hadoop2.3.0源码编译过程记录

    Hadoop2.3.0源码编译过程记录

        要在hadoop上作一个mr程序,做一些统计工作。但是发现官网下载的2.3的库只有32位的,而我的机器系统都是64位的。用g++直接指定编译32位的程序又发现头文件依赖有问题,没法编译通过。所以就只能编译hadoop,编译后在服务上启动64位程序,再编译mr程序进行工作。下面是编译的过程和其中遇到的一些问题。 编译文件准备: protobuf-2.5.0.tar.gz findbugs-2.0.3-source.zip gcc, build-essential, libssl-dev...

    storm 2014-03-28 58 0
  • hadoop2.3单机搭建

    hadoop2.3单机搭建

       没事整理了之前搭建hadoop的过程,这里使用了最新的hadoop版本,想在单机上做一些测试,顺手也就整理了一下这个文档。 一、准备环境 1.Hadoop是用Java开发的,必须要安装JDK1.6或更高版本 apt-get install openjdk-6-jdk 2.Hadoop是通过SSH来启动slave主机中的守护进程,必须安装OpenSSH apt-get install openssh-server 3.Hadoop更新比较快,我们采用最新版hadoop2.3...

    storm 2014-03-23 53 0
1