1.Why Apache Spark?

By admin in 天文学 on 2018年10月23日

Why Apache Spark?


1 Why Apache
Spark
2 关于Apache
Spark
3 何以设置Apache
Spark
4 Apache
Spark的做事原理
5
spark弹性分布式数据集
6
RDD持久性
7
spark共享变量
8 Spark
SQL
9 Spark
Streaming

初稿链接:http://blogxinxiucan.sh1.newtouch.com/2017/07/23/Why-Apache-Spark/

咱俩生活于“大数额”的时日,其中坐各种类型的数量为空前的快慢杀成数据,而这种速度似乎只是当天文学上加速。该数量可以大面积地分类也贸易数额,社交媒体内容(例如文本,图像,音频和视频)以及来仪器化设备的传感器馈送。

可人们唯恐会见咨询为何要讲究就或多或少。原因是:“数据是生价之,因为其好做出决定”。

直至几年前,只有个别有技艺与本金的铺投资存储和打大量数额才会取难得的见。不过,雅虎在2009年开放Apache
Hadoop的时节,一切都来了转变。这是一个破坏性的变更,大大降低了挺数据处理的品位。因此,许多行,如医疗保健,基础设备,金融,保险,远程信息处理,消费者,零售,营销,电子商务,媒体,制造与玩等于行业已经大大受益于Hadoop上的实际运用。

Apache Hadoop提供零星独重点职能:

  • HDFS凡应用程度而扩大的货色硬件廉价地蕴藏大量数额的容错方式。
  • Map-Reduce,为挖掘数据提供编程结构并获得洞察力。

脚的图1说明了什么样通过一样多元Map-Reduce步骤处理数据,其中Map-Reduce步骤的出口在独立的Hadoop作业被输入到下一个。

天文学 1

中等结果存储在磁盘上,这象征大多数Map-Reduce作业都是I /
O绑定的,而未是测算上之自律。对于诸如ETL,数据做与清理等用例,处理时连无是非常酷的题材,但是处理时很重点的别样种类的那个数目用例也非是问题。这些用例如下:

  1. 流动多少处理进行近实时分析。例如,点击流数据解析来制造视频推荐,这提高了用户参与度。我们必须以准确性和拍卖时中进行衡量。
  2. 重型数据集的交互式查询,因此数据科学家可以针对数码集进行由组织查询。

下图2形了Hadoop如何发展变成几种技术的生态系统,为这些用例提供了好特别的家伙。

天文学 2

尽管如此咱喜欢Hadoop生态系统中之家伙里的增长选择,但是使用生态系统繁琐的挑战有几只:

  1. 消同种植不同之技艺方案来化解各国种档次的用例,因为一些缓解方案在不同的用例中不可重用。
  2. 生产力需要熟练掌握多起技术
  3. 一些技术面临版本兼容性问题
  4. 她不抱并行作业被重复快的数据共享需求。

这些是Apache Spark釜底抽薪之挑战!Spark是突如其来快速内存集群计算平台,具有合并之解决方案,解决了批判处理,流式传输和交互式用例,如图3所展示。

天文学 3

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图
Copyright @ 2010-2019 亚洲必赢手机官网 版权所有