• 最新文章
  • 基础必修
  • 编程语言

从0开始学大数据(31)为什么大数据平台至关重要?

我前面说过,软件大体可以分为两种,一种是为最终用户开发的,实现用户需要的业务功能;另一种是为软件工程师开发的,供软件工程师使用。我在专栏前三个模块讲到的各种大数据产品,都属于后一种,最终用户不可能自己提交一个 Hadoop 程序去执行大数据计算,这是软件工程师的工作,因此大数据产品也是为软件工程师开发的。而如何让软件工程师能够便捷地提交各类大数据计算程序给大数据计算引擎去执行,如何将用户实时数据转
从0开始学大数据(31)为什么大数据平台至关重要?

从0开始学大数据(30)当大数据遇上物联网

某位互联网大佬说过,未来 20 年最有发展潜力的三项技术分别是:区块链、人工智能、物联网。关于区块链,现在可能是最有争议也是最迷茫的时候;关于人工智能的价值,我们已经达成共识并稳步发展;而真正完成早期探索、处于突破临界点的可能就是物联网了。 物联网确实也能给我们足够的想象空间:万物互联,所有的一切设备都是智能的,它们通过互相通信,彼此联系;而人们也可以通过云端的应用掌控一切,就像科幻电影描述的那样
从0开始学大数据(30)当大数据遇上物联网

从0开始学大数据(29)盘点可供中小企业参考的商业大数据平台

专栏前面我讲了,稍具规模的互联网企业都会搭建自己的大数据平台。但是有同学会问,对于更多的中小企业和初创公司而言,自己搭建大数据平台的成本是不是有点高。确实,拿一个开源的软件搭建自己的大数据平台,对于中小企业来说,无论是人才储备还是服务器成本,似乎都有点难以承受。所幸,还有商业大数据平台可供选择。 今天我就来和你盘点一下可供中小企业参考的商业大数据平台。 大数据解决方案提供商 Hadoop 作为一个
从0开始学大数据(29)盘点可供中小企业参考的商业大数据平台

从0开始学大数据(28)知名大厂如何搭建大数据平台?

第 26 期,我介绍了一个常规的大数据平台架构方案,这种架构方案是基于大数据平台 Lamda 架构进行设计的。事实上,业界也基本是按照这种架构模型搭建自己的大数据平台。 今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻
从0开始学大数据(28)知名大厂如何搭建大数据平台?

从0开始学大数据(27)大数据从哪里来?

大数据就是存储、计算、应用大数据的技术,如果没有数据,所谓大数据就是无源之水、无本之木,所有技术和应用也都无从谈起。可以说,数据在大数据的整个生态体系里面拥有核心的、最无可代替的地位。很多从事机器学习和人工智能的高校学者选择加入互联网企业,并不是贪图企业给的高薪,而是因为只有互联网企业才有他们做研究需要用到的大量数据。 技术是通用的,算法是公开的,只有数据需要自己去采集。因此数据采集是大数据平台的
从0开始学大数据(27)大数据从哪里来?

从0开始学大数据(26)互联网产品+大数据产品=大数据平台

从今天开始,我们进入专栏的“大数据平台与系统集成”模块。 前面我讲了各种大数据技术的原理与架构,大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算,以处理大规模的数据,即所谓的移动计算比移动数据更划算。但是在分布式系统中分发执行代码并启动执行,这样的计算方式必然不会很快,即使在一个规模不太大的数据集上进行一次简单计算,MapReduce 也可能需要几分钟,Spark 快一点,也至
从0开始学大数据(26)互联网产品+大数据产品=大数据平台

从0开始学大数据(25)我能从大厂的大数据开发实践中学到什么?

软件编程大体上可以分成两种,一种是编写的程序直接供最终用户使用,针对用户需求进行开发,可以说绝大多数工程师开发的绝大多数程序都属于这一种;还有一种是编写的程序供其他工程师使用,大到全球通用的各种编程语言、编程框架、虚拟机、大数据系统,小到公司内部,甚至团队内部自己开发的各种工具、框架,以及应用系统内的非业务模块,都是属于这一种。 一般说来,后一种编程因为输出的程序要给其他工程师使用,接受专业同行的
从0开始学大数据(25)我能从大厂的大数据开发实践中学到什么?

从0开始学大数据(24)从大数据性能测试工具Dew看如何快速开发大数据系统

我们在Spark 性能优化案例分析这一期中,通过对大量的 Spark 服务器的性能数据进行可视化分析,发现了 Spark 在程序代码和运行环境中的各种性能问题,并做了相应优化,使 Spark 运行效率得到了极大提升。 很多同学也在问,这些可视化的性能数据从何而来呢?如何在图中将性能指标和任务进度结合起来,可以一目了然看清应用在不同运行阶段的资源使用状况呢?事实上,当时为了进行Spark 性能优化,
从0开始学大数据(24)从大数据性能测试工具Dew看如何快速开发大数据系统