千寻百觅－编码未来 | 深挖数据

Apache Flink：Stream and Batch Processing in a Single Engine

论文主要内容：这篇论文主要介绍了Apache Flink，一个开源系统，用于处理流数据和批量数据。主要内容包括： Flink的软件架构由四层组成：部署层、核心层、API层和库层。核心层是一个分布式数据流引擎，执行数据流程序。API层包括批处理API DataSet和流处理API DataStream。库层包括机器学习库FlinkML、图处理库Gelly等。 Flink将流处理作为统一的数据处理模

Flink
百觅
2小时前
10 热度
0评论

Apache Flink：Stream and Batch Processing in a Single Engine

从0开始学大数据（32）互联网运营数据指标与可视化监控

数据分析是大数据应用的一个主要场景，通过数据分析指标监控企业运营状态，及时调整运营和产品策略，是大数据技术的关键价值之一。互联网企业大数据平台上运行的绝大多数大数据计算都是关于数据分析的，各种统计、关联分析、汇总报告，都需要大数据平台来完成。下面给你讲一个我曾经遇到过的真实案例。老板跟技术部说，我们要加强监控。技术部以为老板对程序运行监控不满意，这也是情理之中，当对技术人员说监控的时候，他们通常

大数据栈
百觅
23小时前
12 热度
0评论

我前面说过，软件大体可以分为两种，一种是为最终用户开发的，实现用户需要的业务功能；另一种是为软件工程师开发的，供软件工程师使用。我在专栏前三个模块讲到的各种大数据产品，都属于后一种，最终用户不可能自己提交一个 Hadoop 程序去执行大数据计算，这是软件工程师的工作，因此大数据产品也是为软件工程师开发的。而如何让软件工程师能够便捷地提交各类大数据计算程序给大数据计算引擎去执行，如何将用户实时数据转

大数据栈
百觅
8天前
156 热度
0评论

从0开始学大数据（30）当大数据遇上物联网

某位互联网大佬说过，未来 20 年最有发展潜力的三项技术分别是：区块链、人工智能、物联网。关于区块链，现在可能是最有争议也是最迷茫的时候；关于人工智能的价值，我们已经达成共识并稳步发展；而真正完成早期探索、处于突破临界点的可能就是物联网了。物联网确实也能给我们足够的想象空间：万物互联，所有的一切设备都是智能的，它们通过互相通信，彼此联系；而人们也可以通过云端的应用掌控一切，就像科幻电影描述的那样

大数据栈
百觅
8天前
48 热度
0评论

从0开始学大数据（29）盘点可供中小企业参考的商业大数据平台

专栏前面我讲了，稍具规模的互联网企业都会搭建自己的大数据平台。但是有同学会问，对于更多的中小企业和初创公司而言，自己搭建大数据平台的成本是不是有点高。确实，拿一个开源的软件搭建自己的大数据平台，对于中小企业来说，无论是人才储备还是服务器成本，似乎都有点难以承受。所幸，还有商业大数据平台可供选择。今天我就来和你盘点一下可供中小企业参考的商业大数据平台。大数据解决方案提供商 Hadoop 作为一个

大数据栈
百觅
9天前
52 热度
0评论

从0开始学大数据（28）知名大厂如何搭建大数据平台？

第 26 期，我介绍了一个常规的大数据平台架构方案，这种架构方案是基于大数据平台 Lamda 架构进行设计的。事实上，业界也基本是按照这种架构模型搭建自己的大数据平台。今天我们来看一下淘宝、美团和滴滴的大数据平台，一方面进一步学习大厂大数据平台的架构，另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图，你就会发现，不但这些知名大厂的大数据平台设计方案大同小异，架构图的画法也有套路可以寻

大数据栈
百觅
9天前
53 热度
0评论

从0开始学大数据（27）大数据从哪里来？

大数据就是存储、计算、应用大数据的技术，如果没有数据，所谓大数据就是无源之水、无本之木，所有技术和应用也都无从谈起。可以说，数据在大数据的整个生态体系里面拥有核心的、最无可代替的地位。很多从事机器学习和人工智能的高校学者选择加入互联网企业，并不是贪图企业给的高薪，而是因为只有互联网企业才有他们做研究需要用到的大量数据。技术是通用的，算法是公开的，只有数据需要自己去采集。因此数据采集是大数据平台的

大数据栈
百觅
9天前
51 热度
0评论

从0开始学大数据（26）互联网产品+大数据产品=大数据平台

从今天开始，我们进入专栏的“大数据平台与系统集成”模块。前面我讲了各种大数据技术的原理与架构，大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算，以处理大规模的数据，即所谓的移动计算比移动数据更划算。但是在分布式系统中分发执行代码并启动执行，这样的计算方式必然不会很快，即使在一个规模不太大的数据集上进行一次简单计算，MapReduce 也可能需要几分钟，Spark 快一点，也至

大数据栈
百觅
10天前
270 热度
0评论