发布网友 发布时间:2022-04-25 21:03
共1个回答
热心网友 时间:2022-06-17 10:38
Apache Tez专门针对这些运行在Hadoop当中的定制化数据处理应用进行了优化。它能够将数据处理流程整理成一套数据流程图模型,这样Apache Hadoop生态系统中的各类项目就能够借此满足人机交互时对响应时间以及PB级别极端数据吞吐能力的要求。数据流程图中的每个节点都代表着一部分业务逻辑,专门负责对应的数据传输或者分析工作。不同节点之间的连接则代表着数据在不同传输体系间的出入往返。
一旦应用程序逻辑通过这套流程图被确定下来,Tez就会对该逻辑进行并行化、进而在Hadoop对其加以执行。如果某款数据处理应用程序能够通过这种方式进行建模,则意味着用户可以利用Tez对其加以构建。提取、传输与载入(简称ETL)任务在Hadoop数据处理体系当中随处可见,而任何一款定制型ETL应用程序都非常适合通过Tez进行打理。其它适合Tez框架的项目还包括查询处理引擎——例如Apache Hive——以及脚本语言——例如Apache Pig,此外还有Cascadig for Java以及Scalding for Scala等语言集成及数据处理API。
在与其它Apache项目结合加以使用时,Tez框架允许大家执行更多更具成效的处理任务。Apache Hive与Tez相结合能够为Hadoop带来极为出色的高性能SQL执行效果,而Apache Pig与Tez联姻后则可以对Hadoop当中的大规模复杂ETL任务进行优化。Cascading与Scalding遇见Tez框架之后将大大提升Java与Scala代码的转译效率。