data-integration_7.1使用手册》是一份关于Pentaho Data Integration (PDI) 的详细使用指南,该软件又名Kettle。PDI是ETL(Extract, Transform, Load)工具集,旨在帮助用户高效地整合各种数据资源,从多个数据源中提取数据,进行转换处理,并加载到单一的数据仓库中。 在使用手册中,首先介绍了“Steps”和“Hops”这两个概念。Steps是执行具体任务的最小单元,如数据的读取、处理和存储;Hops指的是在Steps之间传递数据的动作,定义了数据流动的方向。接下来,“Jobs”概念也被提及,它是一个Step和Hops的集合,用于定义执行任务的流程和逻辑,可以被看作是数据处理的作业或批次。 手册中还提到了“Transformation”和“Variable”两个核心部分。Transformation是一个步骤或一系列步骤的集合,用于转换数据。它涉及到数据的输入、转换和输出。Variable是数据集成过程中使用的变量,用于在Transformation中存储和传递数据。 Kettle包含了几个核心组件,如Spoon、Kitchen、Carte和Pan。Spoon是一个图形界面工具,用于设计和执行Transformation和Jobs。Kitchen是一个命令行工具,执行特定的批处理任务。Carte是一个轻量级的、基于Web的作业调度器,允许用户通过网络远程执行Transformation和Jobs。Pan也是一个命令行工具,用于运行Carte服务器。 在Carte部分,手册描述了Carte的配置和管理,包括slaveserver(子服务器)、masters(主服务器)以及与主服务器通信的相关配置如report_to_masters、max_log_lines、max_log_timeout_minutes和object_timeout_minutes。同时提到了repository(仓库)的概念,这是一个存储Transformation、Job和数据库元数据的地方。 手册还详细介绍了多种PDI中的Input步骤,这些步骤用于从不同来源获取数据。例如,CsvFileInput步骤用于读取CSV文件;DataGrid步骤用于从内存中的表格数据获取数据;De-serializeFromFile步骤用于从序列化文件中反序列化对象;ESRIShapefileReader步骤用于读取ESRI shapefile文件;EmailMessagesInput步骤用于处理电子邮件消息中的数据;FixedFileInput步骤用于读取固定格式的文件;GZIPCSVInput步骤用于读取经过GZIP压缩的CSV文件;GenerateRows步骤用于生成特定数量的空行;GenerateRandomCreditCardNumbers步骤用于生成随机信用卡号;GenerateRandomValue步骤用于生成随机值;GetFileNames步骤用于获取文件名列表;GetFilesRowsCount步骤用于获取文件行数;GetSubFolderNames步骤用于获取子文件夹的名称;GetSystemInfo步骤用于获取系统信息;GetDataFromXML步骤用于从XML文件中获取数据;GetRepositoryNames步骤用于获取仓库名称;GetTableNames步骤用于获取数据库表名;GoogleAnalytics步骤用于从Google Analytics获取数据;HL7Input步骤用于读取HL7消息;JSONInput步骤用于读取JSON数据;LDAPInput步骤用于读取LDAP信息;LDIFInput步骤用于读取LDIF格式的数据;LoadFileContentInMemory步骤用于将文件内容加载到内存;MicrosoftAccessInput步骤用于读取Microsoft Access数据库;MicrosoftExcelInput步骤用于读取Microsoft Excel文件;MondrianInput步骤用于读取Mondrian立方体数据;OLAPInput步骤用于读取OLAP数据;PropertyInput步骤用于获取属性值;RSSInput步骤用于读取RSS源;S3CSVInput步骤用于从Amazon S3读取CSV数据;SAPInput步骤用于与SAP系统交互;SASInput步骤用于读取SAS文件;SalesForceInput步骤用于从SalesForce读取数据;TableInput步骤用于从数据库表中读取数据;TextFileInput步骤用于从文本文件读取数据。 以上就是《data-integration_7.1使用手册》中涉及的核心知识点。这些内容对于使用PDI进行ETL数据集成工作的用户来说十分关键,它们详细说明了如何使用PDI的各个组件和步骤来设计和执行ETL流程,以满足各种数据处理的需求。
2025-03-16 15:02:32 9.08MB etl
1
Kettle(Pentaho Data Integration)教程 pdf
2025-03-16 14:54:47 377KB Kettle
1
InCroMAP 跨平台微阵列和通路数据的集成分析 作者: , ,,Finja Wrzodek,拉尔斯·罗森鲍姆,和 简短的介绍 您是否曾经尝试整合来自不同生物层的组学数据? InCroMAP是功能强大,易于使用的高级跨平台微阵列数据集分析工具。 它提供了几种分析或可视化单个数据集的方法,以及执行集成的跨平台分析的方法。 目前,支持mRNA,miRNA(microRNA),DNA甲基化和蛋白质(修饰)数据。 InCroMAP可以例如一次显示一条路径中的所有平台,提供详细的信息,例如有关启动子甲基化的信息,或执行整合的mRNA和microRNA分析。 通常,InCroMAP是用于对跨平台异构数据集进行常规或基于路径的分析和可视化的工具。 刊物 文章引用是对我们来说至关重要,以便能够继续InCroMAP支持。 如果您使用InCroMAP并发表有关使用InCroMAP的工作的论文,我们请您引
2024-02-28 17:02:16 452.04MB visualization microarray data-integration Java
1
概述 数据集成变得简单,安全和可扩展。 新的开源标准可将数据从应用程序,API和数据库同步到仓库,湖泊和其他目的地。 Airbyte的使命是使数据集成管道成为一种商品。 您可以在几分钟内使用免维护的连接器。 只需对源和仓库进行身份验证,并获得适合您的架构和API更改的连接器。 构建新的连接器变得微不足道。 通过提供计划和编排,我们可以使用您选择的语言轻松添加所需的新连接器。 设计用于覆盖连接器的长尾巴和需求。 从社区经过测试的连接器中受益,并使它们适应您的特定需求。 您的数据保留在云中。 完全控制您的数据以及数据传输成本。 由于Airbyte是自托管的,因此不再需要执行任何安全合规性过程。 正如基于云的解决方案所提供的那样,不再需要按批量计价。 这是我们的的列表。 快速开始 git clone https://github.com/airbytehq/airbyte.gi
2023-02-28 14:27:40 13.85MB open-source data-science data integration
1
使用免费的开源ETL工具扩展您的开源堆栈,以便在任何地方进行数据集成和数据转换。 使用Open Studio for Data Integration与最新的云应用程序和平台或传统数据库和应用程序一起使用,以通过图形工具,本机代码生成以及数百个预建组件和连接器快速设计和部署。 Open Studio for Data Integration是完全开源的,因此您可以查看代码并使用它。 嵌入现有的Java代码库,创建您自己的组件或利用社区组件和代码来扩展您的项目。 Talend数百万的下载量和各种功能强大的开源集成软件工具,使Talend成为云计算和大数据集成方面的开源领导者。
2022-05-14 22:14:21 904.17MB 开源软件
1
ETL工具Kettle用户手册 pentaho-data-integration使用手册 包含例子 数据整合工具kettle帮助文档
2022-02-20 11:18:28 3.61MB ETL 工具 Kettle 用户手册
1
参照了几个网上大神配置,部分教程的描述有误,最终调试完成,可以实现kettle日志输出,测试版本kettle data-integration-6.0,jdk1.7,日志位置在你的data-integration-6.0安装目录下,logs。 需要替换的文件为,Kettle的程序目录下data-integration-6.0\plugins\kettle5-log4j-plugin中有一个log4j.xml文件。
2022-01-20 10:04:06 973B kettle 日志 data-integration
1
kettle9.1, 使用 Pentaho Kettle 9.1 源码编译的kettle,可直接运行,kettle9.1编译后2020年6月份最新版本分3卷,实际上自己下载打包也很简单就是费时间,太大了,【图省事的就下载我这个编译后的】,很多人用maven下载出错,主要是必须把maven的资源库settings.xml中新增kettle官网所提供的settings.xml pentaho true pentaho-public Pentaho Public http://nexus.pentaho.org/content/groups/omni true always true always pentaho-public Pentaho Public http://nexus.pentaho.org/content/groups/omni true always true always org.pentaho.maven.plugins com.pentaho.maven.plugins com.github.spotbugs 推荐两篇文章:https://blog.csdn.net/gongchengshiv/article/details/105211351 https://blog.csdn.net/ajiu_9999/article/details/83306305 我就是看了上边两篇文章编译成功的,感谢两位博主!!!
2022-01-05 18:46:44 549.54MB etl
1
kettle9.1, 使用 Pentaho Kettle 9.1 源码编译的kettle,可直接运行,kettle9.1编译后2020年6月份最新版本分3卷,实际上自己下载打包也很简单就是费时间,太大了,【图省事的就下载我这个编译后的】,很多人用maven下载出错,主要是必须把maven的资源库settings.xml中新增kettle官网所提供的settings.xml pentaho true pentaho-public Pentaho Public http://nexus.pentaho.org/content/groups/omni true always true always pentaho-public Pentaho Public http://nexus.pentaho.org/content/groups/omni true always true always org.pentaho.maven.plugins com.pentaho.maven.plugins com.github.spotbugs 推荐两篇文章:https://blog.csdn.net/gongchengshiv/article/details/105211351 https://blog.csdn.net/ajiu_9999/article/details/83306305 我就是看了上边两篇文章编译成功的,感谢两位博主!!!
2022-01-05 18:46:04 900MB etl ketlle
1
kettle9.1, 使用 Pentaho Kettle 9.1 源码编译的kettle,可直接运行,kettle9.1编译后2020年6月份最新版本分3卷,实际上自己下载打包也很简单就是费时间,太大了,【图省事的就下载我这个编译后的】,很多人用maven下载出错,主要是必须把maven的资源库settings.xml中新增kettle官网所提供的settings.xml pentaho true pentaho-public Pentaho Public http://nexus.pentaho.org/content/groups/omni true always true always pentaho-public Pentaho Public http://nexus.pentaho.org/content/groups/omni true always true always org.pentaho.maven.plugins com.pentaho.maven.plugins com.github.spotbugs 推荐两篇文章:https://blog.csdn.net/gongchengshiv/article/details/105211351 https://blog.csdn.net/ajiu_9999/article/details/83306305 我就是看了上边两篇文章编译成功的,感谢两位博主!!!
2022-01-05 18:30:50 900MB etl kettle
1