Pentaho数据集成工具是一个业务分析工具,用于数据分析中的数据集成。 商业智能 (BI) 主要运行在数据集成、数据分析和数据可视化上,其中数据是从输入源提供的,并被分成许多部分以进行各种操作,例如加入、合并和操作。 数据集成是收集、连接和处理数据的过程。
数据可以用于不同的类型。 原始数据、实时数据、来自数据库的数据和任何数据源均可用于数据合成。 该数据库在结构化查询语言 (SQL) 上运行,其中 Pentaho 数据集成还需要对 SQL 有充分的了解。
Pentaho 数据集成工具 (PDI)
开源数据集成工具可用于商业智能 (BI) 和数据可视化流程。 有几种开源数据集成工具,例如 Clover ETL、Pentaho、Karma、Pimcore、Skool、Myddleware、Talend Open Studio。 其中,PDI是使用最多、用户友好的数据集成工具。 它具有智能且平衡的图形用户界面 (GUI)。 PDI主要用于数据处理,也可以与Hadoop文件系统(HDFS)一起使用。
对于在线分析处理 (OLAP) 和数据可视化,仔细处理数据并在必要时进行操作非常重要。 对于这类工作,Pentaho 数据集成是一个方便的工具,几乎可以在每个操作系统中运行。
今天,我们将了解如何在 Ubuntu 上正确安装 Pentaho 数据集成工具。 我们使用 Ubuntu 作为通用平台,但其他 Linux 发行版如 Kali、Mint、Red Hat、Lubuntu 等也与 Pentaho 兼容。
Pentaho 数据集成工具的安装
Pentaho 数据集成工具需要 1.8 版本的 Java。 如果您的系统中正在运行任何其他版本的 Java,您必须卸载它们并重新安装 java 8。您需要确保默认安装了 java 8。
第 1 步:检查 Java 版本
要检查您机器的当前 Java 版本,请转到终端并键入下面给出的终端命令。 如果您已经安装了任何 java,这将显示您当前的 java 版本。
– –
java -version
如果您的机器没有安装任何 java,它将向您展示如何从终端安装 Java 的基本命令行。
第 2 步:安装和配置 Java 8
如果您拥有所需的 Java 版本,即 1.8,那么您就可以开始使用了! 但如果您没有所需的 Java 版本,请在终端中按照命令行安装 java 1.8。 如果您的系统中安装了更高版本的 Java,则首先必须将其删除。 为此,请在终端中键入以下命令行。
sudo apt remove openjdk-11-jre-headless openjdk-11-jre openjdk-11-jdk-headless openjdk-11-jdk
要在此处安装 java 1.8,请使用终端命令行:
sudo apt install openjdk-8-jdk
安装 Java 1.8 后,将其设为您的默认 Java 版本。 为此,请按照终端中的命令行操作。
sudo update-alternatives --config java
sudo apt install default-jre
第 3 步:下载 Pentaho 数据集成工具
安装和配置 Java 之后,现在您可以下载 Pentaho 数据集成 (PDI) 工具了。 下载链接如下。 它几乎是一个 1.5Gb 的压缩文件。
下载完成后,解压缩压缩文件。 然后,您将找到如下图所示的 PDI 文件夹。
在这里,在 PDI 文件夹中,您必须找到 勺子 工具,将运行该工具以打开 PDI。 现在,是时候讨论勺子工具了。 在 Java 的帮助下,spoon 在你的机器中运行 Pentaho 数据集成工具。
要运行勺子工具,请进入 Pentaho 数据集成文件夹,右键单击文件夹内的任意位置并选择“使用终端打开”。 打开终端后,它将如下所示:
然后输入 sh 勺子.sh 并击中 Enter 按钮。 给你! Pentaho 数据集成工具即将开放!
它将在您的系统中运行 Java,同时您的屏幕上将显示一个弹出窗口,指示 PDI 正在打开。 您的显示器应如下图所示。
第 4 步:为首次使用设置 Pentaho 数据集成工具
到这里,您几乎已经在您的机器上安装了 Pentaho 数据集成。 现在您可以使用了! Pentaho 数据集成允许您连接数据库、上传 CSV 文件、运行 SQL 操作等等。 今天我们将展示如何从 Pentaho 数据集成发送电子邮件。
大多数情况下,Pentaho 数据集成允许发送电子邮件以报告当前工作进度。 PDI 还允许通过电子邮件将文件附加到 Pentaho 数据集成的客户端。 要从 Pentaho 数据集成工具发送电子邮件,您需要获得正在使用的电子邮件服务的访问权限。
为了 example,如果您使用的是 Gmail,则需要获得 Gmail 的许可。 首先,您必须登录Gmail,然后在安全设置下; 在那里,您需要增加“不太安全的应用程序访问”的访问权限。
现在让我们回到 Pentaho 数据集成工具! 在 Pentaho 数据集成窗口中,您会发现两个主要选项,它们是:
- 转型
- 工作
单击工作后,在工作下,您将找到“邮件”选项。 现在您必须将邮件功能拖放到左侧窗口中,如下图所示。
之后,在顶部的 Pentaho 数据集成中,您将找到一个搜索栏,键入“开始”,您将找到一个名为“开始”的对象。 您也必须将其拖放到左侧的空白窗口中。 在同一过程中,您必须将“成功”按钮拖放到同一窗口中。 窗口内这 3 个按钮的对齐方式将是,
开始 > 邮件 > 成功
现在是时候在 Pentaho 数据集成工具中连接 3 个按钮了。 为此,您需要按住键盘上的“Shift”按钮并单击要与下一个对象连接的第一个对象,按住 shift 并拖动鼠标光标将使按钮相互连接。 在此之后,您必须设置“开始”功能设置。 对于双击“开始”功能,它将打开一个对话框,您将在其中找到设置选项。
下面通过示例给出 Pentaho 数据集成中电子邮件发送的主要设置指南。
在“地址”列下,设置将是:
目标地址:此地址将是您要从 Pentaho 数据集成发送电子邮件的电子邮件地址。 如果您有多个电子邮件收件人,只需在两封电子邮件之间使用逗号 (,)。 如果需要,您也可以使用 Cc 和 Bcc。
发件人姓名:这是您的电子邮件地址,具有“不太安全的应用程序访问”权限
在“服务器”列下,设置将是:
SMTP 服务器:smtp.gmail.com(用于 Gmail 服务)
端口:465
选中身份验证,然后身份验证设置将是:
身份验证用户:您的电子邮件地址具有“不太安全的应用程序访问”权限。 将电子邮件放入 Pentaho 数据集成中。
身份验证密码:您的身份验证电子邮件的密码。 然后选中“使用安全身份验证”。
安全认证类型:SSL
在“电子邮件”列下,设置将是:
在消息中包含日期? : 复选标记
在邮件正文中使用 HTML 格式:复选标记
编码:UTF-8
主题:您的电子邮件的主题
评论:您的电子邮件正文。
在那里完成此设置后,如果您想在电子邮件中附加任何文件,您将找到一个名为“附加文件”的列,您还必须设置此列。 Pentaho 数据集成允许用户通过电子邮件附加文件。
现在将此 PDI 文件保存在您的机器中,文件扩展名将是 文件名.ktr
这里, .ktr 是 Pentaho 水壶的水壶文件扩展名。 保存文件并且一切正常后,单击“开始”按钮,这将初始化您的电子邮件作业。 它将检查您的 PDI 设置并将电子邮件发送到您的接收器。
如果一切顺利,您将收到一条成功消息,如下图所示。 如果发生错误,您将在屏幕上收到错误消息。 修复这些错误后,再次尝试将使您获得成功。
画龙点睛
至此,您正处于这篇文章的最后阶段。 在这篇文章中,我们讨论了 PDI 的基本原理。 我们已经看到了避免 java 错误的过程以及如何将 java 版本设置为默认值。 在这篇文章的中间,我们讨论了 PDI 的电子邮件按钮的设置。 在底部,我们讨论了电子邮件供应商设置和用户端设置。
Pentaho 数据集成是一种用于数据集成的商业智能 (BI) 工具,具有向客户发送电子邮件的特殊功能。 它具有更多用于数据分析的功能。 如果您有任何关于数据集成工具的内容要与他人分享,或者有任何与这篇文章相关的问题,欢迎您在下面的评论部分提问。