适用于 Linux 的 10 大最佳开源语音识别工具

语音是现代与电子设备进行交互的一种流行且智能的方法。 众所周知,不同平台上有许多开源语音识别工具可用。 从这项技术开始,它在理解人声方面得到了同步改进。 这就是原因; 它现在比以前聘请了很多专业人士。 技术进步强大到足以让普通人更清楚。

开源语音识别工具

开源语音识别工具不像我们在 Linux 平台上日常生活中使用的典型软件那样可用。 经过长时间的研究,我们为您找到了一些功能完善的应用程序,并附有简短的描述。 下面就让我们一起来看看吧!

1.卡尔迪

Kaldi 是一种特殊的语音识别软件,最初是约翰霍普金斯大学项目的一部分。 该工具包具有可扩展的设计,并以 C++ 编程语言编写。 它为用户提供了一个灵活舒适的环境,并通过大量扩展来增强 Kaldi 的功能。

Kaldi 的显着特点

  • 一个免费且灵活的开源语音识别应用程序,在 Apache 执照。
  • 在多个平台上运行,包括 GNU/Linux、BSD 和 Microsoft Windows。
  • 为您的系统安装和配置应用程序提供支持。
  • 除了语音识别系统,它还支持深度神经网络和线性变换。

获取卡尔迪

2.CMUSphinx

CMUS Sphinx 带有一组功能丰富的系统,其中包含几个与语音识别相关的预构建包。 这是一个开源程序,由卡内基梅隆大学开发。 您将获得这种与说话者无关的识别工具,支持多种语言,包括法语、英语、德语、荷兰语等。

– –

CMUSphinx 的显着特点

  • 它是一个易于使用且快速的语音识别系统,具有用户友好的界面。
  • 配备灵活的设计和高效的系统,即使在资源匮乏的平台上也是如此。
  • 通过其 Sphinxtrain 包提供声学模型训练工具。
  • 通过其有用的软件包帮助执行不同类型的任务,包括关键字定位、发音评估、对齐等。
  • 它是一个跨平台的工具,同时支持 Windows 和 Linux 系统。

获取 CMUSphinx

3.DeepSpeech

DeepSpeech 是一个开源语音识别引擎,可将您的语音转换为文本。 它是 Mozilla 的免费应用程序。 要在您的设备上运行 DeepSearch 项目,您需要 Python 3.r 或更高版本。 此外,它还需要一个 Git 扩展文件,即 Git Large File Storage。 它用于在将大文件运行到系统时对大文件进行版本控制。

深度演讲

DeepSpeech 的显着特点

  • DeepSpeech 使用 TensorFlow 框架使语音转换更加舒适。
  • 它支持 NVIDIA GPU,这有助于执行更快的推理。
  • 您可以通过三种不同的方式使用 DeepSearch 推理; Python 包、Node.JS 包或命令行客户端。
  • 每次你想在你的系统上运行这个软件时,你都需要通过 Python 命令激活虚拟环境。
  • 它需要 Linux 或 Mac 环境来运行此应用程序。

获取 DeepSpeech

4.Wav2Letter++

WavLetter++ 是一种现代流行的语音识别工具,由 Facebook 人工智能研究团队。 它是 BCD 许可下的另一个开源程序。 这个超快速的语音识别软件是用 C++ 构建的,并引入了很多功能。 它在灵活的环境中为用户提供语言建模、机器翻译、语音合成等功能。

Wav2Letter++ 的显着特点

  • 它在流行的平台上包含一个活跃的社区,例如 Facebook 和谷歌集团为其全球用户提供帮助。
  • WavLetter++ 是一个快速灵活的工具包,它使用 ArrayFire 张量库来实现最高效率。
  • 它使您可以使用 wav2letter++ 等高性能框架,这有助于成功进行研究和模型调整。
  • 此外,它还通过教程部分提供了完整的文档。
  • 在食谱文件夹中,您将获得 WSJ、Timit 和 Librispeech 的详细食谱。

获取 Wav2Letter++

5.朱利叶斯

Julius 是一个比较老的开源语音识别软件,由 Lee Akinobu 开发。 该工具由京都大学川原实验室的开发人员用 C 编程语言编写。 它是具有大量词汇的高性能语音识别应用程序。 您可以在英语和日语中使用它。 如果您想将它用于学术和研究目的,它可能是一个不错的选择。

朱利叶斯

朱利叶斯的显着特征

  • Julius 是一个高度可配置的应用程序,可以设置不同的搜索参数来调整其性能。
  • 该工具基于 2-pass 策略,可为您提供实时和高质量的性能。
  • 它是一个跨平台项目,可在 Linux、BSD、Windows 和 Android 系统上运行。
  • 与基于语法的识别解析器 Julian 集成。
  • 除了支持基于规则的语法外,它还提供 Word 图形输出、置信度评分、基于 GMM 的输入拒绝以及更多功能。

获取朱利叶斯

6.西蒙

Simon 配备了由 Peter Grasch 开发的现代且易于使用的语音识别软件。 它是 GNU 通用公共许可证下的另一个开源程序。 您可以在 Linux 和 Windows 系统中自由使用 Simon。 此外,它还提供了使用您想要的任何语言的灵活性。

simon-开源语音识别

西蒙的显着特征

  • 使用它的语音控制计算器,西蒙提供了进行各种算术运算的工具。
  • 兼容 Skype 等流行的 VOIP 程序,与亲朋好友建立轻松的通讯系统。
  • 它允许用户通过一些简单的语音命令观看幻灯片和视频、听音乐等等。
  • 此外,它还是阅读报纸和上网的必备工具。

得到西蒙

7.迈克罗夫特

Mycroft 带有一个易于使用的开源语音助手,用于将语音转换为文本。 它被认为是现代最流行的 Linux 语音识别工具之一,用 Python 编写。 它允许用户在科学项目或企业软件应用程序中充分利用此工具。 此外,它还可以用作实用助手,可以告诉您时间、日期、天气等。

Mycroft 的显着特点

  • 与最流行的社交媒体和专业平台集成,包括 Facebook、Github、LinkedIn 等。
  • 您可以在不同的软件和硬件平台上运行此应用程序。 它可以是台式机或 Raspberry Pi。
  • 除了作为智能语音助手外,它还提供录音、机器学习、软件库等功能。
  • 它允许用户通过 Mycroft 的意图解析器 Adapt 将自然语言转换为机器可读的数据。

获取迈克罗夫特

8. OpenMindSpeech

Open Mind Speech 是必不可少的 Linux 语音识别工具之一,旨在免费将您的语音转换为文本。 它是 Open Mind Initiative 的一部分,负责运营,尤其是针对开发人员。 在获得当前名称之前,该程序以不同的名称引入,例如 VoiceControl、SpeechInput 和 FreeSpeech。

OpenMindSpeech 的显着特点

  • 它在语音识别操作中使用了溢出环境,使复杂的应用程序变得灵活。
  • Open Mind Speech 主要与基于 Linux 和 UNIX 的平台兼容。
  • 使用互联网,它可以从电子公民那里收集语音数据,这些电子公民是原始数据的贡献者。

获取 OpenMindSpeech

9.语音控制

Speech Control 是一款免费的语音识别应用程序,适用于任何 Ubuntu 发行版。 它带有一个基于 Qt 的图形用户界面。 虽然它仍处于早期开发阶段,但您可以将它用于您的简单项目。

SpeechControl-开源语音识别

SpeechControl 的显着特点

  • Speech Control 是通用公共许可证 (GPL) 下的开源程序。
  • 它旨在充当虚拟助手,提供重复性任务指导以顺利执行流程。
  • 它主要适用于基于 Linux 的平台。
  • 此外,还提供带有项目详细信息的易于理解的用户文档。

获取语​​音控制

10. Deepspeech.py​​torch

Deepspeech.py​​torch 是另一个值得提及的开源语音识别应用程序,它最终实现了 DeepSpeech2 for PyTorch。 它包含一组基于 DeepSpeech2 架构的强大网络。 凭借许多有用的资源,它可以用作研究和项目开发的基本 Linux 语音识别工具之一。

Deepspeech.py​​torch 的显着特点

  • 支持噪声增强,有助于提高加载音频时的稳健性。
  • 要将 post 请求发送到服务器,它提供了一个基本的服务器脚本。
  • 支持下载多个数据集,包括 TEDLIUM、AN4、Voxforge 和 LibriSpeech。
  • 允许您通过噪声注入将噪声添加到训练数据中。
  • 支持 Visdom 和 Tensorboard,用于可视化科学实验培训。

获取 Deepspeech.py​​torch

整理思路

至此,我们在 Linux 的开源语音识别工具上已经走到了终点。 希望您获得了有关此主题的全面信息。 上述应用程序是免费的、易于使用的,并且可以成为您的学术或个人项目的一部分。

你最喜欢哪一个? 如果您还有其他选择,请随时告诉我们。 如果对您有帮助,请务必与您的社区分享这篇文章。 到此为止,好好过日子吧。 谢谢!