题 目前用于ios的最佳语音识别API与几个关键字匹配的是什么? [关闭]


我正在寻找一个适用于ios的API(理想的免费),可以进行一些语音识别。我看过很少的帖子: iPhone语音识别API? 和  适用于iOS的免费语音识别引擎? 经过一些展望,我收集了看起来很有趣的sdk:

是否有任何真正脱颖而出并且最近的人?他们如何真正相互区别?


17
2018-02-08 22:35


起源


如果您正在寻找下面评论中指出的几个单词,那么您最好使用该要求更新您的问题 - Nikolay Shmyrev
stackoverflow.com/questions/35388720/... - Ruchir Baronia


答案:


如果您想跟踪几个关键字,那么 不应该 寻找语音识别API或服务。此任务称为关键字定位,它使用与语音识别不同的算法。语音识别试图找到所说的所有单词,因此它比关键字定位消耗更多的资源。关键字观察员只会尝试查找几个选定的关键字或关键短语。它简单易行,资源消耗少。

存档此功能的唯一可能解决方案是使用由Pocketsphinx支持的OpenEars等开源软件包

http://www.politepix.com/openears

Openears有Rejecto插件,可以实现类似的功能。

Pocketsphinx最近也实现了开源有效的关键字定位,但它还没有进入Openers。它只能通过pocketsphinx API获得,您需要创建kws搜索并设置要查找的目标字。我希望很快这个功能也能达到OpenEars。


16
2018-02-10 07:18



但 OpenEars'准确性非常不一致,很烦人。你能提出更好的建议吗? - Abhishek Bedi
@AbhishekBedi:OpenEars准确性对我来说非常好,可能你没有正确使用它。您需要提供更多信息才能获得相关帮助。 - Nikolay Shmyrev
我跟着[提供的tutepolitepix.com/openears/]。但我不知道如何在分数上工作 - Abhishek Bedi
欢迎您以更好的方式解决您的问题,并准确提供您正在做什么的细节,您期望得到什么以及您实际获得了什么。为了简化分析,您需要提供语音录音。只要您提供足够的信息,这个问题就很容易解决。 - Nikolay Shmyrev
从使用开球的演示,我最初没有留下深刻的印象。我试着说,“测试”,它回答说,你说“转”。或者说,“不”,它说,你说“GO GO”。现在,一旦我意识到我只能使用一组固定的单词,那就改善了我的经验。此外,我认为几乎需要使用Rejecto插件来拒绝不在固定单词集中的单词。 - christophercotton


Nuance为开发人员提供免费访问权限(但不是高容量) - 请参阅 http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.html 要么 http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home

Nuance服务通常是商业性的,需要预付费和交易费。上面有趣的消息是,他们现在可以免费向开发人员提供小批量使用他们的服务。因此,对于开发,测试和演示,您可以使用免费的Nuance服务。但是,与Android中免费提供的Google服务不同,如果您的应用拥有数千名用户,则可能需要为Nuance服务付费。


3
2018-02-08 23:22



谢谢迈克尔 - 它与openears或ispeech的区别也是免费的吗?高容量是什么意思:提取关键字需要处理的数据量?抱歉,我对语音识别知之甚少。在我的情况下,我需要连续提取几个关键字(最多4/5):我不希望用户与应用程序交互进入语音识别的模式。 - tiguero
Nuance是商业语音识别领域的行业领导者。它们就像思科的网络或EMC存储。他们是一家拥有行业领先技术的巨大成功公司。 Nuance提供了Apple Siri背后的识别技术。 OpenEars(我相信)是一个用于Sphinx和其他开源识别器的开源iOS库。 iSpeech来自新泽西州的一个小团队,他们似乎以DriveSafe.ly应用程序而闻名。对不起,我不太了解他们。 - Michael Levy


我们自2008年以来一直在开发CeedVocal SDK,它基于Julius和FLite开源项目。

这里有一些背景:我们想让我们的应用程序(Vocalia)在2008年进行语音识别,并且基本上选择了Julius(犹豫不决的Pocket Sphinx,看起来也很好)并优化了它的文件格式,以便它可以启动1-在原始iPhone上2秒而不是20秒。然后我们尽职尽责地用6种语言训练我们自己的声学模型。我们设计了API,并最终决定将其作为SDK提供给其他开发人员。

CeedVocal基本上支持2种操作模式:

  1. 单词匹配(或小短语)
  2. 关键字定位

在第一种操作模式中,它尝试将输入语音与其可接受输入列表中的单词(或短语)对齐。这会强制输入到预先知道的单词,即使语音是其他内容。准确性很好。在第二种操作模式中,它将尝试将其中一个关键字选择到语音流中。这是一个困难的案例,它可能不太准确。


2
2018-03-10 10:45