自动字幕的准确率如何?
在理想条件下,口语语言的自动字幕可实现高达 98% 的准确率,依据词错误率(WER)进行评估。.
字幕是提升演示和现场活动期间可访问性、参与度和信息保留的有效方式。.
自动字幕将语音实时转换为屏幕上显示的文本,语言与语音相同。ASR(自动语音识别)是一种用于生成这些口语句子转录本的人工智能技术。.
词错误率
为了评估自动字幕的准确性,最常用的指标是词错误率(WER)。该指标衡量自动转录文本相对于说话者实际发言的错误数量。本质上,它提供了一种判断自动系统将语音转换为文本效果的方法。.
例如,如果100个词中有4个错误,准确率将是96%。.
词错误率(WER)是一种用于衡量自动字幕准确性的指标。它在计算参考文本与转录文本完全对齐所需的总校正次数之前,以细粒度对正确识别的词序列进行对齐。此过程包括识别替换、删除和插入。随后,WER 通过将所需校正次数除以参考文本中的总词数来计算。一般而言,WER 越低,语音识别系统的准确性越高。.
WER忽视了错误的本质
WER 测量可能具有误导性,因为它未能告知我们某个错误的相关性/重要性。诸如同一单词的不同拼写(movable/moveable)等简单错误,读者通常不视为错误,而替换错误(exemptions/essentials)可能产生更大的影响。.
WER 数值,尤其是针对高精度语音识别系统,可能具有误导性,并不总是与人类对正确性的感知相符。对人类而言,90% 到 99% 之间的准确度差异往往难以辨别。.
| 原始转录稿: | ASR 字幕输出: |
| 例如,我 确实仅对以下内容进行非常有限的使用 基本要点提供的内容,我希望更详细地阐述一个特定点,我担心 我呼吁 各个州议会在欧洲法院的职能明确之前通过该公约,这可能会产生极其不利的影响。 | 例如,我也希望仅对所提供的豁免进行非常有限的使用,我想更详细地讨论一个特定点,我担心 呼吁各个州议会在明确欧洲法院的角色之后才批准该公约,可能会产生非常不利的影响。 |
Interprefy'的感知词错误率
Interprefy 已开发出一种专有且针对特定语言的 ASR 错误度量指标,称为感知词错误率(Perceived WER)。该指标仅统计影响人类对语音理解的错误,而非所有错误。感知错误率通常低于词错误率(WER),有时甚至低至 50%。感知词错误率为 5-8% 时,用户几乎察觉不到。.
下图展示了在高精度自动语音识别系统中,WER 与感知 WER 之间的差异。请注意同一语言的不同数据集(S0-S4)在性能上的差异。.
如图所示,人工感知的词错误率(WER)通常远好于统计词错误率(WER)。.

下图展示了在某种语言的相同语音数据集上使用感知词错误率(WER)时,各种自动语音识别(ASR)系统在准确性方面的差异。.

实现极其精确的隐藏字幕的关键因素
您应考虑的三项关键要点:
- 使用业界领先的解决方案:与其选择通用的即插即用引擎来覆盖所有语言,不如选择能够为您活动中的每种语言使用最佳可用引擎的供应商。.
- 优化引擎:选择能够为人工智能提供定制词典的供应商,以确保品牌名称、特殊名称和缩写能够被准确捕获。.
- 确保高质量的音频输入:如果音频输入质量差,ASR 系统将无法实现输出质量。请确保语音能够被清晰且响亮地捕获。.