自动字幕的准确率如何?
在理想条件下,语音语言的自动字幕准确率可达 98%(以词错误率 (WER) 衡量)。.
在演讲和现场活动中,字幕是提高可访问性、参与度和信息保留效果的有效方法。.
自动字幕功能可以将语音转换成文本,并以与语音相同的语言实时显示在屏幕上。自动语音识别(ASR)是一种人工智能技术,用于生成口语句子的文本转录。.
词错误率
为了评估自动字幕的准确性,最常用的指标是词错误率(WER)。它衡量的是自动生成的文本与说话者实际说出的词语之间的错误数量。本质上,它提供了一种方法来判断自动系统将语音转换为文本的效果如何。.
例如,如果 100 个单词中有 4 个是错误的,那么准确率就是 96%。.
词错误率 (WER) 是衡量自动字幕准确性的指标。它首先对正确识别的词序列进行精细的比对,然后计算完全对齐参考文本和转录文本所需的校正总数。这包括识别替换、删除和插入。WER 的计算方法是将所需的校正次数除以参考文本中的总词数。一般来说,WER 越低,语音识别系统的准确性就越高。.
WER忽略了错误的本质。
词错误率 (WER) 指标可能会产生误导,因为它无法告诉我们某个错误的重要性。例如,简单的拼写错误,比如同一个词的不同拼写(movable/moveable),通常不会被读者视为错误,而替换错误(exemptions/essentials)则可能影响更大。.
词错误率(WER)数值,尤其对于高精度语音识别系统而言,可能会产生误导,并且并不总是与人类对正确性的感知相符。对人类来说,90% 和 99% 之间的准确率差异往往难以区分。.
| 原文: | ASR字幕输出: |
| 例如,我希望只在非常有限的情况下使用基本要素。如果我想更详细地讨论某一点,我担心呼吁各个国家议会在欧洲法院的作用得到澄清之后才批准该公约可能会产生非常不利的影响。 | 例如,我也希望对豁免条款的使用非常有限。我想更详细地谈谈一点:我担心,要求各个国家议会在欧洲法院的作用得到明确之后才批准该公约,可能会产生非常不利的影响。 |
Interprefy 的感知词错误率
Interprefy 开发了一种专有的、针对特定语言的自动语音识别 (ASR) 错误指标,称为感知词错误率 (Perceived WER)。该指标仅统计影响人类理解语音的错误,而非所有错误。感知错误率通常低于词错误率 (WER),有时甚至低至 50%。5-8% 的感知词错误率通常几乎不会被用户察觉。.
下图展示了高精度自动语音识别系统 (ASR) 的词错误率 (WER) 和感知词错误率 (Perceived WER) 之间的差异。请注意同一语言的不同数据集 (S0-S4) 的性能差异。.
如图所示,人类感知到的 WER 通常比统计 WER 要好得多。.

下图展示了使用感知词错误率 (WER) 对同一语言的同一语音数据集进行处理时,各种 ASR 系统之间的准确率差异。.

实现极其精准的字幕的关键因素
您应考虑以下三点:
- 使用一流的解决方案:与其选择任何现成的引擎来涵盖所有语言,不如选择一个供应商,该供应商会针对您活动中的每种语言使用最佳的可用引擎。.
- 优化引擎:选择能够为 AI 提供定制词典的供应商,以确保品牌名称、特殊名称和缩写词都能被正确识别。.
- 确保高质量的音频输入:如果音频输入质量差,ASR系统将无法达到理想的输出质量。请确保语音能够被清晰响亮地采集。.