当前位置:

华为EMUI10“滚屏翻译”之背后的学问

2019-11-03 15:55:57
[摘要] it之家10月17日消息 此前,华为官方发布一则短视频以介绍华为mate30系列手机中接入的“滚屏翻译”功能。现在华为emui官方微信号撰文详解emui10“滚屏翻译”及其背后的ocr技术,我们来看一

在10月17日从it House传来消息之前,华为官员发布了一段视频,介绍了与华为mate30系列手机相连的“滚动翻译”功能。现在华为的emui官方微信号对emui10“滚动翻译”及其背后的ocr技术做了详细的解释。让我们看看。

华为emui官员表示,emui10全屏翻译的存在解决了外语翻译的问题,但如果你想翻译多屏内容,就需要一遍又一遍地进行全屏翻译。随着内容长度的增加,操作的复杂性也会降低阅读的连贯性。基于此,“滚动翻译”派上了用场。

Emui10滚动翻译支持各种应用程序、十种语言和多屏幕内容的翻译。使用孝义语音密码“帮我翻译屏幕”或用两个手指按下屏幕来使用。华为的emui官员表示,“当你浏览一篇长文章,需要翻译时,系统会滚动截图,形成原文的长截图。然后,长截图将被分割,文本检测,翻译,排序,复制和拼接。最后,同样的图片和翻译文本将再次呈现给你。这是滚动翻译。”

在这一系列步骤中,最重要的是如何处理长截图。用什么技术来处理它?这里我们必须提到关键技术——光学字符识别技术。

以下是华为emui官员对ocr技术的详细解释:

Ocr,即光学字符识别(optical character recognition),是指检查字符、检测和识别它们,然后将它们的字符形状转换成计算机字符的过程。这里的应用是识别和提取由原始长文章形成的长截屏上的字符,并将它们提供给后续的机器翻译过程,即完成提取长源字符的过程。

从技术上讲,它是一个检测和识别的两阶段算法框架,涉及中国、英国、日本、韩国、俄罗斯、西方、法国、德国、意大利和葡萄牙的十种语言识别能力。它包括在神经网络处理单元中运行的多个深度模型。

调用ocr算法后,首先对图像进行增强。在图像适应理想状态后,深度模型和后处理操作以多线程方式同步运行。最后,通过NLU(自然语言理解)校正输出文本识别结果。

翻译的准确性取决于ocr识别的准确性。快速翻译取决于ocr处理字符的速度。ocr处理的文本被机器翻译,图片被重新排序并再次拼接,最后翻译的长文章被呈现给用户。

这样一个创新的方案,可以将长文章中的单词转换成图片,然后再转换成译文,现在已经获得专利。

//每一行、每一字、每一幅都必须填写完整//

滚动翻译还创新性地使用ocr文本行定位实现智能图片分割和拼接,巧妙地避免了长截图分割过程中文字或图片被截断的情况。

你可能有这样的问题,不能直接翻译原文的长截图吗?为什么要进行分段?

这是因为当前的图片翻译只支持单屏内容的翻译。长截屏将自动缩放到与屏幕相同的高度进行翻译。图片将被压缩,文本大小将自然被压缩,这将极大地影响翻译结果的准确性。

为了有效提高翻译的准确性,将长截屏剪成几个短截屏,然后进行翻译。然而,如果根据屏幕高度简单地截取长截屏,很可能一行文本将被截断或者一幅插图将被截断。

在滚动翻译中,ocr技术可以用来检测一行文本或图片的位置坐标。如果发现分割位置正好在一行或一幅图片的中间,它将移动到行之间的空白位置进行分割。

用此规则处理的图片宽度与屏幕宽度相同,高度等于或略低于屏幕。每行字符和每张图片都是完整的。这个方案既聪明又实用。它速度快,确保每个人的翻译体验。

<