为应用提供丰富的AI(Artificial Intelligence)能力,支持开箱即用。开发者可以灵活、便捷地选择AI能力,让应用变得更加智能。
已开放的AI能力如下表所示:
能力
简介
二维码生成
根据开发者给定的字符串信息和二维码图片尺寸,返回相应的二维码图片字节流。调用方可以通过二维码字节流生成二维码图片。
通用文字识别
通过拍照、扫描等光学输入方式,把各种票据、卡证、表格、报刊、书籍等印刷品文字转化为图像信息,再利用文字识别技术将图像信息转化为计算机等设备可以使用的字符信息的技术。
图像超分辨率
提供适用于移动终端的1x和3x超分能力;1x超分可以去除图片的压缩噪声,3x超分在有效抑制压缩噪声的同时,提供3倍的边长放大能力。
文档检测校正
提供了文档翻拍过程的辅助增强功能,包含两个子功能:文档检测和文档校正。
文字图像超分
文字图像超分辨率可以对包含文字内容的图像进行9倍放大(高宽各放大3倍),同时增强图像内文字的清晰度,称为“文字图像超分辨率”,简称“文字图像超分”。
分词
对于一段输入文本,可以自动进行分词,同时提供不同的分词粒度。开发者可以根据需要自定义分词粒度。
词性标注
对于输入的一段文本,自动通过词性标注接口对其进行分词,并为分词结果中的每个单词标注一个正确的词性。词性标注提供不同的分词粒度,开发者可以根据需要自定义分词粒度。
助手类意图识别
对用户发送给设备的文本消息进行语义分析和意图识别,进而衍生出各种智能的应用场景,使设备更智慧、更智能。
IM类意图识别
利用机器学习技术,针对用户短信或聊天类APP等IM应用的文本消息进行内容分析,并识别出消息内容代表的用户意图。
关键字提取
可以在大量信息中提取出文本想要表达的核心内容,可以是具有特定意义的实体,如:人名,地点,电影等。也可以是一些基础但是在文本中很关键的词汇。
实体识别
语音识别
将语音文件、实时语音数据流转换为汉字序列,准确率达到90%以上(本地识别95%)。
语音播报
将文本转换为语音并进行播报。
说明 目前,二维码生成能力支持智能穿戴设备和手机;其他AI能力仅支持手机设备。
码生成能够根据开发者给定的字符串信息和二维码图片尺寸,返回相应的二维码图片字节流。调用方可以通过二维码字节流生成二维码图片。
码生成能够根据给定的字符串信息,生成相应的二维码图片。常见应用场景举例:
码生成提供了IBarcodeDetector()接口,常用方法的功能描述如下:
接口名
方法
功能描述
IBarcodeDetector
int detect(String barcodeInput, byte[] bitmapOutput, int width, int height);
根据给定的信息和二维码图片尺寸,生成二维码图片字节流。
IBarcodeDetector
int release();
停止QR码生成服务,释放资源。
2. 定义ConnectionCallback回调,实现连接能力引擎成功与否后的操作。
4. 在收到onServiceConnect回调连接服务成功后,实例化IBarcodeDetector接口,将此工程的context作为入参
5. 定义码生成图像的尺寸,并根据图像大小分配字节流数组空间。
6. 调用IBarcodeDetector的detect()方法,根据输入的字符串信息生成相应的二维码图片字节流。
7. 如果返回值为0,表明调用成功。后续可以利用API将解码流转换为图片源,简要示例如下:
8. 当码生成能力使用完毕后,调用IBarcodeDetector的release()方法,释放资源
通用文字识别的核心技术是OCR(Optical Character Recognition,光学字符识别)。OCR是一种通过拍照、扫描等光学输入方式,把各种票据、卡证、表格、报刊、书籍等印刷品文字转化为图像信息,再利用文字识别技术将图像信息转化为计算机等设备可以使用的字符信息的技术。
通用文字识别适用于如下场景:
通用文字识别提供了setVisionConfiguration()和detect()两个函数接口。
调用ITextDetector的setVisionConfiguration()方法,通过传入的TextConfiguration,选择需要调用的OCR类型。
下表列出了TextConfiguration的常用设置:
接口名称
参数名
类型
参数说明
setDetectType()
detectType
int
setLanguage()
language
int
setProcessMode()
mode
int
调用ITextDetector的detect()方法,获取识别结果。
其中:
2. 定义ConnectionCallback回调,实现连接能力引擎成功与否后的操作。
复制
复制
4. 在收到onServiceConnect回调连接服务成功后,实例化ITextDetector接口,将此工程的context作为入参。
复制
5. 实例化VisionImage对象image,并传入待检测图片pixelMap。
复制
复制
7. (可选) 定义VisionCallback<Text>回调。
复制
说明
8. 通过TextConfiguration配置textDetector()方法的运行参数,可选择识别场景、语言类型、调用模式等。跨进程模式(MODE_OUT)下调用方与能力引擎处于不同进程;同进程模式(MODE_IN)下,能力引擎在调用方进程中实例化,调用方通过反射的方式调用引擎里的通用文字识别能力。以聚焦通用文字识别,同进程英文语种检测为例:
9. (可选)调用ITextDetector的prepare()方法。
说明 如果返回的result不为0,说明当前OCR能力准备失败,需要处理错误,不再执行之后的动作。在detect()方法中会首先调用prepare()启动引擎,如果引擎已经启动则不会再次启动。
10. 调用ITextDetector的detect()方法。
或者
说明
结果码定义如下表:
结果码
说明
成功
-1
未知错误
-2
不支持的功能或接口
-3
内存分配失败或创建对象失败
-4
所需库加载失败
-10
引擎开关已经关闭
101
失败
102
超时
200
输入参数不合法(图片尺寸错误)
201
输入参数不合法(为空)
210
输入参数合法
500
服务绑定异常
521
服务绑定异常断开
522
服务已连接
600
模型文件异常
601
模型文件不存在
602
模型加载失败
700
异步调用请求发送成功
1001
神经网络处理单元错误
11. 调用ITextDetector的release()方法,释放资源。调用pixelMap的release()方法,释放图片内存。
说明 不再使用通用文字识别能力时,调用release()方法释放资源。
最后,为了能让大家更好的去学习提升鸿蒙 (Harmony OS) 开发技术,小编连夜整理了一份30个G纯血版学习资料(含视频、电子书、学习文档等)以及一份在Github上持续爆火霸榜的《纯血版华为鸿蒙 (Harmony OS)开发手册》(共计890页),希望对大家有所帮助。
需要以上视频学习资料小伙伴
请点击→纯血版全套鸿蒙HarmonyOS学习资料
这份手册涵盖了当前鸿蒙 (Harmony OS) 开发技术必掌握的核心知识点
HarmonyOS 概念:
如何快速入门?
基于ArkTS 开发:
获取以上文中提到的这份纯血版鸿蒙 (Harmony OS) 开发资料的小伙伴