准确、高效、兼容性广的语音识别服务
对时长较短(60s以内)的语音进行识别,实时地返回转译文本,适用于较短的语音交互场景,如语音搜索、指令、消息等
对用户上传的录音文件进行识别,上传后会在12小时内完成处理并返回转译文本,适用于异步非实时识别音频的场景,如点播音频识别、会议录音记录识别、客服电话录音识别等
对不限定时长的音频流进行实时识别,实时转译音频的同时做到智能断句,并能输出每句话的起始与终结位置。适用于音频、视频直播识别、实时会议音频转译等
结合传统音频处理以及前沿深度学习的方式打造,准确识别音频内容
基于大规模语言模型,智能预测语境并进行断句与纠正文本,使输出文本更合理
支持各种数据形式的调用,保持精度的同时加速了识别处理
支持用户自定义关键词,提高各种场景中的识别准确率
支持多种垂直领域,例如社交、UGC、会议场合等
基于云端的自助式服务,提供标准化API接口,可免费试用,对效果满意后按每月API调用量付费。