AI萌宠音频互动开发教程

概览

痛点分析

现代宠物常常面临关注不足、互动缺乏的问题，长期处于这种状态可能导致：

情绪焦虑或抑郁行为问题（如破坏性行为）与主人情感联结减弱

原始视频

解决方案

设计智能语音交互系统，支持用户录制并播放特定场景音频或直接进行音视频双向对讲的形式，安抚宠物、寻找宠物或进行趣味互动：

核心技术栈：

基础音频处理：

ANC（主动降噪）消除环境噪声AEC（回声消除）确保清晰通话AGC（自动增益控制）优化音量平衡VAD（语音活动检测）智能识别有效语音

AI增强处理：

深度神经网络降噪

智能语音分离技术

复杂声学场景建模

上下文感知的语音交互

核心优势

录音核心优势

1.1 智能增益控制

采用AGC技术动态调节录音增益（0.3-1.5米适配）输出音量稳定性提升300%彻底解决距离变化导致的音量波动问题

1.2 精准语音检测

VAD模块实时识别有效语音段减少40%无效音频数据处理支持5级灵敏度调节结合AI模型，复杂环境检测准确率提升35%

1.3 全格式兼容

支持MP3/G.711/Opus/AAC等6种编码格式输出兼容WAV/MP3等通用音频格式采样率最高支持48kHz 对讲核心优势

2.1 AI降噪黑科技

深度神经网络环境建模复杂环境信噪比提升5-15dBPESQ语音质量提升0.5-1.2分100ms超低处理延迟支持200ms回声路径补偿

2.2 零延迟对讲

Opus编码自适应传输端到端延迟<50ms动态码率调节（6-510kbps）20ms帧长优化设计

应用场景

场景大类具体场景技术实现情感陪伴智能情绪安抚- 自定义音效库声控互动游戏- 低延迟声控协议
- 智能设备联动行为训练不良行为矫正- 实时环境监测
- 智能声音干预远程互动高清语音对讲- 低延迟音频编码智能喂食联动- 语音指令控制
- 进食行为分析

附录

物料仓库

前置知识

产品 AI 功能开发

为了助力开发者高效实现 AI 应用的落地，涂鸦开发者平台提供了多样化的支持，包括适用于不同品类的标准化 AI 功能、丰富的智能体模板、以及便捷的面板投放工具，从多个维度全面保障产品的 AI 应用快速落地。

前置依赖

小程序开发 App依赖：涂鸦智能、智能生活App版本为 6.8.0 及以上；小程序模版依赖：萌宠音频互动相关 API 集成于AI 宠物面板模版设备 SDK 开发

萌宠音频互动方案基于涂鸦智能 IPC 功能基础，增加了用户音频录制互动功能。使用萌宠音频互动，需要先对接 IPC SDK，设备端方案请参考 IPC_SDK 开发。

能力集

API

文件上传通用方法获取云存文件详情 接口详情：fetchDeviceFileDetail 获取临时地址上传签名 接口详情：fetchDeviceFileSign 获取上传状态 接口详情：fetchDeviceFileUploadState 轮询大文件上传状态 接口详情：fetchBigPublicFileUploadState 宠物媒体文件编辑获取宠物媒体文件 接口详情：fetchPetAudios 保存宠物媒体文件 接口详情：fileRelationSave 宠物媒体文件下载 接口详情：notifyDownload 删除宠物媒体文件 接口详情：deleteDeviceFile

组件依赖

关键依赖模块

区域：

全区可用

App 版本：

涂鸦 App、智能生活 App v6.8.0 及以上版本

Kit 依赖：

BaseKit: v3.0.6MiniKit: v3.0.1DeviceKit: v4.0.8BizKit: v4.2.0AIKit: v1.2.0baseversion: v2.26.7

组件依赖：

@ray-js/panel-sdk: "^1.13.5",@ray-js/ray: "^1.7.12",@ray-js/smart-ui: "^2.1.5",@ray-js/cli: "^1.7.12",

项目模板

概述

基于 On-App AI，我们为开发者提供高性能萌宠音频互动方案，通过AI技术设计智能语音交互系统，支持用户使用该方案与宠物进行远程趣味互动。

方案主要涵盖功能

自定义录制播放高质量音频功能：

音频录制音频链路 AI 优化音频云存音频编辑音频播放互动

模块集

AI 音频录制 On-App AI

功能介绍

主体突出视频

AI 音频录制以下流程：音频采集、音频 AI 处理、音频封装；

AI 音频录制，主要依赖以下5个关键能力：

获取全局唯一的录音管理器
开发者可通过 getRecorderManager API 获取全局唯一的录音管理器。

开始录音
开发者可通过 RecorderManager.start API 开启录音。

暂停录音
开发者可通过 RecorderManager.pause API 暂停录音。

继续录音
开发者可通过 RecorderManager.resume API 继续录音。

停止录音
开发者可通过 RecorderManager.stop API 停止录音。

交互流程

音频上传云存

功能介绍

原始视频

音频上传云存主要包含以下步骤：获取临时地址上传签名、上传音频文件、获取上传状态、轮询大文件上传状态、保存宠物媒体文件

音频上传云存，主要依赖以下5个关键能力：

获取临时地址上传签名
开发者可通过 fetchDeviceFileSign API 获取精彩时刻服务的详细配置信息。

上传音频文件
开发者可通过 uploadFile API 上传音频文件。

获取上传状态
开发者可通过 fetchDeviceFileUploadState API 获取上传状态。

轮询大文件上传状态
开发者可通过 fetchBigPublicFileUploadState 轮询大文件上传状态。

保存宠物媒体文件
开发者可通过 fileRelationSave 保存宠物媒体文件。

交互流程

编辑宠物云存音频文件

功能介绍

原始视频

编辑宠物云存音频文件以下内容：获取全量云存音频、试听云存音频、新增云存音频、下载云存音频至设备、删除云存音频

编辑宠物云存音频文件，主要依赖以下4个关键能力：

获取宠物媒体文件
开发者可通过 fetchPetAudios API 获取宠物媒体文件。

宠物媒体文件下载
开发者可通过 notifyDownload API 下载宠物媒体文件至设备。

删除宠物媒体文件
开发者可通过 deleteDeviceFile API 删除宠物媒体文件。

音乐资源控制实例
开发者可通过 createInnerAudioContext 试听云存音频文件。

交互流程

AI萌宠音频互动开发教程

概览

痛点分析

解决方案

核心优势

应用场景

附录