Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本申请涉及语音语义技术领域,公开了一种基于动态风格感知的语音合成方法、装置、设备及介质,所述方法包括通过动态风格感知模型确定动态风格上下文向量;通过预设时长预测模型预测各目标音素的时长概率分布;基于预设软时长扩展机制生成各目标音素的音素嵌入...
  • 本申请提供了一种用于构音障碍矫治的语音合成反馈方法及系统,应用于语音合成技术领域,通过获取目标患者的语音信号以及构音运动数据,确定当前施加于目标患者的简化反馈策略并构建对应的动态参照基准,基于语音信号、构音运动数据以及动态参照基准进行比对分...
  • 本申请属于人工智能技术领域,涉及一种基于人工智能的语音生成方法,包括:使用扩散模型对噪声数据进行逐层计算,在检测出当前时间步到达缓存节点时,计算与当前时间步的指定编码器‑解码器结构对应的误差;若误差小于缓存阈值,获取与当前时间步对应的上一时...
  • 本发明涉及自然语言处理及人工智能领域,适用于互联网金融场景,尤其涉及一种多模态情感语音合成方法、装置、设备及存储介质,该多模态情感语音合成方法包括,获取第一待合成文本及第一情感描述文本输入预训练多模态大语言模型,输出文本、音素、音频三类原始...
  • 本申请涉及人工智能技术领域,本申请提供一种情感语音合成、模型训练方法、系统、电子设备及计算机可读存储介质,可应用于金融、医疗场景下的智能交互场景。方法部分包括:获取包含文本语料、目标说话人参考语音及目标情感标签的训练样本;通过多编码器架构分...
  • 本申请公开了音色向量生成模型的训练方法、音频数据生成方法及相关设备。音色向量生成模型的训练方法包括:获取包括角色音色向量和角色描述文本的训练数据集;基于角色描述文本生成角色描述向量;按照预设的时间步,对角色音色向量添加随机噪声向量,得到对应...
  • 本公开的实施例提供了一种用于语音合成的方法、装置、设备和存储介质。根据本公开的实施例,提取目标文本集中的一个或多个目标文本对应的一个或多个编码表示。针对一个或多个编码表示中的每个编码表示,基于每个编码表示和参考语音,生成每个编码表示对应的专...
  • 本公开实施例涉及一种文本转语音的处理方法、设备、介质及计算机程序产品,本公开的至少一个实施例中,通过获取至少一路文本转语音请求,进而基于文本转语音请求携带的待转换语音的第一文本,进行文本拼接得到第二文本;并将第二文本进行语义分割得到第二文本...
  • 本发明公开了一种基于vLLM加速的零训练语音模拟系统及方法,所述系统包括:所述基于vLLM加速的零训练语音模拟系统包括:特征提取模块、序列推理模块与音频复制模块;所述特征提取模块用于获取用户提供的短音频样本和目标文本,对短音频样本和目标文本...
  • 本申请公开了一种语音翻译方法、电子设备及存储介质,涉及语音处理技术领域,方法包括:将待翻译语音片段转换为文本序列,并计算文本序列的语义连贯性置信度;将待翻译语音片段的声学特征和语义连贯性置信度输入边界判定模型,得到待翻译语音片段中的候选句边...
  • 本发明涉及自然语言处理技术领域,且公开了一种基于自监督与注意力特征融合的彝语语音识别方法。该方法包括特征编码器模块、对比学习模块、掩码语言建模模块、联合优化与特征融合模块、解码器模块,特征编码器模块采用卷积神经网络结构,将连续的波形信号转化...
  • 本发明公开了一种基于神经可塑性与语音识别的个性化语言康复系统及方法,具体涉及智能医疗言语康复交叉技术领域,一种基于神经可塑性与语音识别的个性化语言康复系统及方法,包括:语音输入模块、语音识别与缺陷分析模块、用户语言能力评估模块、个性化康复任...
  • 本发明涉及一种基于脑电信号的语言解码方法、装置及电子设备,该方法包括:采集受试者的脑电信号,并进行预处理,得到神经特征时间序列;将神经特征时间序列输入并行解码架构,并行解码架构包括至少两个解码分支,用于从神经特征时间序列中解码出语言的不同正...
  • 本申请提供了一种多语言音频内容检索方法,可以应用于人工智能技术领域。该方法包括:通过预先训练的音频编码器对示例片段进行音频特征提取,得到示例通用语音序列;对示例通用语音序列进行离散化处理,生成用以表征示例通用语音序列的音频词汇的示例离散序列...
  • 本发明公开了一种基于语音识别的低时延集群语音调度方法,包括:步骤一:采集语音流数据,并切分为多个语音分片;步骤二:进行节点分配处理,形成调度状态向量;步骤三:计算排队状态参数与推理时延参数,并构建排队状态指标;步骤四:利用改进型CUSIDE...
  • 本申请公开了无数据语音识别。描述了使用不需要任何与用于人机接口的说出的唤醒词(WW)或命令匹配的语音数据来训练的语音识别系统来识别WW或命令的技术。系统在部署之前使用WW或命令的文本或字素表示来进行训练。该技术包括由系统接收目标语言的目标短...
  • 本公开涉及用于多说话者环境中免注册的自动语音识别(ASR)的系统和方法。该系统可以处理包含来自目标说话者和一个或更多个干扰说话者的语音的混合音频信号。通过应用诸如房间脉冲响应(RIR)和/或语音干扰能量比等声学特性,该系统可以模拟环境以提高...
  • 一种基于对比学习预训练的语音关键词识别系统,其步骤如下,首先,将大量易获取的成对的语音‑文本数据送入设计好的基于三元对比学习的预训练框架中进行预训练,目的是通过优化语音元对比损失、语音‑音素元对比损失和音素元对比损失三类损失,训练得到能够将...
  • 本发明涉及语音交互技术领域,具体公开了一种AI机器人低延迟语音交互方法及系统,本发明获取流式声学特征向量序列和语音元数据,基于该序列提取词元获取词元嵌入向量,根据预设回复长度与已识别词元数量差确定待预测位置,选取掩码标识符嵌入向量组成初始掩...
  • 本申请提供一种语音识别大模型的训练方法、语音处理方法和产品,属于语音处理的技术领域。所述语音识别大模型的架构包括初始编码器和大模型,所述方法包括通过初始编码器提取语音数据的语义特征;通过目标语音离散化模型提取语音数据的声学特征,并通过知识蒸...
技术分类