本文作者:kaifamei

文本转换音频的方法、装置、设备和介质与流程

更新时间:2025-12-27 18:00:26 0条评论

文本转换音频的方法、装置、设备和介质与流程

1.本公开涉及计算机

技术领域


:,尤其涉及一种文本转换音频的方法、装置、设备和介质。

背景技术


::2.随着智能设备的普及,电子书籍越来越成为大众读书的主流形式。为了进一步方便用户进行电子书籍的阅读,相关的阅读类应用程序除了提供电子形式的文本阅读功能之外,还提供有将文本转换为音频的听书功能。3.目前,将电子书籍的文本内容转换为音频的处理单位是一个章节。这样,电子书籍的文本内容每次产生变化(如新增文本、修改文本、删除文本等)时,均需对整个章节的全部文本内容重新进行音频转化处理,无疑会增加电子书籍的音频生成过程的时间成本和资源成本。技术实现要素:4.为了解决上述技术问题,本公开提供了一种文本转换音频的方法、装置、设备和介质,以节省电子书籍的音频生成过程的时间成本和资源成本,从而提高文本转音频的效率。5.第一方面,本公开提供了一种文本转换音频的方法,该方法包括:6.若检测到目标章节发生文本变更,则基于预设文本单位,确定第一章节文本相对于第二章节文本发生文本变更的第一局部文本和所述第一局部文本的第一文本位置;其中,所述预设文本单位小于一个章节,所述第一章节文本为所述目标章节发生文本变更之后的章节文本,所述第二章节文本为所述目标章节发生文本变更之前的章节文本;7.对所述第一局部文本进行音频转换处理,生成第一局部音频;8.基于所述第一文本位置、所述第一局部音频和第一章节音频,生成所述目标章节发生文本变更之后的第二章节音频;其中,所述第一章节音频为所述目标章节发生文本变更之前的章节音频。9.第二方面,本公开提供了一种文本转换音频的装置,该装置包括:10.第一文本位置确定模块,用于若检测到目标章节发生文本变更,则基于预设文本单位,确定第一章节文本相对于第二章节文本发生文本变更的第一局部文本和所述第一局部文本的第一文本位置;其中,所述预设文本单位小于一个章节,所述第一章节文本为所述目标章节发生文本变更之后的章节文本,所述第二章节文本为所述目标章节发生文本变更之前的章节文本;11.第一局部音频生成模块,用于对所述第一局部文本进行音频转换处理,生成第一局部音频;12.第二章节音频生成模块,用于基于所述第一文本位置、所述第一局部音频和第一章节音频,生成所述目标章节发生文本变更之后的第二章节音频;其中,所述第一章节音频为所述目标章节发生文本变更之前的章节音频。13.第三方面,本公开提供了一种电子设备,该设备包括:14.处理器;15.存储器,用于存储可执行指令;16.其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现本公开任意实施例所说明的文本转换音频的方法。17.第四方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开任意实施例所说明的文本转换音频的方法。18.本公开实施例的文本转换音频的方法、装置、设备和介质,在检测到目标章节发生文本变更的情况下,基于小于一个章节的预设文本单位,确定文本变更之后的第一章节文本相对于文本变更之前的第二章节文本发生文本变更的第一局部文本和第一局部文本的第一文本位置,并对第一局部文本进行音频转换处理,生成第一局部音频,且基于第一文本位置、第一局部音频和目标章节发生文本变更之前的第一章节音频,生成目标章节发生文本变更之后的第二章节音频;实现了在文本变更的情况下,仅对发生文本变更的第一局部文本进行音频重新转换处理,省去了未发生文本变更的局部文本的音频重复转换过程,从而缩短了音频重新转换的文本长度,进而在确保文本内容和音频内容一致的基础上,节省了电子书籍的音频生成过程中的时间成本和资源成本,提高了文本转换音频的效率。附图说明19.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。20.图1为本公开实施例提供的一种文本转换音频的方法的流程示意图;21.图2为本公开实施例提供的另一种文本转换音频的方法的流程示意图;22.图3为本公开实施例提供的一种文本转换音频的装置的结构示意图;23.图4为本公开实施例提供的一种电子设备的结构示意图。具体实施方式24.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。25.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。26.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。27.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。28.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。29.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。30.本公开实施例提供的文本转换音频的方法,可适用于对电子形式的文本进行音频转换处理的场景中,尤其适用于对已经转换音频后又发生文本内容变更的电子书籍的音频转换处理的情况。该方法可以由文本转换音频的装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在具有一定运算能力的电子设备中。该电子设备可以包括但不限于诸如智能手机、个人数字助理(personaldigitalassistant,pda)、平板电脑(tabletpersonalcomputer,tabletpc)、笔记本电脑、便携式多媒体播放器(portablemediaplayer,pmp)、车载终端、可穿戴设备等等的移动终端以及诸如数字电视、台式计算机、智能家居设备等等的固定终端。31.图1示出了本公开实施例提供的一种文本转换音频的方法的流程示意图。如图1所示,该文本转换音频的方法可以包括如下步骤:32.s110、若检测到目标章节发生文本变更,则基于预设文本单位,确定第一章节文本相对于第二章节文本发生文本变更的第一局部文本和第一局部文本的第一文本位置。33.其中,目标章节是待获取文本对应的音频的电子书籍中的章节。本公开实施例中的电子书籍可以是正式书籍的数字版,也可以是非正式书籍、但区分章节的数字化阅读内容等等。预设文本单位是预先设置的、进行文本转换音频的数据处理单位。本公开实施例中,预设文本单位小于一个章节,例如可以是一个段落、几个句子或一个句子等。34.第一章节文本为目标章节发生文本变更之后的整个章节的文本内容。35.第二章节文本为目标章节发生文本变更之前的整个章节的文本内容。第一局部文本是第一章节文本中发生了文本变更的、预设文本单位对应的文本内容。这里的文本变更可以是新增文本内容、修改原本的文本内容和删除文本内容中的至少一种。第一文本位置是第一局部文本在第一章节文本或第二章节文本中的排列位置,其与预设文本单位相关。例如,预设文本单位是段落时,第一文本位置可以是章节文本中的第几个段落;预设文本单位是一个句子时,第一文本位置可以是章节文本中的第几个句子等等。36.具体地,首先,电子设备可以对目标章节进行文本内容是否变更的检测。37.在一示例中,电子设备可以定时比对目标章节在当前时间的文本内容及其在当前时间之前的文本内容。如果比对结果是文本完全一致,说明目标章节未发生文本变更;如果比对结果是文本不完全一致,说明目标章节发生了文本变更。38.在另一示例中,电子设备可以检测是否接收到目标章节的文本内容变更的相关通知信息。例如,目标章节的文本被修改(作者修改或者审核软件辅助修改等)时附带生成文本已修改的通知信息,并将该通知信息发送至电子设备。这样,电子设备便检测到目标章节发生了文本变更。39.然后,电子设备在检测到目标章节发生文本变更的情况下,按照预设文本单位来获取第一章节文本相对于第二章节文本发生了文本变更的第一局部文本以及该第一局部文本的第一文本位置。40.在一示例中,电子设备便可通过文本编辑软件来获得第一局部文本及其对应的第一文本位置。该示例中,文本编辑软件可以记录文本变更的相关信息,如文本发生变更的时间、变更前后的文本内容、变更前后的文本内容的文本位置等等。这样,电子设备便可以根据变更前后的文本内容及其文本位置,按照预设文本单位,从第一章节文本中确定出第一局部文本。然后,再根据该第一局部文本在第一章节文本或第二章节文本中的排列位置确定第一文本位置。41.在另一示例中,电子设备可按照预设文本单位,逐一比对预设文本单位的文本长度的第一章节文本和第二章节文本来获得第一局部文本及其第一文本位置。42.在一些实施例中,预设文本单位基于文本变更长度和/或文本单位取值范围确定。这里的文本变更长度是指当前时间之前的一段时间内、任一章节的文本内容产生变更时,变更的文本的长度。文本单位取值范围是指预先设定的、预设文本单位的取值范围,其是一个左闭右开区间,并且区间下限值为章节的最小处理单位,即一个句子,区间上限值为一个章节,即文本单位取值范围为大于或等于一个句子且小于一个章节。43.在一示例中,预设文本单位基于文本变更长度确定。在该示例中,电子设备可以收集多次文本变更过程中的文本变更长度,然后统计这些文本变更长度的均值或者众数等统计值。该统计值可以反映出多次文本变更中文本变更长度的平均分布情况,故可以将该统计值确定为预设文本单位。44.在另一示例中,预设文本单位基于文本单位取值范围确定。该示例中,电子设备可在文本单位取值范围内选定一个值,作为预设文本单位。在又一示例中,预设文本单位基于文本变更长度和文本单位取值范围确定。该示例中,预设文本单位根据对多个文本变更长度的统计值在文本单位取值范围内进行自适应调整。例如,统计值在文本单位取值范围内,那么可以直接将统计值确定为预设文本单位;统计值不在文本单位取值范围内,那么可从文本单位取值范围内中选择一个最接近统计值的取值,作为预设文本单位。再如,在统计值较大的情况下,可以考虑用户终端的网络质量和设备性能等情况,在文本单位取值范围内中选择一个接近统计值且数值相对小一些的数值,作为预设文本单位等等。45.在一些实施例中,预设文本单位为一个句子。考虑到文本转换语音的成本与文本长度成正比关系,而章节中的最小文本单位为句子,所以,为了提高文本转换音频的普适性以及转换效率,本实施例中可将预设文本单位确定为一个句子。46.s120、对第一局部文本进行音频转换处理,生成第一局部音频。47.具体地,电子设备获得第一局部文本后,可以利用诸如文本转换语音(texttospeech,tts)等技术,将第一局部文本转换为对应的音频(即第一局部音频)。如果第一局部文本的数量为多个,那么便可转换得到相同数量的第一局部音频。48.需要说明的是,如果文本变更类型为新增文本内容或修改文本内容,那么第一局部音频是与第一局部文本的内容一致的音频。如果文本变更类型为删除文本内容,那么第一局部音频为空。49.s130、基于第一文本位置、第一局部音频和第一章节音频,生成目标章节发生文本变更之后的第二章节音频。50.其中,第一章节音频为目标章节发生文本变更之前的章节音频。51.具体地,电子设备可利用变更文本对应的第一局部音频及其第一文本位置,对第一章节音频进行处理,得到第二章节音频。52.在一示例中,电子设备可根据第一局部音频修改第一章节音频。53.例如,第一文本位置为第二章节文本中的排列位置时,电子设备可根据第一文本位置定位到第一章节音频中的音频位置,并利用第一文本位置对应的第一局部文本替换掉音频位置处的局部音频,生成第二章节音频。54.再如,第一文本位置为第一章节文本中的排列位置时,可以根据预先建立的、未发生文本变更的局部文本(即第二局部文本)在第一章节文本中的排列位置与第二局部文本在第二章节文本中的排列位置之间的位置映射关系,将第一文本位置映射为对应的第二章节文本中的排列位置。之后,电子设备可根据映射后的第一文本位置定位到第一章节音频中的音频位置,并利用第一文本位置对应的第一局部文本替换掉音频位置处的局部音频,生成第二章节音频。55.需要说明的是,如果文本变更类型为新增文本内容,那么音频位置处的局部音频为空,则将第一局部音频插入音频位置处;如果文本变更类型为修改文本内容,那么第一局部文本替换掉音频位置处原本的局部音频;如果文本变更类型为删除文本内容,那么第一局部音频为空,经过替换处理后,会删除第一章节音频中的音频位置处原本的局部音频。56.在另一示例中,电子设备可分别获取第一章节文本中每个预设文本单位对应的局部音频,再按序拼接这些局部音频,生成第二章节音频。其中,第一局部文本对应的局部音频是经过诸如tts技术转换而得到的第一局部音频;第二局部文本对应的局部音频则可以从第一章节音频中提取得到。57.本公开实施例提供的上述文本转换音频的方法,在检测到目标章节发生文本变更的情况下,基于小于一个章节的预设文本单位,确定文本变更之后的第一章节文本相对于文本变更之前的第二章节文本发生文本变更的第一局部文本和第一局部文本的第一文本位置,并对第一局部文本进行音频转换处理,生成第一局部音频,且基于第一文本位置、第一局部音频和目标章节发生文本变更之前的第一章节音频,生成目标章节发生文本变更之后的第二章节音频;实现了在文本变更的情况下,仅对发生文本变更的第一局部文本进行音频重新转换处理,省去了未发生文本变更的局部文本的音频重复转换过程,从而缩短了音频重新转换的文本长度,节省了电子书籍的音频生成过程中的时间成本和资源成本,提高了文本转换音频的效率。58.图2是本公开实施例提供的又一种文本转换音频的方法的流程图。该文本转换音频的方法对“基于预设文本单位,确定第一章节文本中发生文本变更的第一局部文本和第一局部文本的第一文本位置”进行了进一步优化。在此基础上,还可以进一步对“基于第一文本位置、第一局部音频和第一章节音频,生成目标章节发生文本变更之后的第二章节音频”进行优化。在上述基础上,还可以预设文本单位为一个句子为例进行阐述。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,该文本转换音频的方法具体包括:59.s210、若检测到目标章节发生文本变更,则获取第一章节文本和第二章节文本。60.具体地,电子设备在检测到目标章节发生文本变更后,可根据目标章节的章节标识(如书籍名称+章节名称/章节编码)以及发生变更的信息(如时间等),从网络端拉取得到目标章节在发生文本变更之前的第一章节文本和发生文本变更之后的第二章节文本;或者,电子设备可根据目标章节的章节标识和发生变更的信息,从内部存储介质或外部存储介质中读取得到第一章节文本和第二章节文本。61.s220、基于预设文本单位,比较第一章节文本和第二章节文本,确定第一局部文本和第一文本位置。62.具体地,为了减少音频转换功能与文本编辑功能之间的耦合,以及提高本公开实施例提供的文本转换音频的方法的普适性,本实施例中通过第一章节文本和第二章节文本之间的比对来确定第一局部文本,且在比对过程中记录第一文本位置。63.具体实施时,电子设备以预设文本单位为处理单位,逐一比较第一章节文本和第二章节文本中的对应文本长度的局部文本内容。如果任一局部文本内容的比较结果是文本内容不一致,说明第一章节文本中的局部文本内容相对于第二章节文本中的相应局部文本内容发生了文本变更,故将第一章节文本中的该局部文本内容确定为第一局部文本。并且,将该局部文本内容在第一章节文本中的排列位置确定为第一局部文本的第一文本位置。64.在一些实施例中,s220包括:按照预设文本单位,将第一章节文本分解为多个第三局部文本,并将第二章节文本分解为多个第四局部文本;针对每个第三局部文本,将第三局部文本与各第四局部文本进行匹配,并在匹配失败的情况下,将第三局部文本确定为第一局部文本,且将第三局部文本在第一章节文本中的排列位置确定为第一文本位置。65.其中,第三局部文本是第一章节文本中的局部文本内容。第四局部文本是第二章节文本中的局部文本内容。66.具体地,电子设备首先按照预设文本单位(示例为一个句子),将第一章节文本拆分为多个第三局部文本,并且记录各第三局部文本之间的排序关系。例如,按照各第三局部文本在第一章节文本的文本顺序关系,将各第三局部文本存储为旧文本字符串序列strlistold。同样地,电子设备按照预设文本单位,将二章节文本拆分为多个第四局部文本,并且记录各第四局部文本之间的排序关系。例如,按照各第四局部文本在第二章节文本的文本顺序关系,将各第四局部文本存储为新文本字符串序列strlistnew。67.然后,电子设备遍历新文本字符串序列strlistnew中的各字符串,并在遍历过程中执行:将遍历到的strlistnew中的字符串strnew与旧文本字符串序列strlistold的每个字符串strold进行匹配。如果匹配结果中有一个是不完全一致,说明该字符串strnew对应的句子发生了修改类型的文本变更,那么将该字符串strnew确定为第一局部文本,并记录该字符串strnew在新文本字符串序列strlistnew中的序号,作为上述确定的第一局部文本在第一章节文本中的排序位置,即第一文本位置。如果匹配结果均为完全不一致,说明该字符串strnew对应的句子发生了新增类型的文本变更,那么将该字符串strnew确定为第一局部文本,并记录该字符串strnew在新文本字符串序列strlistnew中的序号,作为上述确定的第一局部文本的第一文本位置。68.按照上述过程,电子设备可获得第一章节文本相对于第二章节文本发生文本变更的各第一局部文本,且这些第一局部文本均是修改类型或新增类型的变更文本内容。这样可减少删除类型的变更文本的确定流程,从而提高第一局部文本的确定效率,进而进一步提高文本转换音频的效率。69.s230、基于预设文本单位,确定第一章节文本相对于第二章节文本未发生文本变更的第二局部文本和第二局部文本在第二章节文本中的第二文本位置。70.具体地,本实施例中,电子设备是通过获取第二章节文本中每个预设文本单位对应的局部音频,并按序拼接这些局部音频来生成第二章节音频的。所以,电子设备除了获得第一局部文本和第一文本位置之外,还可以获取第一章节文本中未发生文本变更的第二局部文本及其在第二章节文本中的排列位置,即第二文本位置。71.具体实施时,可参照s220中的遍历相关内容,即电子设备遍历新文本字符串序列strlistnew中的各字符串,并在遍历过程中执行:将遍历到的strlistnew中的字符串strnew与旧文本字符串序列strlistold的每个字符串strold进行匹配。如果匹配结果中有一个是完全一致,说明该字符串strnew对应的句子未发生文本变更,那么将该字符串strnew对应的句子确定为第二局部文本,并记录与该字符串strnew匹配一致的字符串strold在旧文本字符串序列strlistold中的序号,作为确定的第二局部文本在第二章节文本中的第二文本位置。72.需要说明的是,s230除了该执行顺序外,还可以在s220之前执行,也可以在s240之后执行。73.s240、对第一局部文本进行音频转换处理,生成第一局部音频。74.s250、基于第二文本位置,从第一章节音频中确定第二局部文本对应的第二局部音频。75.具体地,按照预设文本单位,第一章节音频也可被分解为与各第四局部文本一样的句子顺序的多个局部音频(可称为第三局部音频)。那么,电子设备可根据每个第二文本位置,从各第三局部音频中筛选出对应位置的第三局部音频,作为第二局部文本对应的第二局部音频。76.在一些实施例中,s250包括:若第一章节音频为有损音频格式,则将第一章节音频转换为无损音频格式,生成第三章节音频;基于第二文本位置对应的音频起始时刻,对第三章节音频进行局部音频提取,得到第二局部音频。77.其中,有损音频格式为经过音频编码处理和/或音频压缩处理的音频格式,例如mp3格式。无损音频格式是未经过音频编码处理和音频压缩处理的音频格式,例如脉码调制录音(pulsecodemodulation,pcm)格式。音频起始时刻为生成第三章节音频的过程中、按照预设文本单位记录的起始时刻。例如,预设文本单位为一个句子的示例中,音频起始时刻为合成第三章节音频时记录的每个句子对应音频的起始时刻。78.具体地,电子设备在提取得到第二局部音频的过程中,首先判断第一章节音频的音频格式。如果音频格式为无损音频格式,那么直接执行后续处理。如果音频格式为有损音频格式,那么可将其转换为无损音频格式,得到格式转换后的章节音频,即第三章节音频,再执行后续处理。这是因为,合成并存储第一章节音频时,一般会把音频压缩成mp3等有损音频格式,这样就不能直接根据音频起始时刻,到局部音频在章节音频的二进制数据列表中的起始点;而使用pcm等无损音频格式,可以根据音频起始时刻,直接计算局部音频在章节音频的二进制数据列表中的起始位置。79.然后,电子设备根据每个第三局部音频的音频时长,计算得到每个第三局部音频的音频起始时刻。之后,电子设备根据上述计算得到的多个音频起始时刻,从第三章节音频对应的各第三局部音频中提取出每个第二文本位置对应的音频起始时刻的第三局部音频,作为第二局部音频。80.s260、基于第一文本位置和第二文本位置,拼接第一局部音频和第二局部音频,生成第二章节音频。81.具体地,按照上述过程,电子设备获得了发生文本变更的第一局部文本对应的第一文本位置和第一局部音频,以及未发生文本变更的第二局部文本对应的第二文本位置和第二局部音频。然后,电子设备可按照第一文本位置和第二文本位置对各第一局部音频和各第二局部音频进行排序,并将排序后的各局部音频拼接起来,生成第二章节音频。82.在一些实施例中,s260包括:基于位置映射关系和第二文本位置,确定第二局部文本在第二章节文本中的第三文本位置,并建立第三文本位置和第二局部音频之间的对应关系;基于第一文本位置和第一局部音频之间的对应关系、以及第三文本位置和第二局部音频之间的对应关系,确定第一局部音频和第二局部音频的音频排序;基于音频排序,拼接第一局部音频和第二局部音频,生成第二章节音频。83.其中,位置映射关系中记录第二局部文本在第一章节文本中的排列位置与第二局部文本在第二章节文本中的排列位置之间的对应关系。84.具体地,根据上述说明,第一文本位置是局部文本在第二章节文本中的排列位置,第二文本位置是局部文本在第一章节文本中的排列位置,但第一章节文本和第二章节文本因发生了文本变更而存在文本位置不一致的情况。所以,为了确保后续局部音频的正确排序,可将第一文本位置和第二文本位置转换至同一章节文本中的排列位置。鉴于第二章节文本是变更之后的章节文本,本实施例中可将第二文本位置转换为第二章节文本中的排列位置。具体实施时,电子设备根据各第二文本位置查询位置映射关系,得到每个第二文本位置对应的、第二章节文本中的排列位置,即第三文本位置。并且,基于上述第二文本位置和第二局部音频之间的对应关系,可建立第三文本位置和第二局部音频之间的对应关系。这样,第二章节文本中的每个第一局部文本对应有第一文本位置和第一局部音频,且第二章节文本中相同的每个第二局部文本对应有第三文本位置和第二局部音频。85.然后,电子设备可根据第一文本位置和第三文本位置之间的排列顺序关系,将第一文本位置对应的第一局部音频和第三文本位置对应的第二局部音频进行按序排列,得到音频排序与第二章节文本中的各第四局部文本的文本排序一致的局部音频序列。之后,电子设备顺序拼接局部音频序列中的各第一局部音频和各第二局部音频,生成第二章节音频。86.本公开实施例提供的上述文本转换音频的方法,一方面,能够获取第一章节文本和第二章节文本,并基于预设文本单位,比较第一章节文本和第二章节文本,确定第一局部文本和第一文本位置;减少了音频转换功能与文本编辑功能之间的耦合,从而提高了文本转换音频的独立性,进而提高了本公开实施例提供的文本转换音频的方法的普适性。另一方面,能够基于第二文本位置,从第一章节音频中确定第二局部文本对应的第二局部音频,并基于第一文本位置和第二文本位置,拼接第一局部音频和第二局部音频,生成第二章节音频;实现了按照文本转换音频的通用处理流程来生成文本变更后的第二章节音频,既可减少删除类型的变更文本及其对应局部音频的处理流程,以进一步提高文本转换音频的效率,又能进一步提高文本转换音频的方法的普适性。87.以下是本发明实施例提供的文本转换音频的装置的实施例,该装置与上述各实施例的文本转换音频的方法属于同一个发明构思,在文本转换音频的装置的实施例中未详尽描述的细节内容,可以参考上述文本转换音频的方法的实施例。88.图3示出了本公开实施例提供的一种文本转换音频的装置的结构示意图。如图3所示,该文本转换音频的装置300可以包括:89.第一文本位置确定模块310,用于若检测到目标章节发生文本变更,则基于预设文本单位,确定第一章节文本相对于第二章节文本发生文本变更的第一局部文本和第一局部文本的第一文本位置;其中,预设文本单位小于一个章节,第一章节文本为目标章节发生文本变更之后的章节文本,第二章节文本为目标章节发生文本变更之前的章节文本;90.第一局部音频生成模块320,用于对第一局部文本进行音频转换处理,生成第一局部音频;91.第二章节音频生成模块330,用于基于第一文本位置、第一局部音频和第一章节音频,生成目标章节发生文本变更之后的第二章节音频;其中,第一章节音频为目标章节发生文本变更之前的章节音频。92.本公开实施例提供的上述文本转换音频的装置,在检测到目标章节发生文本变更的情况下,基于小于一个章节的预设文本单位,确定文本变更之后的第一章节文本相对于文本变更之前的第二章节文本发生文本变更的第一局部文本和第一局部文本的第一文本位置,并对第一局部文本进行音频转换处理,生成第一局部音频,且基于第一文本位置、第一局部音频和目标章节发生文本变更之前的第一章节音频,生成目标章节发生文本变更之后的第二章节音频;实现了在文本变更的情况下,仅对发生文本变更的第一局部文本进行音频重新转换处理,省去了未发生文本变更的局部文本的音频重复转换过程,从而缩短了音频重新转换的文本长度,节省了电子书籍的音频生成过程中的时间成本和资源成本,提高了文本转换音频的效率。93.在一些实施例中,第一文本位置确定模块310包括:94.章节文本获取子模块,用于获取第一章节文本和第二章节文本;95.第一文本位置确定子模块,用于基于预设文本单位,比较第一章节文本和第二章节文本,确定第一局部文本和第一文本位置。96.进一步地,第一文本位置确定子模块具体用于:97.按照预设文本单位,将第一章节文本分解为多个第三局部文本,并将第二章节文本分解为多个第四局部文本;98.针对每个第三局部文本,将第三局部文本与各第四局部文本进行匹配,并在匹配失败的情况下,将第三局部文本确定为第一局部文本,且将第三局部文本在第一章节文本中的排列位置确定为第一文本位置。99.在一些实施例中,文本转换音频的装置300还包括第二文本位置确定模块,用于:100.在基于第一文本位置、第一局部音频和第一章节音频,生成目标章节发生文本变更之后的第二章节音频之前,基于预设文本单位,确定第一章节文本相对于第二章节文本未发生文本变更的第二局部文本和第二局部文本在第二章节文本中的第二文本位置;101.相应地,第二章节音频生成模块330包括:102.第二局部音频确定子模块,用于基于第二文本位置,从第一章节音频中确定第二局部文本对应的第二局部音频;103.第二章节音频生成子模块,用于基于第一文本位置和第二文本位置,拼接第一局部音频和第二局部音频,生成第二章节音频。104.在一些实施例中,第二章节音频生成子模块具体用于:105.基于位置映射关系和第二文本位置,确定第二局部文本在第一章节文本中的第三文本位置,并建立第三文本位置和第二局部音频之间的对应关系;其中,位置映射关系中记录第二局部文本在第一章节文本中的排列位置与第二局部文本在第二章节文本中的排列位置之间的对应关系;106.基于第一文本位置和第一局部音频之间的对应关系、以及第三文本位置和第二局部音频之间的对应关系,确定第一局部音频和第二局部音频的音频排序;107.基于音频排序,拼接第一局部音频和第二局部音频,生成第二章节音频。108.在一些实施例中,第二局部音频确定子模块具体用于:109.若第一章节音频为有损音频格式,则将第一章节音频转换为无损音频格式,生成第三章节音频;其中,有损音频格式为经过音频编码处理和/或音频压缩处理的音频格式;无损音频格式是未经过音频编码处理和音频压缩处理的音频格式;110.基于第二文本位置对应的音频起始时刻,对第三章节音频进行局部音频提取,得到第二局部音频;其中,音频起始时刻为生成第三章节音频的过程中、按照预设文本单位记录的起始时刻。111.在一些实施例中,文本变更长度预设文本单位基于文本变更长度和/或文本单位取值范围确定。112.进一步地,预设文本单位为一个句子。113.本发明实施例所提供的文本转换音频的装置可执行本发明任意实施例所提供的文本转换音频的方法,具备执行方法相应的功能模块和有益效果。114.值得注意的是,上述文本转换音频的装置的实施例中,所包括的各个模块、子模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块/子模块的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。115.本公开实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器,存储器可以用于存储可执行指令。其中,处理器可以用于从存储器中读取可执行指令,并执行可执行指令以实现上述任意实施例中所说明的文本转换音频的方法。116.图4示出了本公开实施例提供的一种电子设备的结构示意图。117.如图4所示,该电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(rom)402中的程序或者从存储装置408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram403中,还存储有信息处理设备400操作所需的各种程序和数据。处理装置401、rom402以及ram403通过总线404彼此相连。输入/输出接口(i/o接口)405也连接至总线404。118.通常,以下装置可以连接至i/o接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。119.需要说明的是,图4示出的电子设备400仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。即虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。120.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从rom402被安装。在该计算机程序被处理装置401执行时,执行本公开任意实施例的文本转换音频的方法中限定的上述功能。121.本公开实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开任意实施例中的文本转换音频的方法。122.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。123.在一些实施方式中,客户端、服务器可以利用诸如http之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,adhoc端对端网络),以及任何当前已知或未来研发的网络。124.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。125.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行本公开任意实施例所说明的文本转换音频的方法的步骤。126.在本公开实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。127.附图中的流程图和框图,图示了按照本公开各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。128.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。129.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。130.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。131.此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。132.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。当前第1页12当前第1页12

技术特征:


1.一种文本转换音频的方法,其特征在于,包括:若检测到目标章节发生文本变更,则基于预设文本单位,确定第一章节文本相对于第二章节文本发生文本变更的第一局部文本和所述第一局部文本的第一文本位置;其中,所述预设文本单位小于一个章节,所述第一章节文本为所述目标章节发生文本变更之后的章节文本,所述第二章节文本为所述目标章节发生文本变更之前的章节文本;对所述第一局部文本进行音频转换处理,生成第一局部音频;基于所述第一文本位置、所述第一局部音频和第一章节音频,生成所述目标章节发生文本变更之后的第二章节音频;其中,所述第一章节音频为所述目标章节发生文本变更之前的章节音频。2.根据权利要求1所述的方法,其特征在于,所述基于预设文本单位,确定第一章节文本相对于第二章节文本发生文本变更的第一局部文本和所述第一局部文本的第一文本位置包括:获取所述第一章节文本和所述第二章节文本;基于所述预设文本单位,比较所述第一章节文本和所述第二章节文本,确定所述第一局部文本和所述第一文本位置。3.根据权利要求2所述的方法,其特征在于,所述基于所述预设文本单位,比较所述第一章节文本和所述第二章节文本,确定所述第一局部文本和所述第一文本位置包括:按照所述预设文本单位,将所述第一章节文本分解为多个第三局部文本,并将所述第二章节文本分解为多个第四局部文本;针对每个所述第三局部文本,将所述第三局部文本与各所述第四局部文本进行匹配,并在匹配失败的情况下,将所述第三局部文本确定为所述第一局部文本,且将所述第三局部文本在所述第一章节文本中的排列位置确定为所述第一文本位置。4.根据权利要求1至3任一项所述的方法,其特征在于,在所述基于所述第一文本位置、所述第一局部音频和第一章节音频,生成所述目标章节发生文本变更之后的第二章节音频之前,所述方法还包括:基于所述预设文本单位,确定所述第一章节文本相对于所述第二章节文本未发生文本变更的第二局部文本和所述第二局部文本在所述第二章节文本中的第二文本位置;所述基于所述第一文本位置、所述第一局部音频和第一章节音频,生成所述目标章节发生文本变更之后的第二章节音频包括:基于所述第二文本位置,从所述第一章节音频中确定所述第二局部文本对应的第二局部音频;基于所述第一文本位置和所述第二文本位置,拼接所述第一局部音频和所述第二局部音频,生成所述第二章节音频。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一文本位置和所述第二文本位置,拼接所述第一局部音频和所述第二局部音频,生成所述第二章节音频包括:基于位置映射关系和所述第二文本位置,确定所述第二局部文本在第一章节文本中的第三文本位置,并建立所述第三文本位置和所述第二局部音频之间的对应关系;其中,所述位置映射关系中记录所述第二局部文本在所述第一章节文本中的排列位置与所述第二局部文本在所述第二章节文本中的排列位置之间的对应关系;
基于所述第一文本位置和所述第一局部音频之间的对应关系、以及所述第三文本位置和所述第二局部音频之间的对应关系,确定所述第一局部音频和所述第二局部音频的音频排序;基于所述音频排序,拼接所述第一局部音频和所述第二局部音频,生成所述第二章节音频。6.根据权利要求4所述的方法,其特征在于,所述基于所述第二文本位置,从所述第一章节音频中确定所述第二局部文本对应的第二局部音频包括:若所述第一章节音频为有损音频格式,则将所述第一章节音频转换为无损音频格式,生成第三章节音频;其中,所述有损音频格式为经过音频编码处理和/或音频压缩处理的音频格式;所述无损音频格式是未经过所述音频编码处理和所述音频压缩处理的音频格式;基于所述第二文本位置对应的音频起始时刻,对所述第三章节音频进行局部音频提取,得到所述第二局部音频;其中,所述音频起始时刻为生成所述第三章节音频的过程中、按照所述预设文本单位记录的起始时刻。7.根据权利要求1所述的方法,其特征在于,文本变更长度所述预设文本单位基于文本变更长度和/或文本单位取值范围确定。8.根据权利要求7所述的方法,其特征在于,所述预设文本单位为一个句子。9.一种文本转换音频的装置,其特征在于,包括:第一文本位置确定模块,用于若检测到目标章节发生文本变更,则基于预设文本单位,确定第一章节文本相对于第二章节文本发生文本变更的第一局部文本和所述第一局部文本的第一文本位置;其中,所述预设文本单位小于一个章节,所述第一章节文本为所述目标章节发生文本变更之后的章节文本,所述第二章节文本为所述目标章节发生文本变更之前的章节文本;第一局部音频生成模块,用于对所述第一局部文本进行音频转换处理,生成第一局部音频;第二章节音频生成模块,用于基于所述第一文本位置、所述第一局部音频和第一章节音频,生成所述目标章节发生文本变更之后的第二章节音频;其中,所述第一章节音频为所述目标章节发生文本变更之前的章节音频。10.一种电子设备,其特征在于,包括:处理器;存储器,用于存储可执行指令;其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述权利要求1-8中任一项所述的文本转换音频的方法。11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现上述权利要求1-8中任一项所述的文本转换音频的方法。

技术总结


本公开涉及一种文本转换音频的方法、装置、设备和介质。该方法包括:若检测到目标章节发生文本变更,则基于小于一个章节的预设文本单位,确定变更之后的第一章节文本相对于变更之前的第二章节文本发生文本变更的第一局部文本和第一局部文本的第一文本位置;对第一局部文本进行音频转换处理,生成第一局部音频;基于第一文本位置、第一局部音频和变更之前的第一章节音频,生成变更之后的第二章节音频。根据本公开实施例,仅对发生文本变更的第一局部文本进行音频重新转换处理,缩短了音频重新转换的文本长度,节省了电子书籍的音频生成过程中的时间成本和资源成本,提高了文本转换音频的效率。频的效率。频的效率。


技术研发人员:

熊佳新

受保护的技术使用者:

抖音视界(北京)有限公司

技术研发日:

2022.06.14

技术公布日:

2022/9/13


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-27242-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-09 18:33:42

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论