音频数据集1--LJSpeech单人语音

06-26 1465阅读

LJ Speech Dataset

版本号: 1.1 , 文件大小: 2.6GB

1.简介

1. 1 内容简介

LJS是一个语音数据集,包含 13,100 个音频片段,内容为Linda Johnson(欧美女性)朗读的 7 本书籍段落(非小说类)。每个片段都提供文本转录,片段长度从 1 到 10 秒不等,总长度约为 24 小时。

  • 7本书籍内容

    发表于 1884 年至 1964 年之间,内容如下:

    1. 莫里斯,威廉等人。《艺术与手工艺论文集》。1893 年。
      2.格里菲思,亚瑟。《纽盖特编年史》,第 2 卷。1884 年。
      3.罗斯福,富兰克林·D。《富兰克林·德拉诺·罗斯福的炉边闲谈》。1933-42 年。
      4.哈兰德,马里恩。《马里恩·哈兰德的初学者烹饪》。1893 年。
      5.罗尔特-惠勒,弗朗西斯。《科学 - 宇宙历史》,第 5 卷:生物学。1910 年。
      6.班克斯,埃德加·J。《古代世界七大奇迹》。1916 年。
      7.总统肯尼迪总统遇刺事件委员会。总统肯尼迪总统遇刺事件委员会报告。1964 年。
    
    • 数据集参数
      总片段数-Total Clips:  13,100
      不同单词数-Distinct Words: 13,821
      总单词数-Total Words:	225,715  # 单词总数量,重复出现也统计
      总字符数-Total Characters:	1,308,678
      总时长-Total Duration:	23:55:17
      平均片段时长-Mean Clip Duration:	6.57 sec
      最短片段时长-Min Clip Duration: 	1.11 sec
      最长片段时长-Max Clip Duration:	10.10 sec
      每片段的平均单词数-Mean Words per Clip:	17.23
      

      1.2 制作简介

      • 静音分段

        通过录音中的静音部分自动分段

        • 文本匹配语音内容

          通过质量保证检查 (Quality Assurance Pass)来保证文本的准确性。

          • 比特率:128kbps

            数据来原LibriVox的格式为MP3,数据有伪影

            伪影 (artifacts) 是指在音频文件的压缩和解压缩过程中,由于丢失特征造成的音频失真或不自然效果

            • 脉冲编码调制(Pulse Code Modulation,PCM):

              用于模拟信号转换为数字信号

              采样率: 每秒钟采样的次数(例如44.1 kHz)。
              位深度: 每个样本使用的比特数(例如16位)。
              声道数: 音频的声道数(例如立体声是2个声道)。
              

              比特率 (bps)=采样率×位深度×声道数

              对于CD质量的音频(44.1 kHz, 16位, 立体声):

              44 , 100 H z × 16 b i t s × 2 c h a n n e l s = 1 , 411 , 200 b p s = 1 , 411.2 k b p s 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps 44,100Hz×16bits×2channels=1,411,200bps=1,411.2kbps

              由于MP3是有损压缩格式,通过去除部分音频信息以压缩数据达到较低的比特率,即本数据的128 kbps。

              2.音频文件

              • 音频片段位于 wavs文件夹

                单个音频文件命名从 LJ001-0001 到 LJ050-0278

                代表有50个段落(章节),每个章节有约 200-300个片段

                例如,050章有278个片段

                • 音频可视化

                  050章的前30个片段可视化:

                  分别是 时域、频域、频谱(y轴log)、mel谱

                  音频数据集1--LJSpeech单人语音

                  3.标注文件

                  • 文本标注位于 metadata.csv 文件。

                    其中 19 个转录本包含非 ASCII 字符(例如,LJ016-0257 包含“raison d’être”)

                    样例如下:

                    第一段音频 LJ001-0001 (10s):
                    	> Printing in the only sense with which we are at present concerned differs from most if not from all the arts and crafts represented in the Exhibition
                    第二段音频 LJ001-0002 (2s):
                    	> in being comparatively modern.|in being comparatively modern.
                    第三段音频 LJ001-0003 (9s):
                    	> For although the Chinese took impressions from wood blocks engraved in relief for centuries before the woodcutters of the Netherlands  by a similar process
                    
                    • 2次标注

                      音频的标注文本有2个版本,第1个数字是用阿拉伯字符标记,第2个数字是用英文单词标记,2个标注文本通过字符 ‘|’ 分割。

                      举几个言例:

                      LJ001-0008|has never been surpassed.|has never been surpassed.
                      LJ001-0045|1469, 1470;|fourteen sixty-nine, fourteen seventy;
                      LJ002-0035|8. The press yard.|eight. The press yard.
                      
                      • 缩写

                        部分标注单词为缩写(Abbreviation), 其展开(Expansion)后对照如下:

                        Mr.	Mister
                        Mrs.	Misess (*)
                        Dr.	Doctor
                        No.	Number
                        St.	Saint
                        Co.	Company
                        Jr.	Junior
                        Maj.	Major
                        Gen.	General
                        Drs.	Doctors
                        Rev.	Reverend
                        Lt.	Lieutenant
                        Hon.	Honorable
                        Sgt.	Sergeant
                        Capt.	Captain
                        Esq.	Esquire
                        Ltd.	Limited
                        Col.	Colonel
                        Ft.	Fort
                        

                        4. Pytorch处理

                        HiFiGAN中处理如下

                        将文本标注**“metadata.csv“**的文件转为txt格式,并拆分为:

                        • 训练集标注”training.txt”

                          12950个判断

                          • 验证集标注”validation.txt”

                            150个片段

                            Reference

                            • 文中图片代码

                            • https://keithito.com/LJ-Speech-Dataset/

                            • https://github.com/keithito/tacotron

VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]