语音设计 #

概述 #

语音设计（Voice Design）是 ElevenLabs 的一项创新功能，允许你通过 AI 生成全新的语音，无需任何音频样本。

text

┌─────────────────────────────────────────────────────────────┐
│                    语音设计流程                              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   参数设置 ───> AI 生成 ───> 预览试听 ───> 保存使用        │
│                                                             │
│   ┌─────────┐   ┌─────────┐   ┌─────────┐   ┌─────────┐   │
│   │ 性别/年龄 │ → │ AI 模型  │ → │ 音频预览 │ → │ 自定义语音│   │
│   └─────────┘   └─────────┘   └─────────┘   └─────────┘   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

设计参数 #

性别 (Gender) #

text

┌─────────────────────────────────────────────────────────────┐
│                    性别选项                                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  male (男性)：                                               │
│  ├── 低沉的音色                                             │
│  ├── 适合专业、权威场景                                     │
│  └── 示例：新闻播报、纪录片                                 │
│                                                             │
│  female (女性)：                                             │
│  ├── 较高的音色                                             │
│  ├── 适合温暖、友好场景                                     │
│  └── 示例：有声书、客服                                     │
│                                                             │
└─────────────────────────────────────────────────────────────┘

年龄 (Age) #

text

┌─────────────────────────────────────────────────────────────┐
│                    年龄选项                                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  young (年轻)：                                              │
│  ├── 充满活力                                               │
│  ├── 适合游戏、动画                                         │
│  └── 音色明亮                                               │
│                                                             │
│  middle_aged (中年)：                                        │
│  ├── 成熟稳重                                               │
│  ├── 适合专业场景                                           │
│  └── 音色均衡                                               │
│                                                             │
│  old (老年)：                                                │
│  ├── 沉稳有经验                                             │
│  ├── 适合叙述、故事                                         │
│  └── 音色深沉                                               │
│                                                             │
└─────────────────────────────────────────────────────────────┘

口音 (Accent) #

text

┌─────────────────────────────────────────────────────────────┐
│                    口音选项                                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  英语口音：                                                  │
│  ├── american - 美式英语                                    │
│  ├── british - 英式英语                                     │
│  ├── australian - 澳大利亚英语                              │
│  ├── indian - 印度英语                                      │
│  └── irish - 爱尔兰英语                                     │
│                                                             │
│  其他语言：                                                  │
│  ├── 支持多语言语音生成                                     │
│  └── 根据目标语言选择                                       │
│                                                             │
└─────────────────────────────────────────────────────────────┘

口音强度 (Accent Strength) #

text

口音强度：0.0 - 1.0

0.0 ─── 无口音/中性
      └── 适合国际化内容
      
0.5 ─── 中等口音
      └── 平衡自然度和特色
      
1.0 ─── 强烈口音
      └── 适合特定地区内容

使用方法 #

Web 界面 #

text

步骤：
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│  1. 登录 ElevenLabs                                         │
│  2. 进入 "Voices" 页面                                      │
│  3. 点击 "Add Voice"                                        │
│  4. 选择 "Voice Design"                                     │
│                                                             │
│  5. 设置参数：                                               │
│     ├── 选择性别                                            │
│     ├── 选择年龄                                            │
│     ├── 选择口音                                            │
│     └── 调整口音强度                                        │
│                                                             │
│  6. 点击 "Generate" 生成预览                                │
│  7. 试听并调整参数                                          │
│  8. 满意后保存语音                                          │
│                                                             │
└─────────────────────────────────────────────────────────────┘

API 使用 #

python

from elevenlabs import ElevenLabs

client = ElevenLabs(api_key="your_api_key")

# 生成新语音
voice = client.voices.generate(
    name="Custom Female Voice",
    gender="female",
    age="young",
    accent="american",
    accent_strength=0.5
)

print(f"Voice ID: {voice.voice_id}")
print(f"Voice Name: {voice.name}")

生成多个变体 #

python

def generate_voice_variants(client, base_params, count=5):
    voices = []
    
    for i in range(count):
        voice = client.voices.generate(
            name=f"Variant {i+1}",
            **base_params
        )
        voices.append(voice)
    
    return voices

# 使用示例
base_params = {
    "gender": "female",
    "age": "middle_aged",
    "accent": "american",
    "accent_strength": 0.5
}

variants = generate_voice_variants(client, base_params)

设计技巧 #

场景化设计 #

text

┌─────────────────────────────────────────────────────────────┐
│                    场景推荐设置                              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  有声书旁白：                                                │
│  ├── 性别：根据内容选择                                     │
│  ├── 年龄：middle_aged                                      │
│  ├── 口音：根据目标受众                                     │
│  └── 强度：0.3-0.5                                          │
│                                                             │
│  游戏角色：                                                  │
│  ├── 性别：根据角色                                         │
│  ├── 年龄：young 或 middle_aged                             │
│  ├── 口音：根据角色背景                                     │
│  └── 强度：0.5-0.8                                          │
│                                                             │
│  客服助手：                                                  │
│  ├── 性别：female（更友好）                                 │
│  ├── 年龄：middle_aged                                      │
│  ├── 口音：根据服务区域                                     │
│  └── 强度：0.2-0.4                                          │
│                                                             │
│  教育内容：                                                  │
│  ├── 性别：任意                                             │
│  ├── 年龄：middle_aged                                      │
│  ├── 口音：清晰标准                                         │
│  └── 强度：0.2-0.3                                          │
│                                                             │
└─────────────────────────────────────────────────────────────┘

优化建议 #

text

设计优化：
├── 多次生成选择最佳
├── 微调参数获得理想效果
├── 结合语音设置进一步调整
└── 保存多个版本对比

使用设计语音 #

生成音频 #

python

# 使用设计语音生成音频
audio = client.text_to_speech.convert(
    text="这是使用设计语音生成的音频。",
    voice_id="your_designed_voice_id",
    model_id="eleven_multilingual_v2"
)

with open("output.mp3", "wb") as f:
    for chunk in audio:
        f.write(chunk)

调整语音设置 #

python

# 设计语音也可以调整语音设置
audio = client.text_to_speech.convert(
    text="调整后的语音效果。",
    voice_id="your_designed_voice_id",
    model_id="eleven_multilingual_v2",
    voice_settings={
        "stability": 0.5,
        "similarity_boost": 0.75,
        "style": 0.3
    }
)

限制和注意事项 #

text

┌─────────────────────────────────────────────────────────────┐
│                    限制说明                                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  计划限制：                                                  │
│  ├── Free：基础语音设计                                     │
│  ├── Starter：完整语音设计                                  │
│  └── Creator+：高级语音设计                                 │
│                                                             │
│  语音数量：                                                  │
│  └── 受计划自定义语音数量限制                               │
│                                                             │
│  质量注意：                                                  │
│  ├── 某些参数组合效果可能不稳定                             │
│  ├── 建议多次生成选择最佳                                   │
│  └── 可配合语音克隆获得更好效果                             │
│                                                             │
└─────────────────────────────────────────────────────────────┘

下一步 #

语音克隆 - 创建更精确的自定义语音
文本转语音 - 使用语音生成音频
语音库 - 探索预置语音