M11333012
在使用 OpenAI 的 Whisper 模型進行語音轉錄時,除了 result['text'] 外,結果還包含以下兩個主要的 key:
1. segments: 這是一個包含多個段落(segments)的列表,每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於:
result['segments'] = [
{'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...},
...
]
2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串,例如 "en" 代表英文,"zh" 代表中文。
總結起來,result 包含:
• text: 完整的轉錄文本
• segments: 每段音訊的具體轉錄片段及其時間資訊
• language: 偵測到的語言