討論 | 健行科技大學eclass易課平台

M11333012

在使用 OpenAI 的 Whisper 模型進行語音轉錄時，除了 result['text'] 外，結果還包含以下兩個主要的 key：

1. segments: 這是一個包含多個段落（segments）的列表，每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於：

result['segments'] = [

{'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...},

...

]

2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串，例如 "en" 代表英文，"zh" 代表中文。

總結起來，result 包含：

• text: 完整的轉錄文本

• segments: 每段音訊的具體轉錄片段及其時間資訊

• language: 偵測到的語言

2024-10-23 2 樓

B11033101

1. `text`：轉錄的文本內容。
2. `language`：自動識別的語言。
3. `segments`：包含音頻段落的詳細資訊，如每段的開始和結束時間、文本等。

2024-10-23 3 樓

b11033041

在使用 Whisper 模型進行音頻轉錄後，result 除了 result['text'] 外，通常還包含以下兩個 key：

result['segments']：這是一個列表，包含了每個識別的段落信息，如開始時間、結束時間和對應的文本。

result['language']：這表示模型識別出的語言。

這些信息可以幫助你更詳細地分析轉錄結果

2024-10-23 4 樓

M11333003

在使用 OpenAI 的 Whisper 模型進行語音轉錄時，除了 result['text'] 外，結果還包含以下兩個主要的 key：

1. segments: 這是一個包含多個段落（segments）的列表，每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於：

result['segments'] = [
{'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...},
...
]

2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串，例如 "en" 代表英文，"zh" 代表中文。

總結起來，result 包含：

• text: 完整的轉錄文本
• segments: 每段音訊的具體轉錄片段及其時間資訊
• language: 偵測到的語言

2024-10-23 5 樓

B11033056

result['segments']：包含多個片段的詳細資訊列表。

result['language']：語音識別中所判定的語言。

2024-10-23 6 樓

M11333001

result['segments'] 和 result['language']

2024-10-23 7 樓

M11333006

segments與language加上 text，構成了完整的轉錄結果。

2024-10-24 8 樓

M11333003

1. `text`：轉錄的文本內容。
2. `language`：自動識別的語言。
3. `segments`：包含音頻段落的詳細資訊，如每段的開始和結束時間、文本等。

2024-10-30 9 樓