whisper超好用---Google Colab python cuda語音辨識程式產生字幕檔(1023) - 機器學習研討 | 健行科技大學eclass易課平台

返回課程

發表時間 : 2024-10-22 22:57

觀看次數 : 323

原始資料來自 : https://www.youtube.com/embed/-tHsJZtAPPc?si=jzVGYNFgNwbz4UWu

討論功能僅開放給課程成員，請先加入課程

最新的回應 ...more

2024-10-30

M11333003 : 1. `text`：轉錄的文本內容。 2. `language`：自動識別的語言。 3. `segments`：包含音頻段落的詳細資訊，如每段的開始和結束時間、文本等。

2024-10-24

M11333006 : segments與language加上 text，構成了完整的轉錄結果。

2024-10-23

M11333001 : result['segments'] 和 result['language']

2024-10-23

B11033056 : result['segments']：包含多個片段的詳細資訊列表。 result['language']：語音識別中所判定的語言。

2024-10-23

M11333003 : 在使用 OpenAI 的 Whisper 模型進行語音轉錄時，除了 result['text'] 外，結果還包含以下兩個主要的 key： 1. segments: 這是一個包含多個段落（segments）的列表，每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於： result['segments'] = [ {'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...}, ... ] 2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串，例如 "en" 代表英文，"zh" 代表中文。總結起來，result 包含： • text: 完整的轉錄文本 • segments: 每段音訊的具體轉錄片段及其時間資訊 • language: 偵測到的語言

安文

請問whisper辨識後，
result = model.transcribe("segment_1.mp3")
除了result['text']之外，result還有另外哪兩個key

2024-10-22 1 樓

顯示先前的回應8 則當中的 3 則

M11333001

result['segments'] 和 result['language']

2024-10-23 7 樓

M11333006

segments與language加上 text，構成了完整的轉錄結果。

2024-10-24 8 樓

M11333003

1. `text`：轉錄的文本內容。
2. `language`：自動識別的語言。
3. `segments`：包含音頻段落的詳細資訊，如每段的開始和結束時間、文本等。

2024-10-30 9 樓

筆記功能僅開放給課程成員，請先加入課程

openAI whisper large v3 python轉VTT字幕

openai-whisper超好用