登入首頁
收藏 0
返回課程
whisper超好用---Google Colab python cuda語音辨識程式產生字幕檔(1023)
  • 機器學習研討
  • 機器學習簡介
  • 登錄後請說hello
  • AI軟體mediapipe簡介與demo操作
  • copilot詢問python雲端開發平台Google colab並實作
  • tensorflow-gpu keras ML python套件軟體安裝說明
  • 機器學習911課程 課程說明
  • 生物視覺&機器視覺
  • 分組
  • AI_ML生物視覺機器視覺
  • 生物視覺 機器視覺1
  • 機器視覺 與haarcascades偵測人臉與眼睛(918)
  • python雲端開發平台Google colab
  • ex1 請在google colab上完成一簡易python code
  • 機器學習918 google colab 實作python
  • 機器視覺ILSVRC競賽之後
  • tensorflow playground(925)
  • activation函數&自然語言處理
  • 自然語言處理 Natural language Processing簡介
  • 自然語言處理 Natural language Processing
  • 機器學習925tensorflow ground與自然語言處理Word2viz
  • 自然語言處理 Natural language Processing 字詞量化
  • ML常用的activation函數初探與pyplot繪圖(1009)
  • [1009]小測驗
  • 機器學習1007激活函數python作業測驗檢討
  • openAI-whisper
  • openai whisper在huggingface的試用與在colab上的使用(1016)
  • 問whisper於chatGPT
  • openai_whisper_ex0.ipynb
  • 免費版Openai-whisper超好用---簡介與python語音前置處理
  • 機器學習1016 whisper課堂簡介
  • openAI whisper large v3 python轉VTT字幕
  • whisper超好用---Google Colab python cuda語音辨識程式產生字幕檔(1023)
  • openai-whisper超好用
  • whisper辨識與ffmpeg切割影音與調整字幕之一
  • whisper辨識與ffmpeg切割影音與調整字幕之二colab實測
  • ex2 openai-whisper試用
  • 藝術生成 & 對抗生成式網路GAN與其他......
  • 藝術生成---對抗式生成網路GAN 與dall-e whichfaceisreal操作(1030)
  • 藝術生成 對抗式生成網路GAN與賽局理論 cycleGan等
  • 藝術生成GAN pdf
  • Hugging Face的ai網站體驗(1106)
  • GAN家族 cGAN, styleGAN與Image Translation with pix2pix-tensorflow(1113)
  • 對抗式生成式AI GAN與相關軟體操作(穿插Stable diffusion)
  • Stable diffusion簡介與實作
  • 藝術生成 Stable Diffusion與Denoising Diffusion Model(1120)
  • 藝術生成_dall-e與_stable_Diffusion
  • ai產生影片stable video diffusion 在google colab上python實作
  • ipython code: stable_diffusion_3_with _kerasHub.ipynb
  • AI機器學習與Stable Diffusion操作
  • AI機器學習與Stable Diffusion 3 in KerasHub在免費Colab上實作
  • ex3 AI圖藝術生成
  • Keras實作神經網路模型---手寫數字辨識
  • Keras實作神經網路模型之1 mnist手寫數字
  • Keras實作神經網路模型之2 mnist手寫數字辨識(1127)
  • AI機器學習Keras淺層神經網路辨識mnist手寫數字
  • Keras實作神經網路模型
  • 神經網路模型之一 從感知器到神經網路
  • 神經網路模型之2 單一神經元python numpy計算
  • 多神經網路模型
  • 多層神經網路Keras python實作練習(1204)
  • 多層神經網路模型v2
  • 神經網路模型
  • Keras多層神經網路辨識手寫數字mnist實作V3
  • CNN卷積神經網路
  • Keras實作CNN辨識mnist手寫數字
  • CNN卷積神經網路(1211)
  • Loss函數 cross entropy 梯度下降
  • Loss函數、梯度下降、batch size etc
  • 機器學習CNN卷積計算辨識mnist手寫數字
  • 進階CNN
  • Keras仿AlexNet訓練辨識tflearn花朵資料集oxflower17(1218)
  • 進階CNN
  • 2024 CNN模型仿AlexNet.ipynb
  • 2024 Keras跑仿AlexNet辨識oxflower17處理在Colab上的諸多坑
  • 進階CNN技巧實作仿AlexNet訓練辨識oxflower17達97趴辨識率(1225)
  • python Keras如何使用仿AlexNet針對oxflower達到99趴以上的辨識率之一
  • python Keras使用仿AlexNet針對oxflower達到100趴的辨識率實測
  • 期末報告
  • 期末作業
  • 重點
  • 討論 (1)
  • 共享筆記 (1)
  • 筆記
發表時間 : 2024-10-22 22:57
觀看次數 : 221
原始資料來自 : https://www.youtube.com/embed/-tHsJZtAPPc?si=jzVGYNFgNwbz4UWu
附件
討論功能僅開放給課程成員,請先加入課程
最新的回應 ...more
2024-10-30
M11333003 : 1. `text`:轉錄的文本內容。 2. `language`:自動識別的語言。 3. `segments`:包含音頻段落的詳細資訊,如每段的開始和結束時間、文本等。
2024-10-24
M11333006 : segments與language加上 text,構成了完整的轉錄結果。
2024-10-23
M11333001 : result['segments'] 和 result['language'] 
2024-10-23
B11033056 : result['segments']:包含多個片段的詳細資訊列表。 result['language']:語音識別中所判定的語言。
2024-10-23
M11333003 : 在使用 OpenAI 的 Whisper 模型進行語音轉錄時,除了 result['text'] 外,結果還包含以下兩個主要的 key:  1. segments: 這是一個包含多個段落(segments)的列表,每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於: result['segments'] = [     {'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...},     ... ]  2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串,例如 "en" 代表英文,"zh" 代表中文。 總結起來,result 包含:  • text: 完整的轉錄文本  • segments: 每段音訊的具體轉錄片段及其時間資訊  • language: 偵測到的語言
安文
請問whisper辨識後,
result = model.transcribe("segment_1.mp3")
除了result['text']之外,result還有另外哪兩個key
2024-10-22 1 樓
顯示先前的回應8 則當中的 3 則
M11333012
在使用 OpenAI 的 Whisper 模型進行語音轉錄時,除了 result['text'] 外,結果還包含以下兩個主要的 key:
 
    1.    segments: 這是一個包含多個段落(segments)的列表,每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於:
 
result['segments'] = [
    {'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...},
    ...
]
 
 
    2.    language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串,例如 "en" 代表英文,"zh" 代表中文。
 
總結起來,result 包含:
 
    •    text: 完整的轉錄文本
    •    segments: 每段音訊的具體轉錄片段及其時間資訊
    •    language: 偵測到的語言
2024-10-23 2 樓
B11033101
1. `text`:轉錄的文本內容。
2. `language`:自動識別的語言。
3. `segments`:包含音頻段落的詳細資訊,如每段的開始和結束時間、文本等。
2024-10-23 3 樓
b11033041
在使用 Whisper 模型進行音頻轉錄後,result 除了 result['text'] 外,通常還包含以下兩個 key:

result['segments']:這是一個列表,包含了每個識別的段落信息,如開始時間、結束時間和對應的文本。

result['language']:這表示模型識別出的語言。

這些信息可以幫助你更詳細地分析轉錄結果
2024-10-23 4 樓
M11333003
在使用 OpenAI 的 Whisper 模型進行語音轉錄時,除了 result['text'] 外,結果還包含以下兩個主要的 key:
 1. segments: 這是一個包含多個段落(segments)的列表,每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於:
result['segments'] = [
    {'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...},
    ...
]

 2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串,例如 "en" 代表英文,"zh" 代表中文。
總結起來,result 包含:
 • text: 完整的轉錄文本
 • segments: 每段音訊的具體轉錄片段及其時間資訊
 • language: 偵測到的語言
2024-10-23 5 樓
B11033056
result['segments']:包含多個片段的詳細資訊列表。

result['language']:語音識別中所判定的語言。
2024-10-23 6 樓
M11333001
result['segments'] 和 result['language'] 
2024-10-23 7 樓
M11333006
segments與language加上 text,構成了完整的轉錄結果。
2024-10-24 8 樓
M11333003
1. `text`:轉錄的文本內容。
2. `language`:自動識別的語言。
3. `segments`:包含音頻段落的詳細資訊,如每段的開始和結束時間、文本等。
2024-10-30 9 樓
筆記功能僅開放給課程成員,請先加入課程
Prev
openAI whisper large v3 python轉VTT字幕
Next
openai-whisper超好用