登入
首頁
收藏
0
返回課程
whisper超好用---Google Colab python cuda語音辨識程式產生字幕檔(1023)
機器學習研討
機器學習簡介
登錄後請說hello
AI軟體mediapipe簡介與demo操作
copilot詢問python雲端開發平台Google colab並實作
tensorflow-gpu keras ML python套件軟體安裝說明
機器學習911課程 課程說明
生物視覺&機器視覺
分組
AI_ML生物視覺機器視覺
生物視覺 機器視覺1
機器視覺 與haarcascades偵測人臉與眼睛(918)
python雲端開發平台Google colab
ex1 請在google colab上完成一簡易python code
機器學習918 google colab 實作python
機器視覺ILSVRC競賽之後
tensorflow playground(925)
activation函數&自然語言處理
自然語言處理 Natural language Processing簡介
自然語言處理 Natural language Processing
機器學習925tensorflow ground與自然語言處理Word2viz
自然語言處理 Natural language Processing 字詞量化
ML常用的activation函數初探與pyplot繪圖(1009)
[1009]小測驗
機器學習1007激活函數python作業測驗檢討
openAI-whisper
openai whisper在huggingface的試用與在colab上的使用(1016)
問whisper於chatGPT
openai_whisper_ex0.ipynb
免費版Openai-whisper超好用---簡介與python語音前置處理
機器學習1016 whisper課堂簡介
openAI whisper large v3 python轉VTT字幕
whisper超好用---Google Colab python cuda語音辨識程式產生字幕檔(1023)
openai-whisper超好用
whisper辨識與ffmpeg切割影音與調整字幕之一
whisper辨識與ffmpeg切割影音與調整字幕之二colab實測
ex2 openai-whisper試用
藝術生成 & 對抗生成式網路GAN與其他......
藝術生成---對抗式生成網路GAN 與dall-e whichfaceisreal操作(1030)
藝術生成 對抗式生成網路GAN與賽局理論 cycleGan等
藝術生成GAN pdf
Hugging Face的ai網站體驗(1106)
GAN家族 cGAN, styleGAN與Image Translation with pix2pix-tensorflow(1113)
對抗式生成式AI GAN與相關軟體操作(穿插Stable diffusion)
Stable diffusion簡介與實作
藝術生成 Stable Diffusion與Denoising Diffusion Model(1120)
藝術生成_dall-e與_stable_Diffusion
ai產生影片stable video diffusion 在google colab上python實作
ipython code: stable_diffusion_3_with _kerasHub.ipynb
AI機器學習與Stable Diffusion操作
AI機器學習與Stable Diffusion 3 in KerasHub在免費Colab上實作
ex3 AI圖藝術生成
Keras實作神經網路模型---手寫數字辨識
Keras實作神經網路模型之1 mnist手寫數字
Keras實作神經網路模型之2 mnist手寫數字辨識(1127)
AI機器學習Keras淺層神經網路辨識mnist手寫數字
Keras實作神經網路模型
神經網路模型之一 從感知器到神經網路
神經網路模型之2 單一神經元python numpy計算
多神經網路模型
多層神經網路Keras python實作練習(1204)
多層神經網路模型v2
神經網路模型
Keras多層神經網路辨識手寫數字mnist實作V3
CNN卷積神經網路
Keras實作CNN辨識mnist手寫數字
CNN卷積神經網路(1211)
Loss函數 cross entropy 梯度下降
Loss函數、梯度下降、batch size etc
機器學習CNN卷積計算辨識mnist手寫數字
進階CNN
Keras仿AlexNet訓練辨識tflearn花朵資料集oxflower17(1218)
進階CNN
2024 CNN模型仿AlexNet.ipynb
2024 Keras跑仿AlexNet辨識oxflower17處理在Colab上的諸多坑
進階CNN技巧實作仿AlexNet訓練辨識oxflower17達97趴辨識率(1225)
python Keras如何使用仿AlexNet針對oxflower達到99趴以上的辨識率之一
python Keras使用仿AlexNet針對oxflower達到100趴的辨識率實測
期末報告
期末作業
重點
討論
(1)
共享筆記
(1)
筆記
發表時間 : 2024-10-22 22:57
觀看次數 : 70
原始資料來自 :
https://www.youtube.com/embed/-tHsJZtAPPc?si=jzVGYNFgNwbz4UWu
附件
討論功能僅開放給課程成員,請先加入課程
最新的回應
...more
2024-10-30
M11333003
:
1. `text`:轉錄的文本內容。 2. `language`:自動識別的語言。 3. `segments`:包含音頻段落的詳細資訊,如每段的開始和結束時間、文本等。
2024-10-24
M11333006
:
segments與language加上 text,構成了完整的轉錄結果。
2024-10-23
M11333001
:
result['segments'] 和 result['language']
2024-10-23
B11033056
:
result['segments']:包含多個片段的詳細資訊列表。 result['language']:語音識別中所判定的語言。
2024-10-23
M11333003
:
在使用 OpenAI 的 Whisper 模型進行語音轉錄時,除了 result['text'] 外,結果還包含以下兩個主要的 key: 1. segments: 這是一個包含多個段落(segments)的列表,每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於: result['segments'] = [ {'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...}, ... ] 2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串,例如 "en" 代表英文,"zh" 代表中文。 總結起來,result 包含: • text: 完整的轉錄文本 • segments: 每段音訊的具體轉錄片段及其時間資訊 • language: 偵測到的語言
安文
請問whisper辨識後,
result = model.transcribe("segment_1.mp3")
除了result['text']之外,result還有另外哪兩個key
2024-10-22
1 樓
顯示先前的回應
8 則當中的 3 則
M11333012
在使用 OpenAI 的 Whisper 模型進行語音轉錄時,除了 result['text'] 外,結果還包含以下兩個主要的 key:
1. segments: 這是一個包含多個段落(segments)的列表,每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於:
result['segments'] = [
{'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...},
...
]
2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串,例如 "en" 代表英文,"zh" 代表中文。
總結起來,result 包含:
• text: 完整的轉錄文本
• segments: 每段音訊的具體轉錄片段及其時間資訊
• language: 偵測到的語言
2024-10-23
2 樓
B11033101
1. `text`:轉錄的文本內容。
2. `language`:自動識別的語言。
3. `segments`:包含音頻段落的詳細資訊,如每段的開始和結束時間、文本等。
2024-10-23
3 樓
b11033041
在使用 Whisper 模型進行音頻轉錄後,result 除了 result['text'] 外,通常還包含以下兩個 key:
result['segments']:這是一個列表,包含了每個識別的段落信息,如開始時間、結束時間和對應的文本。
result['language']:這表示模型識別出的語言。
這些信息可以幫助你更詳細地分析轉錄結果
2024-10-23
4 樓
M11333003
在使用 OpenAI 的 Whisper 模型進行語音轉錄時,除了 result['text'] 外,結果還包含以下兩個主要的 key:
1. segments: 這是一個包含多個段落(segments)的列表,每個段落包含該音訊中的文本片段。每個片段的資料通常包括時間戳、文本、以及在該段的其他相關資訊。格式類似於:
result['segments'] = [
{'id': 0, 'seek': 0, 'start': 0.0, 'end': 3.5, 'text': 'Transcribed text here', ...},
...
]
2. language: 這個 key 表示 Whisper 模型所偵測到的語言。值是一個代表語言的字符串,例如 "en" 代表英文,"zh" 代表中文。
總結起來,result 包含:
• text: 完整的轉錄文本
• segments: 每段音訊的具體轉錄片段及其時間資訊
• language: 偵測到的語言
2024-10-23
5 樓
B11033056
result['segments']:包含多個片段的詳細資訊列表。
result['language']:語音識別中所判定的語言。
2024-10-23
6 樓
M11333001
result['segments'] 和 result['language']
2024-10-23
7 樓
M11333006
segments與language加上 text,構成了完整的轉錄結果。
2024-10-24
8 樓
M11333003
1. `text`:轉錄的文本內容。
2. `language`:自動識別的語言。
3. `segments`:包含音頻段落的詳細資訊,如每段的開始和結束時間、文本等。
2024-10-30
9 樓
筆記功能僅開放給課程成員,請先加入課程
Prev
openAI whisper large v3 python轉VTT字幕
Next
openai-whisper超好用
result = model.transcribe("segment_1.mp3")
除了result['text']之外,result還有另外哪兩個key
2. `language`:自動識別的語言。
3. `segments`:包含音頻段落的詳細資訊,如每段的開始和結束時間、文本等。