如何在Linux上使用音頻流讀取python中的視頻文件？

-2

我正在尋找一種方法如何從視頻文件中使用python提取視頻幀和相應的音頻片段。我對opencv非常瞭解。但它只允許提取視頻幀。沒有提供音頻。我需要兩個 - 視頻幀和音頻片段完全相互對應。如何在Linux上使用音頻流讀取python中的視頻文件？

將是任何提示:)

來源

2017-08-10 Alexey Antonenko

任務的主要目標是： 1）找到分析視頻的時間片段（一個人出現/消失在一幀中）; 2）分析找到的感興趣的片段內的音頻（該人說什麼）。我已經實現了人物檢測和語音識別。所以，問題只是關於如何從視頻文件中提取視頻+音頻。 –

你是正確的，你無法通過的OpenCV來獲取音頻非常感謝。最好的辦法可能是單獨提取視頻幀和音頻，然後從那裏操作。一些工具，可以幫助包括：

ffmpy

ffmpeg (via sub-process)

您可以瞭解更多關於子處理的ffmpeg對本次關聯堆棧溢出答案在這裏：https://stackoverflow.com/a/26741357/7604321

從此就可以在加載音頻文件和處理以及您的視頻幀。

沒有更多的信息從你的問題我不能建議更多。

來源

2017-08-10 09:31:44 JCooke

我可以但真的不想直接使用ffmpeg或其命令行包裝器（ffmpy）。這個解決方案看起來很複雜，而python通常提供解決任何任務的簡單方法。這就是我尋找的原因。 –

作爲一個變種，我可以使用opencv來提取幀和額外的模塊來分別提取音頻。然後使用時間戳處理它們。但是，一開始，我正在尋找一種即時可用的解決方案（如果存在）。 –

也許PyMedia？我從來沒有用過它。 – JCooke

最後，我找到了影片https://pypi.python.org/pypi/moviepy，它實現了ffmpeg的輕包裝，並提供了在同一時間位置快速獲取視頻和音頻幀的界面。你會發現下面的例子：除了提取A/V幀moviepy提供了音頻/視頻剪輯修改範圍的功能譜

from moviepy.editor import * 

video = VideoFileClip('your video filename') 
audio = video.audio 
duration = video.duration # == audio.duration, presented in seconds, float 
#note video.fps != audio.fps 
step = 0.1 
for t in range(int(duration/step)): # runs through audio/video frames obtaining them by timestamp with step 100 msec 
    t = t * step 
    if t > audio.duration or t > video.duration: break 
    audio_frame = audio.get_frame(t) #numpy array representing mono/stereo values 
    video_frame = video.get_frame(t) #numpy array representing RGB/gray frame

。

來源

2017-08-11 15:09:48

如何在Linux上使用音頻流讀取python中的視頻文件？

回答

相關問題