用產生的摘要信息所形成的數據,通過搜索來查找視頻。後臺視頻摘要系統是分佈式的。
主要是使用圖像描述(image captioning)來解決視頻摘要的彙總。
處理過程:
1、拆分不同幀到語義上不同的組。
使用SSMI(structured similarity measurment index)來確定相似幀。
定義了一個閾值,任何在這個值範圍內的幀都作為一組。
2、每個組隨機抽樣
因為每個組都是相似幀,但為了減少計算,嘗試刪除相似幀,會選擇一個子集(1-5幀)。
3、對所選擇的每幀,利用image captioning 網絡來確定幀的描述。
這裡使用Encoder-Decoder model來描述圖像。
使用COCO數據集訓練。
4、使用Extractive Summarization來給出一個針對此視頻的內容的可解釋的描述。
安裝:
<code># create a virtual environment
$ python3 -m venv env
# activate environment
$ source env/bin/activate
# install all requirements
$ pip install -r requirements.txt
# install data files
$ python dataloader.py/<code>
訓練描述網絡:
<code>python VideoSearchEngine/ImageCaptioningNoYolo/resize.py --image_dir data/coco/train2014/
python VideoSearchEngine/ImageCaptioningNoYolo/resize.py --image_dir data/coco/val2014/ --output_dir data/val_resized2014/<code>
閱讀更多 AI踐行者 的文章