視頻搜索引擎 Video Search Engine

用產生的摘要信息所形成的數據,通過搜索來查找視頻。後臺視頻摘要系統是分佈式的。

主要是使用圖像描述(image captioning)來解決視頻摘要的彙總。

處理過程:

1、拆分不同幀到語義上不同的組。

使用SSMI(structured similarity measurment index)來確定相似幀。

定義了一個閾值,任何在這個值範圍內的幀都作為一組。

2、每個組隨機抽樣

因為每個組都是相似幀,但為了減少計算,嘗試刪除相似幀,會選擇一個子集(1-5幀)。

3、對所選擇的每幀,利用image captioning 網絡來確定幀的描述。

這裡使用Encoder-Decoder model來描述圖像。

使用COCO數據集訓練。

4、使用Extractive Summarization來給出一個針對此視頻的內容的可解釋的描述。


安裝:

<code># create a virtual environment

$ python3 -m venv env

# activate environment

$ source env/bin/activate

# install all requirements

$ pip install -r requirements.txt

# install data files

$ python dataloader.py/<code>

訓練描述網絡:

<code>python VideoSearchEngine/ImageCaptioningNoYolo/resize.py --image_dir data/coco/train2014/ 
python VideoSearchEngine/ImageCaptioningNoYolo/resize.py --image_dir data/coco/val2014/ --output_dir data/val_resized2014/<code>


視頻搜索引擎 Video Search Engine


視頻搜索引擎 Video Search Engine


分享到:


相關文章: