VTN - Pytorch

Implemenetation of Video Transformer Network, a simple framework for video classification task, with Vision Transformer backbone, with additional temporal transformers.

Spatial Backbone:

Visual Transformer - using timm, can be changed to any image classifier

Temporal Backbone:

Longformer - original transformer used in a paper, sample config
Linformer - another linear complexity transformer for my own research, sample config
Transformer - simple full transformer encoder, with a right configuration, model can be used as implementation of Is Space-Time Attention All You Need for Video Understanding?, sample config

Dataset implemenatations:

Basic dataset loaders for

Kinetics-400, (can be used for any Kinetics-xxx dataset)
Something-Something-V2
UCF-101

Usage

import torch
from utils import load_yaml
from model import VTN

cfg = load_yaml('configs/vtn.yaml')

model = VTN(**vars(cfg))

video = torch.rand(1, 16, 3, 224, 224)

preds = model(video) # (1, 400)

Parameters are self-explanatory in config file

Results

Model	Top-1	Top-5	Weights
Longformer-VTN	78.9%	93.7%	taken from
Transformer-VTN	78.0%	93.7%	taken from
Linformer-VTN	75.6%	92.6%	link
Linformer-VTN-MIIL-21k	76.8%	93.4%	link
Linformer-VTN-21k	77.2%	93.4%

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
configs		configs
linformer		linformer
longformer		longformer
transformer		transformer
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
leaderboard.py		leaderboard.py
model.py		model.py
requirements.txt		requirements.txt
test.py		test.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VTN - Pytorch

Spatial Backbone:

Temporal Backbone:

Dataset implemenatations:

Usage

Results

About

Releases

Packages

Languages

License

baba-bug/vtn-ASD

Folders and files

Latest commit

History

Repository files navigation

VTN - Pytorch

Spatial Backbone:

Temporal Backbone:

Dataset implemenatations:

Usage

Results

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages