图像中文描述

图像中文描述 + 视觉注意力的 PyTorch 实现。

Show, Attend, and Tell 是令人惊叹的工作，这里是作者的原始实现。

这个模型学会了“往哪瞅”：当模型逐词生成标题时，模型的目光在图像上移动以专注于跟下一个词最相关的部分。

依赖

Python 3.5
PyTorch 0.4

数据集

使用 AI Challenger 2017 的图像中文描述数据集，包含30万张图片，150万句中文描述。训练集：210,000 张，验证集：30,000 张，测试集 A：30,000 张，测试集 B：30,000 张。

下载点这里：图像中文描述数据集，放在 data 目录下。

网络结构

用法

数据预处理

提取210,000 张训练图片和30,000 张验证图片：

$ python pre_process.py

训练

$ python train.py

可视化训练过程，执行：

$ tensorboard --logdir path_to_current_dir/logs

演示

下载预训练模型放在 models 目录，然后执行:

$ python demo.py

原图	注意力

小小的赞助~

若对您有帮助可给予小小的赞助~

Name		Name	Last commit message	Last commit date
Latest commit History 157 Commits
font		font
images		images
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
analyze_data.py		analyze_data.py
config.py		config.py
data_generator.py		data_generator.py
demo.py		demo.py
eval.py		eval.py
models.py		models.py
pre_process.py		pre_process.py
requirements.txt		requirements.txt
sponsor.jpg		sponsor.jpg
train.py		train.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

图像中文描述

依赖

数据集

网络结构

用法

数据预处理

训练

演示

小小的赞助~

About

Releases 1

Packages

Contributors 2

Languages

License

foamliu/Image-Captioning-PyTorch

Folders and files

Latest commit

History

Repository files navigation

图像中文描述

依赖

数据集

网络结构

用法

数据预处理

训练

演示

小小的赞助~

About

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Contributors 2

Languages

Packages