diff --git "a/2022/03/03/Hilbert\347\232\204c-\345\256\236\347\216\260/index.html" "b/2022/03/03/Hilbert\347\232\204c-\345\256\236\347\216\260/index.html"
index 4cc25fe..650ff8d 100644
--- "a/2022/03/03/Hilbert\347\232\204c-\345\256\236\347\216\260/index.html"
+++ "b/2022/03/03/Hilbert\347\232\204c-\345\256\236\347\216\260/index.html"
@@ -295,7 +295,7 @@ <h1 class="post-title" itemprop="name headline">
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2022/03/03/c-\344\270\255fftw\345\272\223\347\232\204\345\256\211\350\243\205\345\217\212\345\237\272\347\241\200\344\275\277\347\224\250/index.html" "b/2022/03/03/c-\344\270\255fftw\345\272\223\347\232\204\345\256\211\350\243\205\345\217\212\345\237\272\347\241\200\344\275\277\347\224\250/index.html"
index ae5708d..a08eb03 100644
--- "a/2022/03/03/c-\344\270\255fftw\345\272\223\347\232\204\345\256\211\350\243\205\345\217\212\345\237\272\347\241\200\344\275\277\347\224\250/index.html"
+++ "b/2022/03/03/c-\344\270\255fftw\345\272\223\347\232\204\345\256\211\350\243\205\345\217\212\345\237\272\347\241\200\344\275\277\347\224\250/index.html"
@@ -357,7 +357,7 @@ <h4 id="测试安装代码"><a href="#测试安装代码" class="headerlink" tit
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2022/03/03/\345\237\272\344\272\216github-Hexo\345\210\233\345\273\272\344\270\252\344\272\272\345\215\232\345\256\242/index.html" "b/2022/03/03/\345\237\272\344\272\216github-Hexo\345\210\233\345\273\272\344\270\252\344\272\272\345\215\232\345\256\242/index.html"
index a0278b1..f0d212f 100644
--- "a/2022/03/03/\345\237\272\344\272\216github-Hexo\345\210\233\345\273\272\344\270\252\344\272\272\345\215\232\345\256\242/index.html"
+++ "b/2022/03/03/\345\237\272\344\272\216github-Hexo\345\210\233\345\273\272\344\270\252\344\272\272\345\215\232\345\256\242/index.html"
@@ -320,7 +320,7 @@ <h4 id="上传博客图像显示失败"><a href="#上传博客图像显示失败
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2022/03/28/pytorch\347\233\270\345\205\263/index.html" "b/2022/03/28/pytorch\347\233\270\345\205\263/index.html"
index e022d3b..c449e45 100644
--- "a/2022/03/28/pytorch\347\233\270\345\205\263/index.html"
+++ "b/2022/03/28/pytorch\347\233\270\345\205\263/index.html"
@@ -357,7 +357,7 @@ <h3 id="数据处理和加载"><a href="#数据处理和加载" class="headerlin
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2022/03/28/\346\267\261\345\272\246\345\255\246\344\271\240\347\275\221\347\273\234\347\233\270\345\205\263/index.html" "b/2022/03/28/\346\267\261\345\272\246\345\255\246\344\271\240\347\275\221\347\273\234\347\233\270\345\205\263/index.html"
index 83f124c..af7a3df 100644
--- "a/2022/03/28/\346\267\261\345\272\246\345\255\246\344\271\240\347\275\221\347\273\234\347\233\270\345\205\263/index.html"
+++ "b/2022/03/28/\346\267\261\345\272\246\345\255\246\344\271\240\347\275\221\347\273\234\347\233\270\345\205\263/index.html"
@@ -411,7 +411,7 @@ <h2 id="数据增强相关"><a href="#数据增强相关" class="headerlink" tit
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2022/04/19/\347\233\256\346\240\207\346\243\200\346\265\213\347\233\270\345\205\263/index.html" "b/2022/04/19/\347\233\256\346\240\207\346\243\200\346\265\213\347\233\270\345\205\263/index.html"
index 27bc0ad..7963ae2 100644
--- "a/2022/04/19/\347\233\256\346\240\207\346\243\200\346\265\213\347\233\270\345\205\263/index.html"
+++ "b/2022/04/19/\347\233\256\346\240\207\346\243\200\346\265\213\347\233\270\345\205\263/index.html"
@@ -493,7 +493,7 @@ <h5 id="YOLO系列-YOLOv3"><a href="#YOLO系列-YOLOv3" class="headerlink" title
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2022/07/04/YOLOv4\346\200\273\347\273\223/index.html" "b/2022/07/04/YOLOv4\346\200\273\347\273\223/index.html"
index eb313d4..619b7a5 100644
--- "a/2022/07/04/YOLOv4\346\200\273\347\273\223/index.html"
+++ "b/2022/07/04/YOLOv4\346\200\273\347\273\223/index.html"
@@ -622,7 +622,7 @@ <h3 id="YOLOv4最终采用方案"><a href="#YOLOv4最终采用方案" class="hea
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2022/07/25/Label Assignment/index.html b/2022/07/25/Label Assignment/index.html
index 4152124..b86807a 100644
--- a/2022/07/25/Label Assignment/index.html	
+++ b/2022/07/25/Label Assignment/index.html	
@@ -471,7 +471,7 @@ <h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2022/07/26/SSD Single Shot MultiBox Detector/index.html b/2022/07/26/SSD Single Shot MultiBox Detector/index.html
index 866cdce..a8a03bf 100644
--- a/2022/07/26/SSD Single Shot MultiBox Detector/index.html	
+++ b/2022/07/26/SSD Single Shot MultiBox Detector/index.html	
@@ -416,7 +416,7 @@ <h4 id="混合缩放"><a href="#混合缩放" class="headerlink" title="混合
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2022/08/22/Bert/index.html b/2022/08/22/Bert/index.html
index 22136a4..df1805a 100644
--- a/2022/08/22/Bert/index.html
+++ b/2022/08/22/Bert/index.html
@@ -360,7 +360,7 @@ <h4 id="可优化空间"><a href="#可优化空间" class="headerlink" title="
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2022/08/22/DETR/index.html b/2022/08/22/DETR/index.html
index 4515f6c..5fd1742 100644
--- a/2022/08/22/DETR/index.html
+++ b/2022/08/22/DETR/index.html
@@ -358,7 +358,7 @@ <h3 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2022/08/22/Deformable DETR/index.html b/2022/08/22/Deformable DETR/index.html
index f9d97cd..419c68a 100644
--- a/2022/08/22/Deformable DETR/index.html	
+++ b/2022/08/22/Deformable DETR/index.html	
@@ -356,7 +356,7 @@ <h3 id="deformable-DETR结构示意图"><a href="#deformable-DETR结构示意图
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2022/08/22/Towards Data-Efficient Detection Transformer/index.html b/2022/08/22/Towards Data-Efficient Detection Transformer/index.html
index ce249a2..ec25fdc 100644
--- a/2022/08/22/Towards Data-Efficient Detection Transformer/index.html	
+++ b/2022/08/22/Towards Data-Efficient Detection Transformer/index.html	
@@ -465,7 +465,7 @@ <h3 id="结论"><a href="#结论" class="headerlink" title="结论"></a>结论</
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2022/08/22/VIT/index.html b/2022/08/22/VIT/index.html
index b755835..6111d6e 100644
--- a/2022/08/22/VIT/index.html
+++ b/2022/08/22/VIT/index.html
@@ -324,7 +324,7 @@ <h4 id="image-presentation"><a href="#image-presentation" class="headerlink" tit
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2022/08/22/transformer\347\233\270\345\205\263/index.html" "b/2022/08/22/transformer\347\233\270\345\205\263/index.html"
index 5a2b036..a69e087 100644
--- "a/2022/08/22/transformer\347\233\270\345\205\263/index.html"
+++ "b/2022/08/22/transformer\347\233\270\345\205\263/index.html"
@@ -407,7 +407,7 @@ <h4 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2023/03/04/RK3588s\351\203\250\347\275\262\347\233\270\345\205\263-NEW/index.html" "b/2023/03/04/RK3588s\351\203\250\347\275\262\347\233\270\345\205\263-NEW/index.html"
index 554b227..b0060c1 100644
--- "a/2023/03/04/RK3588s\351\203\250\347\275\262\347\233\270\345\205\263-NEW/index.html"
+++ "b/2023/03/04/RK3588s\351\203\250\347\275\262\347\233\270\345\205\263-NEW/index.html"
@@ -445,7 +445,7 @@ <h3 id="RK3588s环境配置及实机程序运行"><a href="#RK3588s环境配置
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2023/03/21/RK3588\343\200\201ros\343\200\201fastdeploy\350\201\224\345\220\210\347\216\257\345\242\203\350\256\276\347\275\256/index.html" "b/2023/03/21/RK3588\343\200\201ros\343\200\201fastdeploy\350\201\224\345\220\210\347\216\257\345\242\203\350\256\276\347\275\256/index.html"
index 2b726c2..2c55875 100644
--- "a/2023/03/21/RK3588\343\200\201ros\343\200\201fastdeploy\350\201\224\345\220\210\347\216\257\345\242\203\350\256\276\347\275\256/index.html"
+++ "b/2023/03/21/RK3588\343\200\201ros\343\200\201fastdeploy\350\201\224\345\220\210\347\216\257\345\242\203\350\256\276\347\275\256/index.html"
@@ -349,7 +349,7 @@ <h2 id="环境依赖兼容问题"><a href="#环境依赖兼容问题" class="hea
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2023/04/12/c-\344\270\255\347\232\204ffmpeg\346\272\220\347\240\201\345\255\246\344\271\240/index.html" "b/2023/04/12/c-\344\270\255\347\232\204ffmpeg\346\272\220\347\240\201\345\255\246\344\271\240/index.html"
index 3dfcb75..f5416ff 100644
--- "a/2023/04/12/c-\344\270\255\347\232\204ffmpeg\346\272\220\347\240\201\345\255\246\344\271\240/index.html"
+++ "b/2023/04/12/c-\344\270\255\347\232\204ffmpeg\346\272\220\347\240\201\345\255\246\344\271\240/index.html"
@@ -534,7 +534,7 @@ <h3 id="c-使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）"
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2023/04/12/ffmpeg\345\237\272\347\241\200\344\272\206\350\247\243/index.html" "b/2023/04/12/ffmpeg\345\237\272\347\241\200\344\272\206\350\247\243/index.html"
index fd28792..250e4cd 100644
--- "a/2023/04/12/ffmpeg\345\237\272\347\241\200\344\272\206\350\247\243/index.html"
+++ "b/2023/04/12/ffmpeg\345\237\272\347\241\200\344\272\206\350\247\243/index.html"
@@ -1050,7 +1050,7 @@ <h4 id="视频和音频文件格式转换"><a href="#视频和音频文件格式
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2023/04/23/AGW A New Baseline for Single-Cross-Modality Re-ID/index.html b/2023/04/23/AGW A New Baseline for Single-Cross-Modality Re-ID/index.html
index ec8d5a2..1978e2a 100644
--- a/2023/04/23/AGW A New Baseline for Single-Cross-Modality Re-ID/index.html	
+++ b/2023/04/23/AGW A New Baseline for Single-Cross-Modality Re-ID/index.html	
@@ -302,7 +302,7 @@ <h2 id="完整流程如下所示"><a href="#完整流程如下所示" class="hea
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2023/04/23/Bag of Tricks and A Strong Baseline for Deep Person Re-identification.md/index.html b/2023/04/23/Bag of Tricks and A Strong Baseline for Deep Person Re-identification.md/index.html
index 288eb41..84120fe 100644
--- a/2023/04/23/Bag of Tricks and A Strong Baseline for Deep Person Re-identification.md/index.html	
+++ b/2023/04/23/Bag of Tricks and A Strong Baseline for Deep Person Re-identification.md/index.html	
@@ -360,7 +360,7 @@ <h2 id="试验效果"><a href="#试验效果" class="headerlink" title="试验
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/2023/04/23/\347\233\256\346\240\207\351\207\215\350\257\206\345\210\253\347\273\274\350\277\260\351\230\205\350\257\273/index.html" "b/2023/04/23/\347\233\256\346\240\207\351\207\215\350\257\206\345\210\253\347\273\274\350\277\260\351\230\205\350\257\273/index.html"
index 171dd3f..bc8c4c7 100644
--- "a/2023/04/23/\347\233\256\346\240\207\351\207\215\350\257\206\345\210\253\347\273\274\350\277\260\351\230\205\350\257\273/index.html"
+++ "b/2023/04/23/\347\233\256\346\240\207\351\207\215\350\257\206\345\210\253\347\273\274\350\277\260\351\230\205\350\257\273/index.html"
@@ -347,7 +347,7 @@ <h2 id="Person-Re-identification-A-Retrospective-on-Domain-Specific"><a href="#P
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/index.html b/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/index.html
index 8205af5..ee0931b 100644
--- a/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/index.html
+++ b/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/index.html
@@ -338,7 +338,7 @@ <h3 id="2-2-3-identity-等效为特殊权重的卷积层"><a href="#2-2-3-identi
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/index.html b/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/index.html
index bb18266..80ec503 100644
--- a/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/index.html
+++ b/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/index.html
@@ -359,7 +359,7 @@ <h4 id="Quantization-aware-Training-with-Channel-wise-Distillation"><a href="#Qu
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/index.html b/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/index.html
index 96dbcc8..4e65ec0 100644
--- a/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/index.html
+++ b/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/index.html
@@ -270,7 +270,10 @@ <h3 id="3-3-其他训练时的免费午餐"><a href="#3-3-其他训练时的免
     <a href="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/" rel="prev" title="YOLOv6 A Single-Stage Object Detection Framework for Industrial  Applications">
       <i class="fa fa-chevron-left"></i> YOLOv6 A Single-Stage Object Detection Framework for Industrial  Applications
     </a></div>
-      <div class="post-nav-item"></div>
+      <div class="post-nav-item">
+    <a href="/2023/06/30/ShuffleNet/" rel="next" title="ShuffleNet">
+      ShuffleNet <i class="fa fa-chevron-right"></i>
+    </a></div>
     </div>
       </footer>
     
@@ -343,7 +346,7 @@ <h3 id="3-3-其他训练时的免费午餐"><a href="#3-3-其他训练时的免
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/2023/06/30/CSPNet/103a8eac372346009eeffe0dcad93118.png b/2023/06/30/CSPNet/103a8eac372346009eeffe0dcad93118.png
new file mode 100644
index 0000000..b0b24ce
Binary files /dev/null and b/2023/06/30/CSPNet/103a8eac372346009eeffe0dcad93118.png differ
diff --git a/2023/06/30/CSPNet/150b965a21f743e8a22a9068a2ca9c15.png b/2023/06/30/CSPNet/150b965a21f743e8a22a9068a2ca9c15.png
new file mode 100644
index 0000000..04ec44c
Binary files /dev/null and b/2023/06/30/CSPNet/150b965a21f743e8a22a9068a2ca9c15.png differ
diff --git a/2023/06/30/CSPNet/20201210234304222.png b/2023/06/30/CSPNet/20201210234304222.png
new file mode 100644
index 0000000..d9d34ee
Binary files /dev/null and b/2023/06/30/CSPNet/20201210234304222.png differ
diff --git a/2023/06/30/CSPNet/20201210235050303.png b/2023/06/30/CSPNet/20201210235050303.png
new file mode 100644
index 0000000..9f8deb5
Binary files /dev/null and b/2023/06/30/CSPNet/20201210235050303.png differ
diff --git a/2023/06/30/CSPNet/281b211c0a544314af53007639dc64e8.png b/2023/06/30/CSPNet/281b211c0a544314af53007639dc64e8.png
new file mode 100644
index 0000000..49fe0d8
Binary files /dev/null and b/2023/06/30/CSPNet/281b211c0a544314af53007639dc64e8.png differ
diff --git a/2023/06/30/CSPNet/2d7ec7a7f418470698bc5a1f820be714.png b/2023/06/30/CSPNet/2d7ec7a7f418470698bc5a1f820be714.png
new file mode 100644
index 0000000..791aa6f
Binary files /dev/null and b/2023/06/30/CSPNet/2d7ec7a7f418470698bc5a1f820be714.png differ
diff --git a/2023/06/30/CSPNet/419c23c79b0945b294cf22b5c14741b8.png b/2023/06/30/CSPNet/419c23c79b0945b294cf22b5c14741b8.png
new file mode 100644
index 0000000..da290ef
Binary files /dev/null and b/2023/06/30/CSPNet/419c23c79b0945b294cf22b5c14741b8.png differ
diff --git a/2023/06/30/CSPNet/6fcccbe8978840aea95bca7d05e6306b.png b/2023/06/30/CSPNet/6fcccbe8978840aea95bca7d05e6306b.png
new file mode 100644
index 0000000..b0b24ce
Binary files /dev/null and b/2023/06/30/CSPNet/6fcccbe8978840aea95bca7d05e6306b.png differ
diff --git a/2023/06/30/CSPNet/f3ba8572acaf4dab9e857b6403f518ef.png b/2023/06/30/CSPNet/f3ba8572acaf4dab9e857b6403f518ef.png
new file mode 100644
index 0000000..3efe1f6
Binary files /dev/null and b/2023/06/30/CSPNet/f3ba8572acaf4dab9e857b6403f518ef.png differ
diff --git a/2023/06/30/CSPNet/index.html b/2023/06/30/CSPNet/index.html
new file mode 100644
index 0000000..4b44836
--- /dev/null
+++ b/2023/06/30/CSPNet/index.html
@@ -0,0 +1,432 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNNCSPNet 简介在本文中，作者提出了跨阶段局部网络(CSPNet)，用来缓解以往工作需要从网络架构角度进行大量推理计算的问题，作者把这个问题归结为网络优化中的重复梯度信息。 作者的主要想法是通过分割梯度流，使梯度流通过不同的网络路径传播。通过切换拼接和转换，传播的梯">
+<meta property="og:type" content="article">
+<meta property="og:title" content="CSPNet">
+<meta property="og:url" content="http://example.com/2023/06/30/CSPNet/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNNCSPNet 简介在本文中，作者提出了跨阶段局部网络(CSPNet)，用来缓解以往工作需要从网络架构角度进行大量推理计算的问题，作者把这个问题归结为网络优化中的重复梯度信息。 作者的主要想法是通过分割梯度流，使梯度流通过不同的网络路径传播。通过切换拼接和转换，传播的梯">
+<meta property="og:locale" content="zh_CN">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/281b211c0a544314af53007639dc64e8.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/f3ba8572acaf4dab9e857b6403f518ef.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/103a8eac372346009eeffe0dcad93118.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/2d7ec7a7f418470698bc5a1f820be714.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/6fcccbe8978840aea95bca7d05e6306b.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/419c23c79b0945b294cf22b5c14741b8.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/150b965a21f743e8a22a9068a2ca9c15.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_13,color_FFFFFF,t_70,g_se,x_16.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_14,color_FFFFFF,t_70,g_se,x_16.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/20201210234304222.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/20201210235050303.png">
+<meta property="og:image" content="http://example.com/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16-168726774348025.png">
+<meta property="article:published_time" content="2023-06-30T08:10:57.000Z">
+<meta property="article:modified_time" content="2023-06-30T08:12:49.863Z">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+<meta name="twitter:image" content="http://example.com/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16.png">
+
+<link rel="canonical" href="http://example.com/2023/06/30/CSPNet/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : false,
+    isPost : true,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>CSPNet | 凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content post posts-expand">
+            
+
+    
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/CSPNet/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h1 class="post-title" itemprop="name headline">
+          CSPNet
+        </h1>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2023-06-30 16:10:57 / 修改时间：16:12:49" itemprop="dateCreated datePublished" datetime="2023-06-30T16:10:57+08:00">2023-06-30</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+        <h1 id="CSPNET-A-NEW-BACKBONE-THAT-CAN-ENHANCE-LEARNING-CAPABILITY-OF-CNN"><a href="#CSPNET-A-NEW-BACKBONE-THAT-CAN-ENHANCE-LEARNING-CAPABILITY-OF-CNN" class="headerlink" title="CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN"></a>CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN</h1><h2 id="CSPNet-简介"><a href="#CSPNet-简介" class="headerlink" title="CSPNet 简介"></a>CSPNet 简介</h2><p>在本文中，作者提出了跨阶段局部网络(CSPNet)，用来缓解以往工作需要从网络架构角度进行大量推理计算的问题，作者把这个问题归结为网络优化中的<strong>重复梯度信息</strong>。</p>
+<p>作者的主要想法是通过分割梯度流，使梯度流通过不同的网络路径传播。通过切换拼接和转换，传播的梯度信息可以具有较大的相关性差异。此外，CSPNet可以大大减少计算量，并提高推理速度和准确性。除此之外，CSPNet 易于实现，并且足够通用，可以与 ResNet、ResNeXt 和 DenseNet 的体系结构相融合。</p>
+<p>本文主要解决了以下的三个问题：</p>
+<ul>
+<li><strong>加强CNN的学习能力：</strong>现有的CNN网络存在经过轻量化之后的准确率大大下降的问题，现有的网络使用CSPNet的思想之后，计算量将减少10％至20％，准确率更高。</li>
+<li><strong>消除计算瓶颈：</strong>认为过高的bottleneck会导致花费更多的时间进行推理，或部份算术单元会被闲置。所以将CNN的计算量均匀的分布在每一层，从而有效的提升每个计算单元的利用率。</li>
+<li><strong>降低内存成本：</strong>在特征金字塔生成过程中采用了跨通道池化的方式进行特征映射。</li>
+</ul>
+<h2 id="CSPNet思想"><a href="#CSPNet思想" class="headerlink" title="CSPNet思想"></a>CSPNet思想</h2><pre><code>    在原本DenseNet中，前面层的feature map全部传入后面层作为输入，在CSPNet中，将前面层的feature map在通道上一分为二，一部分输入到后面层，一部分直接通过short-cut的方式连接到transition层，这样可以缓解一部分的梯度信息重复计算问题，从而减少模型的计算量和显存占用。
+</code></pre><h2 id="CSPNet网络创新点"><a href="#CSPNet网络创新点" class="headerlink" title="CSPNet网络创新点"></a>CSPNet网络创新点</h2><h3 id="整体结构"><a href="#整体结构" class="headerlink" title="整体结构"></a>整体结构</h3><p><img src="/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p>传统的DenseNet中，第i层的输入与第i层的输出做concat，作为第i+1层的输入，这就要求输入和输出的分辨率保持不变，就是不做下采样操作，下采样操作在transition层进行。</p>
+<p>在CSPDenseNet中，将输入特征数据在通道维度上划分为<img src="/2023/06/30/CSPNet/281b211c0a544314af53007639dc64e8.png" alt="img">， <img src="/2023/06/30/CSPNet/f3ba8572acaf4dab9e857b6403f518ef.png" alt="img">输入到DenseNet中，<img src="/2023/06/30/CSPNet/103a8eac372346009eeffe0dcad93118.png" alt="img">直接在transition层与DenseBlock的输出在通道维度上做concat。在CSPDenseNet的transition层，先将Dense Block的输出结果<img src="/2023/06/30/CSPNet/2d7ec7a7f418470698bc5a1f820be714.png" alt="img">经过一个conv卷积操作，然后和<img src="/2023/06/30/CSPNet/6fcccbe8978840aea95bca7d05e6306b.png" alt="img">进行concat得到<img src="/2023/06/30/CSPNet/419c23c79b0945b294cf22b5c14741b8.png" alt="img">，输入到另一个conv卷积操作得到<img src="/2023/06/30/CSPNet/150b965a21f743e8a22a9068a2ca9c15.png" alt="img">。</p>
+<p>上述图（b）中CSPDenseNet的前向推理过程如下：</p>
+<p><img src="/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_13,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p>参数更新过程如下：</p>
+<p><img src="/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_14,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p>经过上述改进之后，CSPDenseNet将原来DenseNet中对于全部feature map的重复梯度计算降低了一半，因为另一半x0’ 的feature map不在经过Dense Block，直接送入了transition层。所以这种网络结构叫做Cross Stage Partial DenseNet，就是跨Stage的部分的DenseNet。</p>
+<h3 id="Partial-Dense-Block"><a href="#Partial-Dense-Block" class="headerlink" title="Partial Dense Block"></a>Partial Dense Block</h3><p>Partial Dense Block的设计目的为</p>
+<ul>
+<li><strong>增加梯度路径:</strong>通过拆分合并策略，可以使梯度路径的数量增加一倍。由于跨阶段策略，可以减轻使用显式特征映射复制进行连接所带来的缺点</li>
+<li><strong>每层的平衡计算:</strong>通常，DenseNet的基础层通道数远大于增长率。由于局部密集块中涉及密集层操作的基础层通道仅占原始数量的一半，因此可以有效解决近一半的计算瓶颈</li>
+<li><strong>减少内存流量:</strong>假设DenseNet中一个密集块的基本特征图大小为w × h × c，增长率为d，总共有m个密集层。则该密集块的CIO为$(c × m) + ((m^2 + m) × d)=2$，部分密集块的CIO为$(c × m) + (m^2 + m) × d)=2$。虽然m和d通常远小于c，但部分密集块最多可以节省网络内存流量的一半。</li>
+</ul>
+<h3 id="Partial-Transition-Layer"><a href="#Partial-Transition-Layer" class="headerlink" title="Partial Transition Layer"></a>Partial Transition Layer</h3><p>Partial Transition Layer的设计目的为使梯度组合的差异最大化。Partial Transition Layer是一种层次化的特征融合机制，它利用梯度流的聚合策略来防止不同的层学习重复的梯度信息。在这里，作者设计了两个CSPDenseNet变体来展示这种梯度流截断是如何影响网络的学习能力的。</p>
+<p><img src="/2023/06/30/CSPNet/20201210234304222.png" alt="在这里插入图片描述"></p>
+<p>上图中的 (c) 和 (d) 展示了两种不同的融合策略：</p>
+<p><strong>Fusion First：</strong>是将两部分生成的feature map进行拼接，然后进入过渡层。如果采用这种策略，将会损失大量的梯度信息。<br><strong>Fusion Last：</strong>对于fusion last策略，来自稠密块的输出将经过过渡层，然后与来自Part1的feature map进行连接。如果采用这种策略，由于梯度流被截断，梯度信息将不会被重用。<br>如果我们使用上图所示的四种架构来进行图像分类，其结果如下图所示：</p>
+<p><img src="/2023/06/30/CSPNet/20201210235050303.png" alt="在这里插入图片描述"></p>
+<p>从上图可以看出，如果采用Fusion Last策略进行图像分类，计算成本明显下降，但Top-1的准确率仅下降0.1%。另一方面，CSP (fusion first)策略确实有助于显著降低计算成本，但Top-1的准确率显著下降1.5%。</p>
+<p><strong>通过使用跨阶段的分割和合并策略，我们能够有效地减少信息集成过程中重复的可能性。如果能够有效地减少重复的梯度信息，那么网络的学习能力将会得到很大的提高。</strong></p>
+<p>我们可以得到如下结论：</p>
+<ul>
+<li>使用Fusion First有助于降低计算代价，但是准确率有显著下降。</li>
+<li>使用Fusion Last也是极大降低了计算代价，top-1 accuracy仅仅下降了0.1个百分点。</li>
+<li>同时使用Fusion First和Fusion Last相结合的CSP所采用的融合方式可以在降低计算代价的同时，提升准确率。</li>
+</ul>
+<h2 id="应用CSPNet的思想至其他网络："><a href="#应用CSPNet的思想至其他网络：" class="headerlink" title="应用CSPNet的思想至其他网络："></a>应用CSPNet的思想至其他网络：</h2><p><img src="/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16-168726774348025.png" alt="img"></p>
+
+    </div>
+
+    
+    
+    
+
+      <footer class="post-footer">
+
+        
+
+
+        
+    <div class="post-nav">
+      <div class="post-nav-item">
+    <a href="/2023/06/30/RegVGG/" rel="prev" title="RegVGG">
+      <i class="fa fa-chevron-left"></i> RegVGG
+    </a></div>
+      <div class="post-nav-item">
+    <a href="/2023/06/30/ELAN/" rel="next" title="ELAN">
+      ELAN <i class="fa fa-chevron-right"></i>
+    </a></div>
+    </div>
+      </footer>
+    
+  </article>
+  
+  
+  
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+          <div class="post-toc motion-element"><ol class="nav"><li class="nav-item nav-level-1"><a class="nav-link" href="#CSPNET-A-NEW-BACKBONE-THAT-CAN-ENHANCE-LEARNING-CAPABILITY-OF-CNN"><span class="nav-number">1.</span> <span class="nav-text">CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN</span></a><ol class="nav-child"><li class="nav-item nav-level-2"><a class="nav-link" href="#CSPNet-%E7%AE%80%E4%BB%8B"><span class="nav-number">1.1.</span> <span class="nav-text">CSPNet 简介</span></a></li><li class="nav-item nav-level-2"><a class="nav-link" href="#CSPNet%E6%80%9D%E6%83%B3"><span class="nav-number">1.2.</span> <span class="nav-text">CSPNet思想</span></a></li><li class="nav-item nav-level-2"><a class="nav-link" href="#CSPNet%E7%BD%91%E7%BB%9C%E5%88%9B%E6%96%B0%E7%82%B9"><span class="nav-number">1.3.</span> <span class="nav-text">CSPNet网络创新点</span></a><ol class="nav-child"><li class="nav-item nav-level-3"><a class="nav-link" href="#%E6%95%B4%E4%BD%93%E7%BB%93%E6%9E%84"><span class="nav-number">1.3.1.</span> <span class="nav-text">整体结构</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#Partial-Dense-Block"><span class="nav-number">1.3.2.</span> <span class="nav-text">Partial Dense Block</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#Partial-Transition-Layer"><span class="nav-number">1.3.3.</span> <span class="nav-text">Partial Transition Layer</span></a></li></ol></li><li class="nav-item nav-level-2"><a class="nav-link" href="#%E5%BA%94%E7%94%A8CSPNet%E7%9A%84%E6%80%9D%E6%83%B3%E8%87%B3%E5%85%B6%E4%BB%96%E7%BD%91%E7%BB%9C%EF%BC%9A"><span class="nav-number">1.4.</span> <span class="nav-text">应用CSPNet的思想至其他网络：</span></a></li></ol></li></ol></div>
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+
+  
+
+</body>
+</html>
diff --git a/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_13,color_FFFFFF,t_70,g_se,x_16.png b/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_13,color_FFFFFF,t_70,g_se,x_16.png
new file mode 100644
index 0000000..fb907dc
Binary files /dev/null and b/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_13,color_FFFFFF,t_70,g_se,x_16.png differ
diff --git a/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_14,color_FFFFFF,t_70,g_se,x_16.png b/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_14,color_FFFFFF,t_70,g_se,x_16.png
new file mode 100644
index 0000000..d4cc51f
Binary files /dev/null and b/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_14,color_FFFFFF,t_70,g_se,x_16.png differ
diff --git a/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16-168726774348025.png b/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16-168726774348025.png
new file mode 100644
index 0000000..8e73dad
Binary files /dev/null and b/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16-168726774348025.png differ
diff --git a/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16.png b/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16.png
new file mode 100644
index 0000000..7dcc1fc
Binary files /dev/null and b/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16.png differ
diff --git a/2023/06/30/ELAN/3d05a481006d4031bc834323bbad4180.png b/2023/06/30/ELAN/3d05a481006d4031bc834323bbad4180.png
new file mode 100644
index 0000000..b853bd4
Binary files /dev/null and b/2023/06/30/ELAN/3d05a481006d4031bc834323bbad4180.png differ
diff --git a/2023/06/30/ELAN/628ff466598746f4ac251d9abbe94326.png b/2023/06/30/ELAN/628ff466598746f4ac251d9abbe94326.png
new file mode 100644
index 0000000..dfdb0d1
Binary files /dev/null and b/2023/06/30/ELAN/628ff466598746f4ac251d9abbe94326.png differ
diff --git a/2023/06/30/ELAN/index.html b/2023/06/30/ELAN/index.html
new file mode 100644
index 0000000..1adcfe2
--- /dev/null
+++ b/2023/06/30/ELAN/index.html
@@ -0,0 +1,415 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="（ELAN）Designing Network Design Strategies Through Gradient Path Analysis文章作者的想法为，发现当今主流的网络设计策略大多是基于前馈路径，即基于数据路径设计网络架构。在本文中，我们希望通过提高网络学习能力来增强训练模型的表达能力。由于驱动网络参数学习的机制是反向传播算法，我们设计了基于反向传播路径的网络设计策略。提出了层级、阶段">
+<meta property="og:type" content="article">
+<meta property="og:title" content="ELAN">
+<meta property="og:url" content="http://example.com/2023/06/30/ELAN/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="（ELAN）Designing Network Design Strategies Through Gradient Path Analysis文章作者的想法为，发现当今主流的网络设计策略大多是基于前馈路径，即基于数据路径设计网络架构。在本文中，我们希望通过提高网络学习能力来增强训练模型的表达能力。由于驱动网络参数学习的机制是反向传播算法，我们设计了基于反向传播路径的网络设计策略。提出了层级、阶段">
+<meta property="og:locale" content="zh_CN">
+<meta property="og:image" content="http://example.com/2023/06/30/ELAN/3d05a481006d4031bc834323bbad4180.png">
+<meta property="og:image" content="http://example.com/2023/06/30/ELAN/628ff466598746f4ac251d9abbe94326.png">
+<meta property="article:published_time" content="2023-06-30T08:11:09.000Z">
+<meta property="article:modified_time" content="2023-06-30T08:12:28.813Z">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+<meta name="twitter:image" content="http://example.com/2023/06/30/ELAN/3d05a481006d4031bc834323bbad4180.png">
+
+<link rel="canonical" href="http://example.com/2023/06/30/ELAN/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : false,
+    isPost : true,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>ELAN | 凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content post posts-expand">
+            
+
+    
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/ELAN/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h1 class="post-title" itemprop="name headline">
+          ELAN
+        </h1>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2023-06-30 16:11:09 / 修改时间：16:12:28" itemprop="dateCreated datePublished" datetime="2023-06-30T16:11:09+08:00">2023-06-30</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+        <h1 id="（ELAN）Designing-Network-Design-Strategies-Through-Gradient-Path-Analysis"><a href="#（ELAN）Designing-Network-Design-Strategies-Through-Gradient-Path-Analysis" class="headerlink" title="（ELAN）Designing Network Design Strategies Through Gradient Path Analysis"></a>（ELAN）Designing Network Design Strategies Through Gradient Path Analysis</h1><p>文章作者的想法为，发现当今主流的网络设计策略大多是基于前馈路径，即基于数据路径设计网络架构。在本文中，我们希望通过提高网络学习能力来增强训练模型的表达能力。由于驱动网络参数学习的机制是反向传播算法，我们设计了基于反向传播路径的网络设计策略。提出了层级、阶段级和网络级的梯度路径设计策略。</p>
+<h2 id="背景"><a href="#背景" class="headerlink" title="背景"></a>背景</h2><p>很多研究都是从相同的角度出发的，也就是从浅层抽取 low-level 特征，从深层抽取 high-level 特征，然后将这些特征结合起来，即是 data path（前向传播）的角度</p>
+<p><strong>本文作者的思考：</strong></p>
+<p><img src="/2023/06/30/ELAN/3d05a481006d4031bc834323bbad4180.png" alt="在这里插入图片描述">如图所示，作者在 objective 和 loss 的角度分析了浅层和深层模型，作者发现通过调整 objective 和 loss layer 的配置，就可以控制每层学习到的特征（无论浅层还是深层)。<br>也就是说，网络学习到什么类型的特征取决于训练人员用什么信息投喂，而不是如何组合这些层，基于此，作者重新设计的网络结构</p>
+<p><strong>本文作者的出发点：</strong></p>
+<p>由于目前的参数更新方法都是反向传播规则，即目标函数会根据梯度来更新权重参数，所以本文是基于梯度传播路径来设计网络结构<br>本文的做法：为 layer-level、stage-level、network-level 设计了梯度路径：</p>
+<p><code>Layer-level design：</code>设计了梯度分流策略，并通过调整 layers 的数量和计算残差连接的 channel ratio，设计了 Partial Residual Network（PRN）（PRN 和本文是相同的作者团队）<br><code>Stage-level design：</code>将硬件的特性引入网络结构中来加速网络的推理过程。作者通过最大化梯度结合和最小化硬件消耗的两个方式，设计了 Cross Stage Network（CSPNet）[33] （CSPNet 和本文是相同的作者团队）<br><code>Network-level design：</code>作者考虑了梯度传播的效率来平衡网络的学习能力，以网络的梯度反传路径长度作为总基础，设计了 Efficient Layer Aggregation Network（ELAN）</p>
+<h2 id="ELAN"><a href="#ELAN" class="headerlink" title="ELAN"></a>ELAN</h2><p>ELAN 的主要目标是为了解决 deep model scaling 时难以收敛的问题</p>
+<p>ELAN 是由 VoVNet 和 CSPNet 结合而来的，且其整个网络的梯度长度的优化是基于 Stack in computational block 结构的</p>
+<p><code>Stack in computational block：</code></p>
+<p>在做模型缩放时，如果网络达到了一定的深度，再叠加深度时，网络的效果可能会不升反降</p>
+<p>举个例子：</p>
+<ul>
+<li>scaled-YOLOv4，P7 model 使用很多操作和参数，但只获得了很小的性能提升</li>
+<li>ResNet-152 约是 ResNet-50 参数量的 3 倍，但在 ImageNet 只带了了 1% 的 acc 提升，当 ResNet 堆叠到大约 200 层时，性能比 ResNet-152 更差</li>
+<li>VoVNet 堆叠到 99 层时，其 acc 比 VoVNet-39 还低</li>
+</ul>
+<p>分析：</p>
+<ul>
+<li>从梯度路径的设计来看，作者认为随着堆叠层数的增加， VoVNet 比 ResNet 的性能下降更多的原因在于，VoVNet 是基于 OSA module 堆叠而来，而每个 OSA module 都包括一个 transition layer，所以每堆叠一个 OSA module，每个层的梯度路径都会增加 1</li>
+<li>而 ResNet 是基于 residual layers 堆叠而来的，每堆叠一个 residual layer，只会增加梯度最长路径</li>
+</ul>
+<p>为了进一步分析，作者基于 YOLOR-CSP 进行了一些实验，并且发现：</p>
+<ul>
+<li>当堆叠层数达到 80+ 时， CSP 早融合的方式比 normal CSP 效果更好，每个 stage 的最短梯度路径会减 1</li>
+<li>当网络继续变深和变宽，CSP 晚融合的方式得到了更好的效果，每个 layer 的最短梯度路径会减 1</li>
+</ul>
+<p>Stack in computational block 如图 6 所示：</p>
+<ul>
+<li>出发点 1：为了避免使用更多 transition layer</li>
+<li>出发点 2：让整个网络的最短梯度路径变得更长一些</li>
+</ul>
+<p>E-LAN 结构如图 6c 所示：主要为了避免过多的使用 transition layer（会提升梯度最短路径，影响网络加深）</p>
+<p><img src="/2023/06/30/ELAN/628ff466598746f4ac251d9abbe94326.png" alt="在这里插入图片描述"></p>
+
+    </div>
+
+    
+    
+    
+
+      <footer class="post-footer">
+
+        
+
+
+        
+    <div class="post-nav">
+      <div class="post-nav-item">
+    <a href="/2023/06/30/CSPNet/" rel="prev" title="CSPNet">
+      <i class="fa fa-chevron-left"></i> CSPNet
+    </a></div>
+      <div class="post-nav-item"></div>
+    </div>
+      </footer>
+    
+  </article>
+  
+  
+  
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+          <div class="post-toc motion-element"><ol class="nav"><li class="nav-item nav-level-1"><a class="nav-link" href="#%EF%BC%88ELAN%EF%BC%89Designing-Network-Design-Strategies-Through-Gradient-Path-Analysis"><span class="nav-number">1.</span> <span class="nav-text">（ELAN）Designing Network Design Strategies Through Gradient Path Analysis</span></a><ol class="nav-child"><li class="nav-item nav-level-2"><a class="nav-link" href="#%E8%83%8C%E6%99%AF"><span class="nav-number">1.1.</span> <span class="nav-text">背景</span></a></li><li class="nav-item nav-level-2"><a class="nav-link" href="#ELAN"><span class="nav-number">1.2.</span> <span class="nav-text">ELAN</span></a></li></ol></li></ol></div>
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+
+  
+
+</body>
+</html>
diff --git a/2023/06/30/MobileNet/099f6b5094204e1faf457ff6677f730e.png b/2023/06/30/MobileNet/099f6b5094204e1faf457ff6677f730e.png
new file mode 100644
index 0000000..616733f
Binary files /dev/null and b/2023/06/30/MobileNet/099f6b5094204e1faf457ff6677f730e.png differ
diff --git a/2023/06/30/MobileNet/3ad597ec791743ca9fbea1f78cf0bd8d.png b/2023/06/30/MobileNet/3ad597ec791743ca9fbea1f78cf0bd8d.png
new file mode 100644
index 0000000..aaa36eb
Binary files /dev/null and b/2023/06/30/MobileNet/3ad597ec791743ca9fbea1f78cf0bd8d.png differ
diff --git a/2023/06/30/MobileNet/3e28ca45a556474ab109a013a6efb3c2.png b/2023/06/30/MobileNet/3e28ca45a556474ab109a013a6efb3c2.png
new file mode 100644
index 0000000..bc72f79
Binary files /dev/null and b/2023/06/30/MobileNet/3e28ca45a556474ab109a013a6efb3c2.png differ
diff --git a/2023/06/30/MobileNet/6faa54a4ef7a4a4bb13c16196de618c8.png b/2023/06/30/MobileNet/6faa54a4ef7a4a4bb13c16196de618c8.png
new file mode 100644
index 0000000..ffeb6f3
Binary files /dev/null and b/2023/06/30/MobileNet/6faa54a4ef7a4a4bb13c16196de618c8.png differ
diff --git a/2023/06/30/MobileNet/721c0945ad57422da5c344f802e29d48.png b/2023/06/30/MobileNet/721c0945ad57422da5c344f802e29d48.png
new file mode 100644
index 0000000..1d3b7af
Binary files /dev/null and b/2023/06/30/MobileNet/721c0945ad57422da5c344f802e29d48.png differ
diff --git a/2023/06/30/MobileNet/7abdcc43b7bb47c8937195e9a97f8ab3.png b/2023/06/30/MobileNet/7abdcc43b7bb47c8937195e9a97f8ab3.png
new file mode 100644
index 0000000..c10d5b4
Binary files /dev/null and b/2023/06/30/MobileNet/7abdcc43b7bb47c8937195e9a97f8ab3.png differ
diff --git a/2023/06/30/MobileNet/7ee519c66af94a6b9d3eb69cea3ce7bf.png b/2023/06/30/MobileNet/7ee519c66af94a6b9d3eb69cea3ce7bf.png
new file mode 100644
index 0000000..5906efb
Binary files /dev/null and b/2023/06/30/MobileNet/7ee519c66af94a6b9d3eb69cea3ce7bf.png differ
diff --git a/2023/06/30/MobileNet/cd3017db342c44c5ae247f81d74e8413.png b/2023/06/30/MobileNet/cd3017db342c44c5ae247f81d74e8413.png
new file mode 100644
index 0000000..ca8cbd6
Binary files /dev/null and b/2023/06/30/MobileNet/cd3017db342c44c5ae247f81d74e8413.png differ
diff --git a/2023/06/30/MobileNet/dfc1b9f5f1c7443e85b6190eb6a8422b.png b/2023/06/30/MobileNet/dfc1b9f5f1c7443e85b6190eb6a8422b.png
new file mode 100644
index 0000000..d142f60
Binary files /dev/null and b/2023/06/30/MobileNet/dfc1b9f5f1c7443e85b6190eb6a8422b.png differ
diff --git a/2023/06/30/MobileNet/ed74994c96c043b086a6ef061bf0d4af.png b/2023/06/30/MobileNet/ed74994c96c043b086a6ef061bf0d4af.png
new file mode 100644
index 0000000..6dcbca1
Binary files /dev/null and b/2023/06/30/MobileNet/ed74994c96c043b086a6ef061bf0d4af.png differ
diff --git a/2023/06/30/MobileNet/f7310662dff144a79bce1bdccf5f90b2.png b/2023/06/30/MobileNet/f7310662dff144a79bce1bdccf5f90b2.png
new file mode 100644
index 0000000..c8e92f6
Binary files /dev/null and b/2023/06/30/MobileNet/f7310662dff144a79bce1bdccf5f90b2.png differ
diff --git a/2023/06/30/MobileNet/f750cdd5d58440e795006c3bee29c78c.png b/2023/06/30/MobileNet/f750cdd5d58440e795006c3bee29c78c.png
new file mode 100644
index 0000000..3384975
Binary files /dev/null and b/2023/06/30/MobileNet/f750cdd5d58440e795006c3bee29c78c.png differ
diff --git a/2023/06/30/MobileNet/index.html b/2023/06/30/MobileNet/index.html
new file mode 100644
index 0000000..be2e031
--- /dev/null
+++ b/2023/06/30/MobileNet/index.html
@@ -0,0 +1,451 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="MobileNet系列MobileNetv1贡献：  提出了深度可分离卷积，将标准卷积用逐通道卷积+逐点卷积来代替 能够在边端设备使用，在保证效果的同时提升速度  深度可分离卷积深度级可分离卷积其实是一种可分解卷积操作（factorized convolutions）。其可以分解为两个更小的操作：深度卷积（depthwise  convolution） 和点卷积（ pointwise convol">
+<meta property="og:type" content="article">
+<meta property="og:title" content="MobileNet">
+<meta property="og:url" content="http://example.com/2023/06/30/MobileNet/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="MobileNet系列MobileNetv1贡献：  提出了深度可分离卷积，将标准卷积用逐通道卷积+逐点卷积来代替 能够在边端设备使用，在保证效果的同时提升速度  深度可分离卷积深度级可分离卷积其实是一种可分解卷积操作（factorized convolutions）。其可以分解为两个更小的操作：深度卷积（depthwise  convolution） 和点卷积（ pointwise convol">
+<meta property="og:locale" content="zh_CN">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/ed74994c96c043b086a6ef061bf0d4af.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/7ee519c66af94a6b9d3eb69cea3ce7bf.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/f750cdd5d58440e795006c3bee29c78c.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/721c0945ad57422da5c344f802e29d48.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/cd3017db342c44c5ae247f81d74e8413.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/6faa54a4ef7a4a4bb13c16196de618c8.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/3ad597ec791743ca9fbea1f78cf0bd8d.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/3e28ca45a556474ab109a013a6efb3c2.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/099f6b5094204e1faf457ff6677f730e.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/f7310662dff144a79bce1bdccf5f90b2.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/dfc1b9f5f1c7443e85b6190eb6a8422b.png">
+<meta property="og:image" content="http://example.com/2023/06/30/MobileNet/7abdcc43b7bb47c8937195e9a97f8ab3.png">
+<meta property="article:published_time" content="2023-06-30T08:10:03.000Z">
+<meta property="article:modified_time" content="2023-06-30T08:13:52.303Z">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+<meta name="twitter:image" content="http://example.com/2023/06/30/MobileNet/ed74994c96c043b086a6ef061bf0d4af.png">
+
+<link rel="canonical" href="http://example.com/2023/06/30/MobileNet/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : false,
+    isPost : true,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>MobileNet | 凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content post posts-expand">
+            
+
+    
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/MobileNet/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h1 class="post-title" itemprop="name headline">
+          MobileNet
+        </h1>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2023-06-30 16:10:03 / 修改时间：16:13:52" itemprop="dateCreated datePublished" datetime="2023-06-30T16:10:03+08:00">2023-06-30</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+        <h1 id="MobileNet系列"><a href="#MobileNet系列" class="headerlink" title="MobileNet系列"></a>MobileNet系列</h1><h2 id="MobileNetv1"><a href="#MobileNetv1" class="headerlink" title="MobileNetv1"></a>MobileNetv1</h2><p>贡献：</p>
+<ul>
+<li>提出了深度可分离卷积，将标准卷积用逐通道卷积+逐点卷积来代替</li>
+<li>能够在边端设备使用，在保证效果的同时提升速度</li>
+</ul>
+<h3 id="深度可分离卷积"><a href="#深度可分离卷积" class="headerlink" title="深度可分离卷积"></a>深度可分离卷积</h3><p>深度级可分离卷积其实是一种可分解卷积操作（factorized convolutions）。其可以分解为两个更小的操作：深度卷积（depthwise  convolution） 和点卷积（ pointwise convolution）。</p>
+<p>对于一个标准卷积，输入一个$12<em>12</em>3$的一个输入特征图，经过$ 5<em>5</em>3$的卷积核得到一个$8<em>8</em>1$的输出特征图。如果我们此时有$256$个特征图，我们将会得到一个$8<em>8</em>256$的输出特征图，如下图所示:</p>
+<p><img src="/2023/06/30/MobileNet/ed74994c96c043b086a6ef061bf0d4af.png" alt="img"></p>
+<p> 对于深度卷积(其实就是组为1 的分组卷积)来说，将特征图通道全部进行分解，每个特征图都是单通道模式，并对每一个单独的通道特征图进行卷积操作。这样就会得到和原特征图一样通道数的生成特征图。假设输入$12<em>12</em>3$ 的特征图，经过$5<em>5</em>1<em>3$的深度卷积之后，得到了$8</em>8*3$的输出特征图。输入和输出的维度是不变的3，这样就会有一个问题，通道数太少，特征图的维度太少，不能够有效的获得信息。</p>
+<p><img src="/2023/06/30/MobileNet/7ee519c66af94a6b9d3eb69cea3ce7bf.png" alt="img"></p>
+<p>逐点卷积就是$1<em>1$卷积，主要作用就是对特征图进行升维和降维。在深度卷积的过程中，我们得到了$8</em>8<em>3$的输出特征图，我们用256个$1</em>1<em>3$的卷积核对输入特征图进行卷积操作，输出的特征图和标准的卷积操作一样都是$8</em>8*256$了。如下图：</p>
+<p><img src="/2023/06/30/MobileNet/f750cdd5d58440e795006c3bee29c78c.png" alt="img"></p>
+<p>标准卷积与深度可分离卷积的过程对比如下：</p>
+<p><img src="/2023/06/30/MobileNet/721c0945ad57422da5c344f802e29d48.png" alt="img"></p>
+<h3 id="深度可分离卷积的优势"><a href="#深度可分离卷积的优势" class="headerlink" title="深度可分离卷积的优势"></a>深度可分离卷积的优势</h3><p>对于标准卷积来说，卷积核的尺寸是$D_k<em>D_k</em>M$，一共有$N$个，所以标准卷积的参数量是：</p>
+<p><img src="/2023/06/30/MobileNet/cd3017db342c44c5ae247f81d74e8413.png" alt="img"></p>
+<p>其计算量计算如下</p>
+<p><img src="/2023/06/30/MobileNet/6faa54a4ef7a4a4bb13c16196de618c8.png" alt="img"></p>
+<p>,深度可分离卷积的参数量由深度卷积和逐点卷积两部分组成。深度卷积的卷积核尺寸$D_k<em>D_k</em>M$；逐点卷积的卷积核尺寸为$1<em>1</em>M$，一共有$N$个，所以深度可分离卷积的参数量是：</p>
+<p><img src="/2023/06/30/MobileNet/3ad597ec791743ca9fbea1f78cf0bd8d.png" alt="img"></p>
+<p>其计算量计算如下</p>
+<p><img src="/2023/06/30/MobileNet/3e28ca45a556474ab109a013a6efb3c2.png" alt="img"></p>
+<h3 id="网络结构"><a href="#网络结构" class="headerlink" title="网络结构"></a>网络结构</h3><p><img src="/2023/06/30/MobileNet/099f6b5094204e1faf457ff6677f730e.png" alt="在这里插入图片描述"></p>
+<p>MobileNetV1 的结构如表 1 所示，下采样是使用步长为 2 的卷积实现的，共 28 层</p>
+<p><img src="/2023/06/30/MobileNet/f7310662dff144a79bce1bdccf5f90b2.png" alt="在这里插入图片描述"></p>
+<h2 id="MobileNetv2"><a href="#MobileNetv2" class="headerlink" title="MobileNetv2"></a>MobileNetv2</h2><p>贡献：</p>
+<ul>
+<li>提出了倒残差结构：先 1x1 升维，使用 3x3 提取特征，最后再 1x1 降维，和残差结构的先降维后升维的结构是反的</li>
+<li>提出了线性瓶颈</li>
+</ul>
+<p>MobileNetV2中的核心思想是，瓶颈对模型的中间输入和输出进行编码，而内层则用于封装模型从较低级别概念（如：像素等）转换到较高级别描述符（如：图像类别等）的能力。最后，与传统的剩余连接一样，快捷方式能够实现更快地训练速度和更高的准确率。</p>
+<h3 id="倒残差结构"><a href="#倒残差结构" class="headerlink" title="倒残差结构"></a>倒残差结构</h3><p>实验发现在 MobileNetv1 中，深度卷积核的参数较多为 0，也就是其卷积核没有发挥提取特征作用。那么作者先通过 1x1 卷积将维度上升，再使用深度卷积，深度卷积的输入输出通道数更高，就能够提取更多的信息。</p>
+<p><img src="/2023/06/30/MobileNet/dfc1b9f5f1c7443e85b6190eb6a8422b.png" alt="在这里插入图片描述"></p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">残差模块：输入首先经过1*1的卷积进行压缩，然后使用3*3的卷积进行特征提取，最后在用1*1的卷积把通道数变换回去。整个过程是“压缩-卷积-扩张”。这样做的目的是减少3*3模块的计算量，提高残差模块的计算效率。</span><br><span class="line">倒残差模块：输入首先经过1*1的卷积进行通道扩张，然后使用3*3的depthwise卷积，最后使用1*1的pointwise卷积将通道数压缩回去。整个过程是“扩张-卷积-压缩”。为什么这么做呢？因为depthwise卷积不能改变通道数，因此特征提取受限于输入的通道数，所以将通道数先提升上去。文中的扩展因子为6。</span><br></pre></td></tr></table></figure>
+<h3 id="线性瓶颈"><a href="#线性瓶颈" class="headerlink" title="线性瓶颈"></a>线性瓶颈</h3><p>线性瓶颈结构，就是末层卷积使用线性激活的瓶颈结构（将 ReLU 函数替换为线性函数），因为 ReLU 激活函数对低维信息会造成很大损失。</p>
+<p>具体来说当低维信息映射到高维，然后经过Relu映射回低维时，若映射到的维度相对较高，则信息变换回去的损失较小；若映射到的维度相对较低，则信息变换回去后损失很大，如下图所示：</p>
+<p><img src="/2023/06/30/MobileNet/7abdcc43b7bb47c8937195e9a97f8ab3.png" alt="在这里插入图片描述"></p>
+<h2 id="MobileNetv3"><a href="#MobileNetv3" class="headerlink" title="MobileNetv3"></a>MobileNetv3</h2><p>贡献：</p>
+<ul>
+<li>使用 NAS 的方法搜寻更适合移动 CPU 的结构</li>
+<li>提出了 MobileNetV3-Large 和 MobileNetV3-Small，并引入了 h-swish 和 SE 等模块进行效果优化</li>
+</ul>
+<p>MobileNetV3 提出的目标就是为了实现移动设备上的模型的准确率和耗时的平衡。</p>
+<ul>
+<li>MobileNetV1 引入了深度可分离卷积，来代替传统卷积</li>
+<li>MobileNetV2 引入了线性瓶颈和反残差结构，来提升速度</li>
+<li>MobileNetV3 为了 NAS 来搜寻更合适的网络，并且引入了 Swish 非线性方法的优化版本 h-swish 和 SE 模块，建立更高效的网络</li>
+</ul>
+<h3 id="网络优化"><a href="#网络优化" class="headerlink" title="网络优化"></a>网络优化</h3><ul>
+<li><strong>修改初始卷积核的个数</strong><ul>
+<li>对于v2的输入层，通过3*3卷积将输入扩张成32维。作者发现，其实可以32再降低一点，所以这里改成了16，在保证了精度的前提下，降低了3ms的速度。关于这一点改变可以在最后给出的网络结构中看到</li>
+</ul>
+</li>
+<li><strong>更改网络末端计算量大的层</strong></li>
+<li><strong>引入了SE模块</strong></li>
+<li><strong>H-Swish激活函数</strong></li>
+</ul>
+
+    </div>
+
+    
+    
+    
+
+      <footer class="post-footer">
+
+        
+
+
+        
+    <div class="post-nav">
+      <div class="post-nav-item">
+    <a href="/2023/06/30/ShuffleNet/" rel="prev" title="ShuffleNet">
+      <i class="fa fa-chevron-left"></i> ShuffleNet
+    </a></div>
+      <div class="post-nav-item">
+    <a href="/2023/06/30/VovNet/" rel="next" title="VovNet">
+      VovNet <i class="fa fa-chevron-right"></i>
+    </a></div>
+    </div>
+      </footer>
+    
+  </article>
+  
+  
+  
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+          <div class="post-toc motion-element"><ol class="nav"><li class="nav-item nav-level-1"><a class="nav-link" href="#MobileNet%E7%B3%BB%E5%88%97"><span class="nav-number">1.</span> <span class="nav-text">MobileNet系列</span></a><ol class="nav-child"><li class="nav-item nav-level-2"><a class="nav-link" href="#MobileNetv1"><span class="nav-number">1.1.</span> <span class="nav-text">MobileNetv1</span></a><ol class="nav-child"><li class="nav-item nav-level-3"><a class="nav-link" href="#%E6%B7%B1%E5%BA%A6%E5%8F%AF%E5%88%86%E7%A6%BB%E5%8D%B7%E7%A7%AF"><span class="nav-number">1.1.1.</span> <span class="nav-text">深度可分离卷积</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#%E6%B7%B1%E5%BA%A6%E5%8F%AF%E5%88%86%E7%A6%BB%E5%8D%B7%E7%A7%AF%E7%9A%84%E4%BC%98%E5%8A%BF"><span class="nav-number">1.1.2.</span> <span class="nav-text">深度可分离卷积的优势</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84"><span class="nav-number">1.1.3.</span> <span class="nav-text">网络结构</span></a></li></ol></li><li class="nav-item nav-level-2"><a class="nav-link" href="#MobileNetv2"><span class="nav-number">1.2.</span> <span class="nav-text">MobileNetv2</span></a><ol class="nav-child"><li class="nav-item nav-level-3"><a class="nav-link" href="#%E5%80%92%E6%AE%8B%E5%B7%AE%E7%BB%93%E6%9E%84"><span class="nav-number">1.2.1.</span> <span class="nav-text">倒残差结构</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#%E7%BA%BF%E6%80%A7%E7%93%B6%E9%A2%88"><span class="nav-number">1.2.2.</span> <span class="nav-text">线性瓶颈</span></a></li></ol></li><li class="nav-item nav-level-2"><a class="nav-link" href="#MobileNetv3"><span class="nav-number">1.3.</span> <span class="nav-text">MobileNetv3</span></a><ol class="nav-child"><li class="nav-item nav-level-3"><a class="nav-link" href="#%E7%BD%91%E7%BB%9C%E4%BC%98%E5%8C%96"><span class="nav-number">1.3.1.</span> <span class="nav-text">网络优化</span></a></li></ol></li></ol></li></ol></div>
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+
+  
+
+</body>
+</html>
diff --git a/2023/06/30/RegVGG/4H7{5]]_TNU%XI%5PPH9KA9.png b/2023/06/30/RegVGG/4H7{5]]_TNU%XI%5PPH9KA9.png
new file mode 100644
index 0000000..ad1c97d
Binary files /dev/null and b/2023/06/30/RegVGG/4H7{5]]_TNU%XI%5PPH9KA9.png differ
diff --git a/2023/06/30/RegVGG/aa1ad31949b54e76b0a282fab915478f.png b/2023/06/30/RegVGG/aa1ad31949b54e76b0a282fab915478f.png
new file mode 100644
index 0000000..ab73da2
Binary files /dev/null and b/2023/06/30/RegVGG/aa1ad31949b54e76b0a282fab915478f.png differ
diff --git a/2023/06/30/RegVGG/index.html b/2023/06/30/RegVGG/index.html
new file mode 100644
index 0000000..bb138cb
--- /dev/null
+++ b/2023/06/30/RegVGG/index.html
@@ -0,0 +1,436 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="RepVGG: Making VGG-style ConvNets Great Again主要贡献：提出了一种简单但功能强大的卷积神经网络结构，其网络结构，在推理时只具有3x3卷积和ReLU，在训练时具有多分支拓扑结构，通过结构重参数化技术实现训练时间和推理时间的解耦，并命名为RepVGG。 对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的">
+<meta property="og:type" content="article">
+<meta property="og:title" content="RegVGG">
+<meta property="og:url" content="http://example.com/2023/06/30/RegVGG/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="RepVGG: Making VGG-style ConvNets Great Again主要贡献：提出了一种简单但功能强大的卷积神经网络结构，其网络结构，在推理时只具有3x3卷积和ReLU，在训练时具有多分支拓扑结构，通过结构重参数化技术实现训练时间和推理时间的解耦，并命名为RepVGG。 对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的">
+<meta property="og:locale" content="zh_CN">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/4H7%7B5]]_TNU%XI%5PPH9KA9.png">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/aa1ad31949b54e76b0a282fab915478f.png">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-84cdab58644fcbcafb3c690c1669b879_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-b438e3a2ee316a6054a4e4c45443fef3_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-cd0d2de067e4850fe4fafce70f58acf1_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-89854f076457c9c03b733a389db96993_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-88962d2f0fc8f1371d0d521c04c2a57d_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-b7409c315f10a158331bf90fcf32efd6_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-b05e6fa96bd642c1da2d36d39a543d7a_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-bc97e575d5007645901830109828a36f_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/RegVGG/v2-f5ce0b89a10aa36223275dccd6327cbe_1440w.webp">
+<meta property="article:published_time" content="2023-06-30T08:10:43.000Z">
+<meta property="article:modified_time" content="2023-06-30T08:13:03.550Z">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+<meta name="twitter:image" content="http://example.com/2023/06/30/RegVGG/4H7%7B5]]_TNU%XI%5PPH9KA9.png">
+
+<link rel="canonical" href="http://example.com/2023/06/30/RegVGG/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : false,
+    isPost : true,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>RegVGG | 凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content post posts-expand">
+            
+
+    
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/RegVGG/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h1 class="post-title" itemprop="name headline">
+          RegVGG
+        </h1>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2023-06-30 16:10:43 / 修改时间：16:13:03" itemprop="dateCreated datePublished" datetime="2023-06-30T16:10:43+08:00">2023-06-30</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+        <h2 id="RepVGG-Making-VGG-style-ConvNets-Great-Again"><a href="#RepVGG-Making-VGG-style-ConvNets-Great-Again" class="headerlink" title="RepVGG: Making VGG-style ConvNets Great Again"></a>RepVGG: Making VGG-style ConvNets Great Again</h2><p>主要贡献：提出了一种简单但功能强大的卷积神经网络结构，其网络结构，在推理时只具有3x3卷积和ReLU，在训练时具有多分支拓扑结构，通过结构重参数化技术实现训练时间和推理时间的解耦，并命名为RepVGG。</p>
+<h3 id="对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下："><a href="#对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下：" class="headerlink" title="对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下："></a>对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下：</h3><ul>
+<li>会降低模型的推理速度并且减少内存利用率</li>
+<li>有些节点及算子会增加内存消耗并且对别的设备不友好。</li>
+</ul>
+<p>论文中提到，大部分学者提到FLOPs（浮点运算的数量）会影响推理速度，但是论文中作者做了实验发现FLOPs对模型的速度并不是强相关。</p>
+<p>作者提出的RepVGG，其具有以下优点：</p>
+<ul>
+<li>该模型具有类似VGG的拓扑结构，没有任何分支，这意味着每一层都将其唯一前一层的输出作为输入，并将输出馈送到其唯一的后一层。</li>
+<li>该模型的主体部分仅使用3 × 3的conv和ReLU。</li>
+<li>模型的具体架构(包括具体的深度和层宽度)的实例化没有模型结构的自动搜索，手工细化，复合缩放，也没有其他代价较大的设计。</li>
+</ul>
+<h3 id="作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。"><a href="#作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。" class="headerlink" title="作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。"></a>作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。</h3><p>针对多分支架构的优点集中于训练上，而不希望用于推理上，故提出重参数化的方法来解耦训练时的多分支结构和推理时的简单架构，即意味着通过转换其参数将架构从一个转换到另一个。</p>
+<p><img src="/2023/06/30/RegVGG/4H7{5]]_TNU%XI%5PPH9KA9.png" alt="img"></p>
+<p>如上图中(b)和(c)所示，即为转换之后的RepVGG和转换之前的RepVGG。其将分支看作退化的1x1卷积，进一步看作退化的3x3卷积。从而可以从(b)中的模型架构转变为(c)中的模型架构，可以用3x3卷积、BN、1x1卷积等模块进行原模型的等效替换。从而提升计算速度。</p>
+<h3 id="本文的核心贡献点如下："><a href="#本文的核心贡献点如下：" class="headerlink" title="本文的核心贡献点如下："></a>本文的核心贡献点如下：</h3><ul>
+<li>我们提出了RepVGG，这是一种简单的架构，与最先进的技术相比，具有良好的速度-精度权衡。</li>
+<li>我们建议使用结构重参数化将训练时间的多分支拓扑与推理时间的平面结构解耦。</li>
+<li>我们展示了RepVGG在图像分类和语义分割方面的有效性，以及实现的效率和易用性。</li>
+</ul>
+<h3 id="如何实现结构重参数化："><a href="#如何实现结构重参数化：" class="headerlink" title="如何实现结构重参数化："></a>如何实现结构重参数化：</h3><p>在上述提到，RepVGG在训练时每一层都有三个分支，分别是identify，1x1，3x3，模型训练时，输出$ y=x+g(x)+f(x) $，每一层就需要3个参数块，对于n层网络，就需要$3*n$个参数块。所以我们需要重参数化，会使得推理时模型参数量小。</p>
+<p><img src="/2023/06/30/RegVGG/aa1ad31949b54e76b0a282fab915478f.png" alt="img"></p>
+<p>上图中的过程即为将训练好的多分支模型转换为单分支模型，从而达到推理时的高性能</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">对于重参数化的实现主要存在两个问题：</span><br><span class="line">第一个问题，在每个卷积后都接上一个BN，怎么将卷积和BN融合。</span><br><span class="line">第二个问题，存在不同大小的卷积，怎么将几个不同大小的卷积融合在一起。</span><br></pre></td></tr></table></figure>
+<p>对于第一个问题，在每个卷积后都接上一个BN，怎么将卷积和BN融合。</p>
+<p><img src="/2023/06/30/RegVGG/v2-84cdab58644fcbcafb3c690c1669b879_1440w.webp" alt="v2-84cdab58644fcbcafb3c690c1669b879_1440w"></p>
+<p>这其实就是一个卷积层，只不过权重考虑了BN的参数 我们令：</p>
+<p><img src="/2023/06/30/RegVGG/v2-b438e3a2ee316a6054a4e4c45443fef3_1440w.webp" alt="img"></p>
+<p>最终的融合结果即为：</p>
+<p><img src="/2023/06/30/RegVGG/v2-cd0d2de067e4850fe4fafce70f58acf1_1440w.webp" alt="img"></p>
+<h3 id="2-2-2-conv-3x3和conv-1x1合并"><a href="#2-2-2-conv-3x3和conv-1x1合并" class="headerlink" title="2.2.2. conv_3x3和conv_1x1合并"></a>2.2.2. conv_3x3和conv_1x1合并</h3><p> 这里为了详细说明下，假设输入特征图特征图尺寸为(1, 2, 3, 3)，输出特征图尺寸与输入特征图尺寸相同，且stride=1，下面展示是conv_3x3的卷积过程：</p>
+<p><img src="/2023/06/30/RegVGG/v2-89854f076457c9c03b733a389db96993_1440w.webp" alt="img"></p>
+<p> conv_3x3卷积过程大家都很熟悉，看上图一目了然，首先将特征图进行pad=kernel_size//2，然后从左上角开始(上图中红色位置)做卷积运算，最终得到右边output输出。下面是conv_1x1卷积过程：</p>
+<p><img src="/2023/06/30/RegVGG/v2-88962d2f0fc8f1371d0d521c04c2a57d_1440w.webp" alt="img"></p>
+<p> 同理，conv_1x1跟conv_3x3卷积过程一样，从上图中左边input中红色位置开始进行卷积，得到右边的输出，观察conv_1x1和conv_3x3的卷积过程，可以发现他们都是从input中红色起点位置开始，走过相同的路径，因此，将conv_3x3和conv_1x1进行融合，只需要将conv_1x1卷积核padding成conv_3x3的形式，然后于conv_3x3相加，再与特征图做卷积(这里依据卷积的可加性原理)即可，也就是conv_1x1的卷积过程变成如下形式：</p>
+<p><img src="/2023/06/30/RegVGG/v2-b7409c315f10a158331bf90fcf32efd6_1440w.webp" alt="img"></p>
+<h3 id="2-2-3-identity-等效为特殊权重的卷积层"><a href="#2-2-3-identity-等效为特殊权重的卷积层" class="headerlink" title="2.2.3. identity 等效为特殊权重的卷积层"></a>2.2.3. identity 等效为特殊权重的卷积层</h3><p> identity层就是输入直接等于输出，也即input中每个通道每个元素直接输出到output中对应的通道，用一个什么样的卷积层来等效这个操作呢，我们知道，卷积操作必须涉及要将每个通道加起来然后输出的，然后又要保证input中的每个通道每个元素等于output中，从这一点，我们可以从PWconv想到，只要令当前通道的卷积核参数为1，其余的卷积核参数为0，就可以做到；从DWconv中可以想到，用conv_1x1卷积且卷积核权重为1，就能保证每次卷积不改变输入，因此，identity可以等效成如下的conv_1x1的卷积形式：</p>
+<p><img src="/2023/06/30/RegVGG/v2-b05e6fa96bd642c1da2d36d39a543d7a_1440w.webp" alt="img"></p>
+<p>从上面的分析，我们进一步可以将indentity -&gt; conv_1x1 -&gt; conv_3x3的形式，如下所示：</p>
+<p><img src="/2023/06/30/RegVGG/v2-bc97e575d5007645901830109828a36f_1440w.webp" alt="img"></p>
+<p> 上述过程就是对应论文中所属的下述从step1到step2的变换过程，涉及conv于BN层融合，conv_1x1与identity转化为等价的conv_3x3的形式：</p>
+<p><img src="/2023/06/30/RegVGG/v2-f5ce0b89a10aa36223275dccd6327cbe_1440w.webp" alt="img"></p>
+<p> 结构重参数化的最后一步也就是上图中step2 -&gt; step3， 这一步就是利用卷积可加性原理，将三个分支的卷积层和bias对应相加组成最终一个conv<em>3x3的形式即可。</em><br>这里，大家可能既然把BN，identity，conv_1x1和conv_3x3都融合在一起了，为什么不干脆把ReLU也融合进去呢？其实也是可以将ReLU层进行融合的，<strong>但是需要进行量化</strong>，<strong>conv输出tensor的值域直接使用relu输出的值阈（同时对应计算Ｓ和Z），就可以完成conv和relu合并。无量化动作的优化是无法完成conv+relu的合并*</strong>。这里的知识请大家参考论文：<em><br><em>*<a href="https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1712.05877">Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference</a>。</em></em></p>
+
+    </div>
+
+    
+    
+    
+
+      <footer class="post-footer">
+
+        
+
+
+        
+    <div class="post-nav">
+      <div class="post-nav-item">
+    <a href="/2023/06/30/VovNet/" rel="prev" title="VovNet">
+      <i class="fa fa-chevron-left"></i> VovNet
+    </a></div>
+      <div class="post-nav-item">
+    <a href="/2023/06/30/CSPNet/" rel="next" title="CSPNet">
+      CSPNet <i class="fa fa-chevron-right"></i>
+    </a></div>
+    </div>
+      </footer>
+    
+  </article>
+  
+  
+  
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+          <div class="post-toc motion-element"><ol class="nav"><li class="nav-item nav-level-2"><a class="nav-link" href="#RepVGG-Making-VGG-style-ConvNets-Great-Again"><span class="nav-number">1.</span> <span class="nav-text">RepVGG: Making VGG-style ConvNets Great Again</span></a><ol class="nav-child"><li class="nav-item nav-level-3"><a class="nav-link" href="#%E5%AF%B9%E4%BA%8E%E8%BE%83%E4%B8%BA%E5%A4%8D%E6%9D%82%E7%9A%84%E7%BD%91%E7%BB%9C%EF%BC%88ResNet%E7%9A%84%E6%AE%8B%E5%B7%AE%E5%9D%97%E4%BB%A5%E5%8F%8AInception%E7%9A%84%E5%88%86%E6%94%AF%E8%BF%9E%E6%8E%A5%EF%BC%89%EF%BC%8C%E5%85%B6%E7%B2%BE%E5%BA%A6%E5%BE%80%E5%BE%80%E8%BE%83%E5%A5%BD%EF%BC%8C%E4%BD%86%E5%85%B6%E6%9C%AC%E8%BA%AB%E5%AD%98%E5%9C%A8%E7%9A%84%E9%97%AE%E9%A2%98%E5%A6%82%E4%B8%8B%EF%BC%9A"><span class="nav-number">1.1.</span> <span class="nav-text">对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下：</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#%E4%BD%9C%E8%80%85%E8%AE%A4%E4%B8%BA%EF%BC%8C%E5%A4%9A%E5%88%86%E6%94%AF%E6%9E%B6%E6%9E%84%E5%8F%AF%E4%BB%A5%E7%9C%8B%E4%BD%9C%E4%B8%BA%E8%AE%B8%E5%A4%9A%E8%BE%83%E6%B5%85%E6%A8%A1%E5%9E%8B%E7%9A%84%E9%9A%90%E5%BC%8F%E9%9B%86%E6%88%90%EF%BC%8C%E5%B9%B6%E4%B8%94%E5%85%B7%E6%9C%89%E8%BE%83%E5%A5%BD%E7%9A%84%E6%80%A7%E8%83%BD%E6%B0%B4%E5%B9%B3%E3%80%82"><span class="nav-number">1.2.</span> <span class="nav-text">作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#%E6%9C%AC%E6%96%87%E7%9A%84%E6%A0%B8%E5%BF%83%E8%B4%A1%E7%8C%AE%E7%82%B9%E5%A6%82%E4%B8%8B%EF%BC%9A"><span class="nav-number">1.3.</span> <span class="nav-text">本文的核心贡献点如下：</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#%E5%A6%82%E4%BD%95%E5%AE%9E%E7%8E%B0%E7%BB%93%E6%9E%84%E9%87%8D%E5%8F%82%E6%95%B0%E5%8C%96%EF%BC%9A"><span class="nav-number">1.4.</span> <span class="nav-text">如何实现结构重参数化：</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#2-2-2-conv-3x3%E5%92%8Cconv-1x1%E5%90%88%E5%B9%B6"><span class="nav-number">1.5.</span> <span class="nav-text">2.2.2. conv_3x3和conv_1x1合并</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#2-2-3-identity-%E7%AD%89%E6%95%88%E4%B8%BA%E7%89%B9%E6%AE%8A%E6%9D%83%E9%87%8D%E7%9A%84%E5%8D%B7%E7%A7%AF%E5%B1%82"><span class="nav-number">1.6.</span> <span class="nav-text">2.2.3. identity 等效为特殊权重的卷积层</span></a></li></ol></li></ol></div>
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+
+  
+
+</body>
+</html>
diff --git a/2023/06/30/RegVGG/v2-84cdab58644fcbcafb3c690c1669b879_1440w.webp b/2023/06/30/RegVGG/v2-84cdab58644fcbcafb3c690c1669b879_1440w.webp
new file mode 100644
index 0000000..30c64ae
Binary files /dev/null and b/2023/06/30/RegVGG/v2-84cdab58644fcbcafb3c690c1669b879_1440w.webp differ
diff --git a/2023/06/30/RegVGG/v2-88962d2f0fc8f1371d0d521c04c2a57d_1440w.webp b/2023/06/30/RegVGG/v2-88962d2f0fc8f1371d0d521c04c2a57d_1440w.webp
new file mode 100644
index 0000000..88eec4e
Binary files /dev/null and b/2023/06/30/RegVGG/v2-88962d2f0fc8f1371d0d521c04c2a57d_1440w.webp differ
diff --git a/2023/06/30/RegVGG/v2-89854f076457c9c03b733a389db96993_1440w.webp b/2023/06/30/RegVGG/v2-89854f076457c9c03b733a389db96993_1440w.webp
new file mode 100644
index 0000000..372ecce
Binary files /dev/null and b/2023/06/30/RegVGG/v2-89854f076457c9c03b733a389db96993_1440w.webp differ
diff --git a/2023/06/30/RegVGG/v2-b05e6fa96bd642c1da2d36d39a543d7a_1440w.webp b/2023/06/30/RegVGG/v2-b05e6fa96bd642c1da2d36d39a543d7a_1440w.webp
new file mode 100644
index 0000000..a7c55e9
Binary files /dev/null and b/2023/06/30/RegVGG/v2-b05e6fa96bd642c1da2d36d39a543d7a_1440w.webp differ
diff --git a/2023/06/30/RegVGG/v2-b438e3a2ee316a6054a4e4c45443fef3_1440w.webp b/2023/06/30/RegVGG/v2-b438e3a2ee316a6054a4e4c45443fef3_1440w.webp
new file mode 100644
index 0000000..1fea7f0
Binary files /dev/null and b/2023/06/30/RegVGG/v2-b438e3a2ee316a6054a4e4c45443fef3_1440w.webp differ
diff --git a/2023/06/30/RegVGG/v2-b7409c315f10a158331bf90fcf32efd6_1440w.webp b/2023/06/30/RegVGG/v2-b7409c315f10a158331bf90fcf32efd6_1440w.webp
new file mode 100644
index 0000000..955b921
Binary files /dev/null and b/2023/06/30/RegVGG/v2-b7409c315f10a158331bf90fcf32efd6_1440w.webp differ
diff --git a/2023/06/30/RegVGG/v2-bc97e575d5007645901830109828a36f_1440w.webp b/2023/06/30/RegVGG/v2-bc97e575d5007645901830109828a36f_1440w.webp
new file mode 100644
index 0000000..8b8af4d
Binary files /dev/null and b/2023/06/30/RegVGG/v2-bc97e575d5007645901830109828a36f_1440w.webp differ
diff --git a/2023/06/30/RegVGG/v2-cd0d2de067e4850fe4fafce70f58acf1_1440w.webp b/2023/06/30/RegVGG/v2-cd0d2de067e4850fe4fafce70f58acf1_1440w.webp
new file mode 100644
index 0000000..c18fd59
Binary files /dev/null and b/2023/06/30/RegVGG/v2-cd0d2de067e4850fe4fafce70f58acf1_1440w.webp differ
diff --git a/2023/06/30/RegVGG/v2-f5ce0b89a10aa36223275dccd6327cbe_1440w.webp b/2023/06/30/RegVGG/v2-f5ce0b89a10aa36223275dccd6327cbe_1440w.webp
new file mode 100644
index 0000000..c6e7a0c
Binary files /dev/null and b/2023/06/30/RegVGG/v2-f5ce0b89a10aa36223275dccd6327cbe_1440w.webp differ
diff --git a/2023/06/30/ShuffleNet/0ddfad3d997b42c1a675fa533f4645b2.png b/2023/06/30/ShuffleNet/0ddfad3d997b42c1a675fa533f4645b2.png
new file mode 100644
index 0000000..5555a1a
Binary files /dev/null and b/2023/06/30/ShuffleNet/0ddfad3d997b42c1a675fa533f4645b2.png differ
diff --git a/2023/06/30/ShuffleNet/index.html b/2023/06/30/ShuffleNet/index.html
new file mode 100644
index 0000000..3f46777
--- /dev/null
+++ b/2023/06/30/ShuffleNet/index.html
@@ -0,0 +1,425 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="ShuffleNet系列ShuffleNetv1现有网络的问题： 现有的高效结构如 Xception 和 ResNeXt，其实在极小的网络上的计算效率依然不太高，主要在于很耗费计算量的 1x1 卷积。 ShuffleNet 如何解决：使用 point-wise 分组卷积和 channel shuffle 两个操作，很好的降低计算量并保持准确率。这种结构能够允许网络使用更多的通道，帮助 encode">
+<meta property="og:type" content="article">
+<meta property="og:title" content="ShuffleNet">
+<meta property="og:url" content="http://example.com/2023/06/30/ShuffleNet/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="ShuffleNet系列ShuffleNetv1现有网络的问题： 现有的高效结构如 Xception 和 ResNeXt，其实在极小的网络上的计算效率依然不太高，主要在于很耗费计算量的 1x1 卷积。 ShuffleNet 如何解决：使用 point-wise 分组卷积和 channel shuffle 两个操作，很好的降低计算量并保持准确率。这种结构能够允许网络使用更多的通道，帮助 encode">
+<meta property="og:locale" content="zh_CN">
+<meta property="og:image" content="http://example.com/2023/06/30/ShuffleNet/0ddfad3d997b42c1a675fa533f4645b2.png">
+<meta property="article:published_time" content="2023-06-30T08:09:52.000Z">
+<meta property="article:modified_time" content="2023-06-30T08:14:07.619Z">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+<meta name="twitter:image" content="http://example.com/2023/06/30/ShuffleNet/0ddfad3d997b42c1a675fa533f4645b2.png">
+
+<link rel="canonical" href="http://example.com/2023/06/30/ShuffleNet/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : false,
+    isPost : true,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>ShuffleNet | 凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content post posts-expand">
+            
+
+    
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/ShuffleNet/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h1 class="post-title" itemprop="name headline">
+          ShuffleNet
+        </h1>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2023-06-30 16:09:52 / 修改时间：16:14:07" itemprop="dateCreated datePublished" datetime="2023-06-30T16:09:52+08:00">2023-06-30</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+        <h1 id="ShuffleNet系列"><a href="#ShuffleNet系列" class="headerlink" title="ShuffleNet系列"></a>ShuffleNet系列</h1><h2 id="ShuffleNetv1"><a href="#ShuffleNetv1" class="headerlink" title="ShuffleNetv1"></a>ShuffleNetv1</h2><p><strong>现有网络的问题：</strong></p>
+<p>现有的高效结构如 Xception 和 ResNeXt，其实在极小的网络上的计算效率依然不太高，主要在于很耗费计算量的 1x1 卷积。</p>
+<p><strong>ShuffleNet 如何解决：</strong>使用 point-wise 分组卷积和 channel shuffle 两个操作，很好的降低计算量并保持准确率。这种结构能够允许网络使用更多的通道，帮助 encode 阶段提取更多的信息，这点对极小的网络非常关键。</p>
+<ul>
+<li>使用 point-wise 卷积来降低 1x1 卷积的计算量</li>
+<li>使用 channel shuffle 能够让不同通道的信息进行交互</li>
+</ul>
+<p>这里再介绍几个基本概念：</p>
+<p><strong>分组卷积：</strong>AlexNet 中提出的概念，在 ResNeXt 中有使用，也就是将特征图分为 N 个组，每组分别进行卷积，然后将卷积结果 concat 起来<br><strong>深度可分离卷积：</strong>和 MobileNet 中都有使用，也就是每个特征图使用一个卷积核来提取特征，之后使用 1x1 的卷积进行通道间的特征融合<br><strong>channel shuffle：</strong>shuffle 可以翻译为重新洗牌，也就是把不同组的 channel 再细分一下，打乱重新分组<br><strong>模型加速：</strong>加速推理时候的速度，如剪枝、量化</p>
+<p><img src="/2023/06/30/ShuffleNet/0ddfad3d997b42c1a675fa533f4645b2.png" alt="在这里插入图片描述"></p>
+<h3 id="ShuffleNet的亮点"><a href="#ShuffleNet的亮点" class="headerlink" title="ShuffleNet的亮点"></a>ShuffleNet的亮点</h3><ul>
+<li>结合<strong><em>\</em>Group convolutions**</strong>和<strong><em>\</em>Channel Shuffle**</strong></li>
+</ul>
+<p>​    <strong>group conv的问题：</strong>现在的精简CNN网络设计中使用Group convolutions已经成为一种趋势，它可有效地减少传统CNN所需的密集计算的运算量。但同时由于Groups之间彼此并<strong>不share feature map特征</strong>，这样就会导致每个filter只对限定的一部分输入特征可见，最终使得输出特征集合的表达能力大大降低。</p>
+<p>​    <strong>本文改进点：</strong>为了有效地对冲Groups convolution使用导致的Groups间特征互不相通的负面影响，作者提出了<strong>对Group convolution计算后对输出的output feature maps进行\</strong>shuffle处理*<em>*</em>，以使得接下来的Group convolution filters可在每个group所输出的部分channels构成的集合上进行计算。</p>
+<h2 id="ShuffleNetv2"><a href="#ShuffleNetv2" class="headerlink" title="ShuffleNetv2"></a>ShuffleNetv2</h2><p>贡献： </p>
+<ul>
+<li>提出了更应该使用直接的效率度量方法（如速度、耗时等）</li>
+<li>在 V1 的 channel shuffle 的基础上，又提出了 channel split，增强特征的重用性的同时也减少了计算量</li>
+<li>提出了设计高效网络的方法：<ul>
+<li>使用输入输出通道相同的卷积</li>
+<li>了解使用分组卷积的代价（分组越多，MAC 越大）</li>
+<li>合理的设定分组个数</li>
+<li>降低网络并行的分支（并行越多 MAC 越大）</li>
+<li>减少逐点运算</li>
+</ul>
+</li>
+</ul>
+<p>ShuffleNetV2 首先提出了 4 条设计高效网络的方法：</p>
+<ul>
+<li>G1：Equal channel width minimizes memory access cost (MAC)：当卷积层的输入特征矩阵与输出特征矩阵 channel 相等时 MAC 最小 （保持FLOPs不变时）</li>
+<li>G2： Excessive group convolution increases MAC：当 GConv 的 groups 增大时（保持FLOPs不变时），MAC 也会增大，所以建议针对不同的硬件和需求，更好的设计对应的分组数，而非盲目的增加</li>
+<li>G3： Network fragmentation reduces degree of parallelism：网络设计的碎片化程度（或者说并行的分支数量）越高，速度越慢（Appendix Fig 1）</li>
+<li>G4：Element-wise operations are non-negligible：Element-wise操作，即逐点运算，带来的影响是不可忽视的，轻量级模型中，元素操作占用了相当多的时间，特别是在GPU上。这里的元素操作符包括 ReLU、AddTensor、AddBias 等。将 depthwise convolution 作为一个 element-wise operator，因为它的 MAC/FLOPs 比率也很高</li>
+</ul>
+<p><strong>基于上面4条指导准则总结如下：</strong></p>
+<ul>
+<li>1x1卷积进行平衡输入和输出的通道大小；</li>
+<li>组卷积要谨慎使用，注意分组数；</li>
+<li>避免网络的碎片化；</li>
+<li>减少元素级运算。</li>
+</ul>
+
+    </div>
+
+    
+    
+    
+
+      <footer class="post-footer">
+
+        
+
+
+        
+    <div class="post-nav">
+      <div class="post-nav-item">
+    <a href="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/" rel="prev" title="YOLOv7 Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors">
+      <i class="fa fa-chevron-left"></i> YOLOv7 Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
+    </a></div>
+      <div class="post-nav-item">
+    <a href="/2023/06/30/MobileNet/" rel="next" title="MobileNet">
+      MobileNet <i class="fa fa-chevron-right"></i>
+    </a></div>
+    </div>
+      </footer>
+    
+  </article>
+  
+  
+  
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+          <div class="post-toc motion-element"><ol class="nav"><li class="nav-item nav-level-1"><a class="nav-link" href="#ShuffleNet%E7%B3%BB%E5%88%97"><span class="nav-number">1.</span> <span class="nav-text">ShuffleNet系列</span></a><ol class="nav-child"><li class="nav-item nav-level-2"><a class="nav-link" href="#ShuffleNetv1"><span class="nav-number">1.1.</span> <span class="nav-text">ShuffleNetv1</span></a><ol class="nav-child"><li class="nav-item nav-level-3"><a class="nav-link" href="#ShuffleNet%E7%9A%84%E4%BA%AE%E7%82%B9"><span class="nav-number">1.1.1.</span> <span class="nav-text">ShuffleNet的亮点</span></a></li></ol></li><li class="nav-item nav-level-2"><a class="nav-link" href="#ShuffleNetv2"><span class="nav-number">1.2.</span> <span class="nav-text">ShuffleNetv2</span></a></li></ol></li></ol></div>
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+
+  
+
+</body>
+</html>
diff --git a/2023/06/30/VovNet/4c2143990db24da7be3fa4c43c96dd82.png b/2023/06/30/VovNet/4c2143990db24da7be3fa4c43c96dd82.png
new file mode 100644
index 0000000..1263bcc
Binary files /dev/null and b/2023/06/30/VovNet/4c2143990db24da7be3fa4c43c96dd82.png differ
diff --git a/2023/06/30/VovNet/index.html b/2023/06/30/VovNet/index.html
new file mode 100644
index 0000000..0621f25
--- /dev/null
+++ b/2023/06/30/VovNet/index.html
@@ -0,0 +1,425 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="VoVNet:An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection大体介绍及缘由因为 DenseNet 通过用密集连接，来聚合具有不同感受野大小的中间特征，因此它在对象检测任务上表现出良好的性能。虽然特征重用（feature reuse）的使用，让 DenseNet 以少量模型">
+<meta property="og:type" content="article">
+<meta property="og:title" content="VovNet">
+<meta property="og:url" content="http://example.com/2023/06/30/VovNet/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="VoVNet:An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection大体介绍及缘由因为 DenseNet 通过用密集连接，来聚合具有不同感受野大小的中间特征，因此它在对象检测任务上表现出良好的性能。虽然特征重用（feature reuse）的使用，让 DenseNet 以少量模型">
+<meta property="og:locale" content="zh_CN">
+<meta property="og:image" content="http://example.com/2023/06/30/VovNet/v2-06f9e7e6761c98f4f554cb5aabe9cab2_1440w.webp">
+<meta property="og:image" content="http://example.com/2023/06/30/VovNet/4c2143990db24da7be3fa4c43c96dd82.png">
+<meta property="article:published_time" content="2023-06-30T08:10:29.000Z">
+<meta property="article:modified_time" content="2023-06-30T08:13:21.937Z">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+<meta name="twitter:image" content="http://example.com/2023/06/30/VovNet/v2-06f9e7e6761c98f4f554cb5aabe9cab2_1440w.webp">
+
+<link rel="canonical" href="http://example.com/2023/06/30/VovNet/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : false,
+    isPost : true,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>VovNet | 凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content post posts-expand">
+            
+
+    
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/VovNet/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h1 class="post-title" itemprop="name headline">
+          VovNet
+        </h1>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2023-06-30 16:10:29 / 修改时间：16:13:21" itemprop="dateCreated datePublished" datetime="2023-06-30T16:10:29+08:00">2023-06-30</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+        <h1 id="VoVNet-An-Energy-and-GPU-Computation-Efficient-Backbone-Network-for-Real-Time-Object-Detection"><a href="#VoVNet-An-Energy-and-GPU-Computation-Efficient-Backbone-Network-for-Real-Time-Object-Detection" class="headerlink" title="VoVNet:An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection"></a>VoVNet:An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection</h1><h2 id="大体介绍及缘由"><a href="#大体介绍及缘由" class="headerlink" title="大体介绍及缘由"></a>大体介绍及缘由</h2><p>因为 <code>DenseNet</code> 通过用密集连接，来聚合具有不同感受野大小的中间特征，因此它在对象检测任务上表现出良好的性能。虽然特征重用（<code>feature reuse</code>）的使用，让 <code>DenseNet</code> 以少量模型参数和 <code>FLOPs</code>，也能输出有力的特征，但是使用 <code>DenseNet</code> 作为 <code>backbone</code> 的目标检测器却表现出了运行速度慢和效率低下的弊端。作者认为是密集连接(<code>dense connection</code>)带来的输入通道线性增长，从而导高内存访问成本和能耗。</p>
+<p>为了提高 <code>DenseNet</code> 的效率，作者提出一个新的更高效的网络 <code>VoVet</code>，由 <code>OSA</code>（<code>One-Shot Aggregation</code>，一次聚合）组成。<code>OSA</code> <strong>仅在模块的最后一层聚合前面所有层的特征</strong>，这种结构不仅继承了 <code>DenseNet</code> 的多感受野表示多种特征的优点，也解决了密集连接效率低下的问题。基于 <code>VoVNet</code> 的检测器不仅速度比 <code>DenseNet</code> 快 2 倍，能耗也降低了 1.5-4.1 倍。另外，<code>VoVNet</code> 网络的速度和效率还优于 <code>ResNet</code>，并且其对于小目标检测的性能有了显著提高。</p>
+<p>DenseNet和VoVNet之间的区别，大体上可以如下图所示：</p>
+<p><img src="/2023/06/30/VovNet/v2-06f9e7e6761c98f4f554cb5aabe9cab2_1440w.webp" alt="img"></p>
+<h3 id="贡献："><a href="#贡献：" class="headerlink" title="贡献："></a>贡献：</h3><ul>
+<li><p>讨论了 MAC 和 GPU 计算的效率，并研究了如何设计更高效的结构</p>
+</li>
+<li><p>抛出了 DenseNet 网络结构中的问题，包括低效的、冗余的操作等</p>
+</li>
+<li><p>提出了 One-shot Aggregation（OSA），将中间的特征一次性聚合（在最后一层聚合一次），如图 1b 所示，能够在</p>
+<p>保留 concat 优势的同时优化 MAC（中间层输入输出通道相同） 和 GPU 计算效率（无需 1x1 卷积）</p>
+</li>
+<li><p>基于 OSA 模块，构建了 VoVNet，一个 backbone 网络结构，并且将该 backbone 用于 DSOD、RefineDet、Mask R-CNN 等方法中，取得了比 DenseNet、ResNet 等方法更好的效率和准确率的平衡</p>
+</li>
+</ul>
+<h2 id="proposed-method"><a href="#proposed-method" class="headerlink" title="proposed method"></a>proposed method</h2><h3 id="重新思考密集连接"><a href="#重新思考密集连接" class="headerlink" title="重新思考密集连接"></a>重新思考密集连接</h3><p><strong>DenseNet 的优点</strong>：</p>
+<p>在计算第 $l$ 层的输出时，要用到之前所有层的输出的 concat 的结果。这种<strong>密集的连接使得各个层的各个尺度的特征都能被提取</strong>，供后面的网络使用。这也是它能得到比较高的精度的原因，而且<strong>密集的连接更有利于梯度的回传</strong>（ResNet shorcut 操作的加强版）。</p>
+<p><strong>DenseNet 缺点</strong>（导致了能耗和推理效率低的）：</p>
+<ul>
+<li>密集连接会增加输入通道大小，但输出通道大小保持不变，导致的输入和输出通道数都不相等。因此，DenseNet 具有具有较高的 MAC。</li>
+<li>DenseNet 采用了 <code>bottleneck</code> 结构，这种结构将一个 3×3 卷积分成了两个计算（1x1+3x3 卷积），这带来了更多的序列计算（sequential computations），导致会降低推理速度。</li>
+</ul>
+<blockquote>
+<p>密集连接会导致计算量增加，所以不得不采用 1×1 卷积的 <code>bottleneck</code> 结构。</p>
+</blockquote>
+<h3 id="One-shot-Aggregation"><a href="#One-shot-Aggregation" class="headerlink" title="One-shot Aggregation"></a>One-shot Aggregation</h3><p>OSA 模块就是只聚合每个 block 的最后一层特征，也就是在每个 block 的最后一层，对该 block 的前面所有层的特征进行 concat，只进行这一次的聚合。</p>
+<p>该模块将中间层的特征聚合到最后一层。如图所示。每个卷积层包含双向连接，一个连接到下一层以产生具有更大感受野的特征，而另一个仅聚合到最终输出特征映射。</p>
+<p><img src="/2023/06/30/VovNet/4c2143990db24da7be3fa4c43c96dd82.png" alt="在这里插入图片描述"></p>
+<ul>
+<li>首先，在和 DenseNet-40 的 dense block 参数和计算量相似的基础上，设计 OSA module</li>
+<li>先使用层数相同的方式，随着每个卷积层输入尺度的减小，OSA 的输出比 dense block 的输出更大，OSA 模块的网络得到 93.6% acc，比同量级的 ResNet 效果好，由此可见，只在最后一层进行特征聚合，比使用全部中间层聚合更好</li>
+<li>OSA 的 transition layer 和 DenseNet 有较大不同，OSA 中，从浅层来的特征对 transition layer 更有效，因为深层特征对 transition layer 没有很大的影响</li>
+<li>所以，将 OSA module 降为使用 5 层（共 43 通道），如图 2 最下边一行，得到了 5.44% err，和 DenseNet-40 的 5.24% 很接近，这说明使用大量的中间层的密集连接是低效且没有很大的作用</li>
+<li>在检测任务上，使用 5 层 43 通道的 OSA module 可以将 MAC 从 3.7M 降低到 2.5M，这是因为 OSA 的中间层输入输出通道是相同的，使得MAC 最低，此外，因为检测任务比分类任务使用更大分辨率的特征图，MAC 会更严重的影响耗时和效率</li>
+</ul>
+<p>总之，OSA 能够提升 GPU 是计算效率，OSA 中间层的输入输出通道数相同，也不大需要使用 1x1 瓶颈层来降维，所以，OSA 层数更少、更高效</p>
+<h3 id="OSA-与-DenseNet-的不同之处总结如下："><a href="#OSA-与-DenseNet-的不同之处总结如下：" class="headerlink" title="OSA 与 DenseNet 的不同之处总结如下："></a>OSA 与 DenseNet 的不同之处总结如下：</h3><ul>
+<li>每一层的输出并没有按路线（route）到所有后续的中间层，这使得中间层的输入大小是恒定的。这样就提高了 GPU 的计算效率。</li>
+<li>另外一个不同之处在于没有了密集连接，因此 MAC 比 DenseNet 小得多</li>
+<li>此外，由于 OSA 模块聚集了浅层特征，它包含的层更少。因此，OSA 模块被设计成只有几层，可以在 GPU 中高效计算。</li>
+</ul>
+
+    </div>
+
+    
+    
+    
+
+      <footer class="post-footer">
+
+        
+
+
+        
+    <div class="post-nav">
+      <div class="post-nav-item">
+    <a href="/2023/06/30/MobileNet/" rel="prev" title="MobileNet">
+      <i class="fa fa-chevron-left"></i> MobileNet
+    </a></div>
+      <div class="post-nav-item">
+    <a href="/2023/06/30/RegVGG/" rel="next" title="RegVGG">
+      RegVGG <i class="fa fa-chevron-right"></i>
+    </a></div>
+    </div>
+      </footer>
+    
+  </article>
+  
+  
+  
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+          <div class="post-toc motion-element"><ol class="nav"><li class="nav-item nav-level-1"><a class="nav-link" href="#VoVNet-An-Energy-and-GPU-Computation-Efficient-Backbone-Network-for-Real-Time-Object-Detection"><span class="nav-number">1.</span> <span class="nav-text">VoVNet:An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection</span></a><ol class="nav-child"><li class="nav-item nav-level-2"><a class="nav-link" href="#%E5%A4%A7%E4%BD%93%E4%BB%8B%E7%BB%8D%E5%8F%8A%E7%BC%98%E7%94%B1"><span class="nav-number">1.1.</span> <span class="nav-text">大体介绍及缘由</span></a><ol class="nav-child"><li class="nav-item nav-level-3"><a class="nav-link" href="#%E8%B4%A1%E7%8C%AE%EF%BC%9A"><span class="nav-number">1.1.1.</span> <span class="nav-text">贡献：</span></a></li></ol></li><li class="nav-item nav-level-2"><a class="nav-link" href="#proposed-method"><span class="nav-number">1.2.</span> <span class="nav-text">proposed method</span></a><ol class="nav-child"><li class="nav-item nav-level-3"><a class="nav-link" href="#%E9%87%8D%E6%96%B0%E6%80%9D%E8%80%83%E5%AF%86%E9%9B%86%E8%BF%9E%E6%8E%A5"><span class="nav-number">1.2.1.</span> <span class="nav-text">重新思考密集连接</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#One-shot-Aggregation"><span class="nav-number">1.2.2.</span> <span class="nav-text">One-shot Aggregation</span></a></li><li class="nav-item nav-level-3"><a class="nav-link" href="#OSA-%E4%B8%8E-DenseNet-%E7%9A%84%E4%B8%8D%E5%90%8C%E4%B9%8B%E5%A4%84%E6%80%BB%E7%BB%93%E5%A6%82%E4%B8%8B%EF%BC%9A"><span class="nav-number">1.2.3.</span> <span class="nav-text">OSA 与 DenseNet 的不同之处总结如下：</span></a></li></ol></li></ol></li></ol></div>
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+
+  
+
+</body>
+</html>
diff --git a/2023/06/30/VovNet/v2-06f9e7e6761c98f4f554cb5aabe9cab2_1440w.webp b/2023/06/30/VovNet/v2-06f9e7e6761c98f4f554cb5aabe9cab2_1440w.webp
new file mode 100644
index 0000000..56b506c
Binary files /dev/null and b/2023/06/30/VovNet/v2-06f9e7e6761c98f4f554cb5aabe9cab2_1440w.webp differ
diff --git a/archives/2022/03/index.html b/archives/2022/03/index.html
index 4210ff8..c055449 100644
--- a/archives/2022/03/index.html
+++ b/archives/2022/03/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -331,7 +332,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2022/04/index.html b/archives/2022/04/index.html
index c480340..2a6c0a0 100644
--- a/archives/2022/04/index.html
+++ b/archives/2022/04/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -251,7 +252,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2022/07/index.html b/archives/2022/07/index.html
index 5d32135..83ca922 100644
--- a/archives/2022/07/index.html
+++ b/archives/2022/07/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -291,7 +292,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2022/08/index.html b/archives/2022/08/index.html
index 4cd13a9..4a29b1e 100644
--- a/archives/2022/08/index.html
+++ b/archives/2022/08/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -351,7 +352,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2022/index.html b/archives/2022/index.html
index e09deb4..21f21f8 100644
--- a/archives/2022/index.html
+++ b/archives/2022/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -434,7 +435,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2022/page/2/index.html b/archives/2022/page/2/index.html
index 6aec3e0..ea10b42 100644
--- a/archives/2022/page/2/index.html
+++ b/archives/2022/page/2/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -334,7 +335,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2023/03/index.html b/archives/2023/03/index.html
index 2279aca..e40e6f5 100644
--- a/archives/2023/03/index.html
+++ b/archives/2023/03/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -271,7 +272,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2023/04/index.html b/archives/2023/04/index.html
index daa28fe..853dc05 100644
--- a/archives/2023/04/index.html
+++ b/archives/2023/04/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -331,7 +332,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2023/06/index.html b/archives/2023/06/index.html
index d2ab8af..c4ba911 100644
--- a/archives/2023/06/index.html
+++ b/archives/2023/06/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -159,6 +160,126 @@ <h1 class="site-title">凯_kaiii</h1>
       <span class="collection-header">2023</span>
     </div>
 
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-06-30T16:11:09+08:00"
+              content="2023-06-30">
+          06-30
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/06/30/ELAN/" itemprop="url">
+            <span itemprop="name">ELAN</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-06-30T16:10:57+08:00"
+              content="2023-06-30">
+          06-30
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/06/30/CSPNet/" itemprop="url">
+            <span itemprop="name">CSPNet</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-06-30T16:10:43+08:00"
+              content="2023-06-30">
+          06-30
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/06/30/RegVGG/" itemprop="url">
+            <span itemprop="name">RegVGG</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-06-30T16:10:29+08:00"
+              content="2023-06-30">
+          06-30
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/06/30/VovNet/" itemprop="url">
+            <span itemprop="name">VovNet</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-06-30T16:10:03+08:00"
+              content="2023-06-30">
+          06-30
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/06/30/MobileNet/" itemprop="url">
+            <span itemprop="name">MobileNet</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-06-30T16:09:52+08:00"
+              content="2023-06-30">
+          06-30
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/06/30/ShuffleNet/" itemprop="url">
+            <span itemprop="name">ShuffleNet</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
   <article itemscope itemtype="http://schema.org/Article">
     <header class="post-header">
 
@@ -291,7 +412,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2023/index.html b/archives/2023/index.html
index aee76f9..6c2915c 100644
--- a/archives/2023/index.html
+++ b/archives/2023/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -164,15 +165,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-06-18T17:04:34+08:00"
-              content="2023-06-18">
-          06-18
+              datetime="2023-06-30T16:11:09+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/" itemprop="url">
-            <span itemprop="name">YOLOv7 Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors</span>
+          <a class="post-title-link" href="/2023/06/30/ELAN/" itemprop="url">
+            <span itemprop="name">ELAN</span>
           </a>
       </div>
 
@@ -184,15 +185,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-06-18T17:03:19+08:00"
-              content="2023-06-18">
-          06-18
+              datetime="2023-06-30T16:10:57+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/" itemprop="url">
-            <span itemprop="name">YOLOv6 A Single-Stage Object Detection Framework for Industrial  Applications</span>
+          <a class="post-title-link" href="/2023/06/30/CSPNet/" itemprop="url">
+            <span itemprop="name">CSPNet</span>
           </a>
       </div>
 
@@ -204,15 +205,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-06-18T17:02:39+08:00"
-              content="2023-06-18">
-          06-18
+              datetime="2023-06-30T16:10:43+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/" itemprop="url">
-            <span itemprop="name">RepVGG Making VGG-style ConvNets Great Again</span>
+          <a class="post-title-link" href="/2023/06/30/RegVGG/" itemprop="url">
+            <span itemprop="name">RegVGG</span>
           </a>
       </div>
 
@@ -224,15 +225,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-23T20:46:36+08:00"
-              content="2023-04-23">
-          04-23
+              datetime="2023-06-30T16:10:29+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/" itemprop="url">
-            <span itemprop="name">A New Baseline for Single-/Cross-Modality Re-ID</span>
+          <a class="post-title-link" href="/2023/06/30/VovNet/" itemprop="url">
+            <span itemprop="name">VovNet</span>
           </a>
       </div>
 
@@ -244,15 +245,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-23T20:45:36+08:00"
-              content="2023-04-23">
-          04-23
+              datetime="2023-06-30T16:10:03+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/" itemprop="url">
-            <span itemprop="name">Bag of Tricks and A Strong Baseline for Deep Person Re-identification</span>
+          <a class="post-title-link" href="/2023/06/30/MobileNet/" itemprop="url">
+            <span itemprop="name">MobileNet</span>
           </a>
       </div>
 
@@ -264,15 +265,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-23T19:48:09+08:00"
-              content="2023-04-23">
-          04-23
+              datetime="2023-06-30T16:09:52+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/" itemprop="url">
-            <span itemprop="name">目标重识别综述阅读</span>
+          <a class="post-title-link" href="/2023/06/30/ShuffleNet/" itemprop="url">
+            <span itemprop="name">ShuffleNet</span>
           </a>
       </div>
 
@@ -284,15 +285,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-12T09:36:52+08:00"
-              content="2023-04-12">
-          04-12
+              datetime="2023-06-18T17:04:34+08:00"
+              content="2023-06-18">
+          06-18
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/" itemprop="url">
-            <span itemprop="name">c++中的ffmpeg源码学习</span>
+          <a class="post-title-link" href="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/" itemprop="url">
+            <span itemprop="name">YOLOv7 Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors</span>
           </a>
       </div>
 
@@ -304,15 +305,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-12T09:36:29+08:00"
-              content="2023-04-12">
-          04-12
+              datetime="2023-06-18T17:03:19+08:00"
+              content="2023-06-18">
+          06-18
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/12/ffmpeg%E5%9F%BA%E7%A1%80%E4%BA%86%E8%A7%A3/" itemprop="url">
-            <span itemprop="name">ffmpeg基础了解</span>
+          <a class="post-title-link" href="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/" itemprop="url">
+            <span itemprop="name">YOLOv6 A Single-Stage Object Detection Framework for Industrial  Applications</span>
           </a>
       </div>
 
@@ -324,15 +325,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-03-21T21:00:27+08:00"
-              content="2023-03-21">
-          03-21
+              datetime="2023-06-18T17:02:39+08:00"
+              content="2023-06-18">
+          06-18
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/03/21/RK3588%E3%80%81ros%E3%80%81fastdeploy%E8%81%94%E5%90%88%E7%8E%AF%E5%A2%83%E8%AE%BE%E7%BD%AE/" itemprop="url">
-            <span itemprop="name">RK3588、ros、fastdeploy联合环境设置</span>
+          <a class="post-title-link" href="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/" itemprop="url">
+            <span itemprop="name">RepVGG Making VGG-style ConvNets Great Again</span>
           </a>
       </div>
 
@@ -344,15 +345,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-03-04T15:28:29+08:00"
-              content="2023-03-04">
-          03-04
+              datetime="2023-04-23T20:46:36+08:00"
+              content="2023-04-23">
+          04-23
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/" itemprop="url">
-            <span itemprop="name">RK3588s部署相关</span>
+          <a class="post-title-link" href="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/" itemprop="url">
+            <span itemprop="name">A New Baseline for Single-/Cross-Modality Re-ID</span>
           </a>
       </div>
 
@@ -367,6 +368,9 @@ <h1 class="site-title">凯_kaiii</h1>
   
 
   
+  <nav class="pagination">
+    <span class="page-number current">1</span><a class="page-number" href="/archives/2023/page/2/">2</a><a class="extend next" rel="next" href="/archives/2023/page/2/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
+  </nav>
 
 
 
@@ -431,7 +435,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/2023/page/2/index.html b/archives/2023/page/2/index.html
new file mode 100644
index 0000000..4c4dfed
--- /dev/null
+++ b/archives/2023/page/2/index.html
@@ -0,0 +1,453 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="选择大于努力">
+<meta property="og:type" content="website">
+<meta property="og:title" content="凯_kaiii">
+<meta property="og:url" content="http://example.com/archives/2023/page/2/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="选择大于努力">
+<meta property="og:locale" content="zh_CN">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+
+<link rel="canonical" href="http://example.com/archives/2023/page/2/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : false,
+    isPost : false,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>归档 | 凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content archive">
+            
+
+  
+  
+  
+  <div class="post-block">
+    <div class="posts-collapse">
+      <div class="collection-title">
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
+      </div>
+
+      
+    <div class="collection-year">
+      <span class="collection-header">2023</span>
+    </div>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-04-23T20:45:36+08:00"
+              content="2023-04-23">
+          04-23
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/" itemprop="url">
+            <span itemprop="name">Bag of Tricks and A Strong Baseline for Deep Person Re-identification</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-04-23T19:48:09+08:00"
+              content="2023-04-23">
+          04-23
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/" itemprop="url">
+            <span itemprop="name">目标重识别综述阅读</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-04-12T09:36:52+08:00"
+              content="2023-04-12">
+          04-12
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/" itemprop="url">
+            <span itemprop="name">c++中的ffmpeg源码学习</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-04-12T09:36:29+08:00"
+              content="2023-04-12">
+          04-12
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/04/12/ffmpeg%E5%9F%BA%E7%A1%80%E4%BA%86%E8%A7%A3/" itemprop="url">
+            <span itemprop="name">ffmpeg基础了解</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-03-21T21:00:27+08:00"
+              content="2023-03-21">
+          03-21
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/03/21/RK3588%E3%80%81ros%E3%80%81fastdeploy%E8%81%94%E5%90%88%E7%8E%AF%E5%A2%83%E8%AE%BE%E7%BD%AE/" itemprop="url">
+            <span itemprop="name">RK3588、ros、fastdeploy联合环境设置</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2023-03-04T15:28:29+08:00"
+              content="2023-03-04">
+          03-04
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/" itemprop="url">
+            <span itemprop="name">RK3588s部署相关</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+
+    </div>
+  </div>
+  
+  
+  
+
+  
+  <nav class="pagination">
+    <a class="extend prev" rel="prev" href="/archives/2023/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/archives/2023/">1</a><span class="page-number current">2</span>
+  </nav>
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+
+  
+
+</body>
+</html>
diff --git a/archives/index.html b/archives/index.html
index 201abdb..dbb3084 100644
--- a/archives/index.html
+++ b/archives/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -164,15 +165,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-06-18T17:04:34+08:00"
-              content="2023-06-18">
-          06-18
+              datetime="2023-06-30T16:11:09+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/" itemprop="url">
-            <span itemprop="name">YOLOv7 Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors</span>
+          <a class="post-title-link" href="/2023/06/30/ELAN/" itemprop="url">
+            <span itemprop="name">ELAN</span>
           </a>
       </div>
 
@@ -184,15 +185,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-06-18T17:03:19+08:00"
-              content="2023-06-18">
-          06-18
+              datetime="2023-06-30T16:10:57+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/" itemprop="url">
-            <span itemprop="name">YOLOv6 A Single-Stage Object Detection Framework for Industrial  Applications</span>
+          <a class="post-title-link" href="/2023/06/30/CSPNet/" itemprop="url">
+            <span itemprop="name">CSPNet</span>
           </a>
       </div>
 
@@ -204,15 +205,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-06-18T17:02:39+08:00"
-              content="2023-06-18">
-          06-18
+              datetime="2023-06-30T16:10:43+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/" itemprop="url">
-            <span itemprop="name">RepVGG Making VGG-style ConvNets Great Again</span>
+          <a class="post-title-link" href="/2023/06/30/RegVGG/" itemprop="url">
+            <span itemprop="name">RegVGG</span>
           </a>
       </div>
 
@@ -224,15 +225,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-23T20:46:36+08:00"
-              content="2023-04-23">
-          04-23
+              datetime="2023-06-30T16:10:29+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/" itemprop="url">
-            <span itemprop="name">A New Baseline for Single-/Cross-Modality Re-ID</span>
+          <a class="post-title-link" href="/2023/06/30/VovNet/" itemprop="url">
+            <span itemprop="name">VovNet</span>
           </a>
       </div>
 
@@ -244,15 +245,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-23T20:45:36+08:00"
-              content="2023-04-23">
-          04-23
+              datetime="2023-06-30T16:10:03+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/" itemprop="url">
-            <span itemprop="name">Bag of Tricks and A Strong Baseline for Deep Person Re-identification</span>
+          <a class="post-title-link" href="/2023/06/30/MobileNet/" itemprop="url">
+            <span itemprop="name">MobileNet</span>
           </a>
       </div>
 
@@ -264,15 +265,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-23T19:48:09+08:00"
-              content="2023-04-23">
-          04-23
+              datetime="2023-06-30T16:09:52+08:00"
+              content="2023-06-30">
+          06-30
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/" itemprop="url">
-            <span itemprop="name">目标重识别综述阅读</span>
+          <a class="post-title-link" href="/2023/06/30/ShuffleNet/" itemprop="url">
+            <span itemprop="name">ShuffleNet</span>
           </a>
       </div>
 
@@ -284,15 +285,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-12T09:36:52+08:00"
-              content="2023-04-12">
-          04-12
+              datetime="2023-06-18T17:04:34+08:00"
+              content="2023-06-18">
+          06-18
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/" itemprop="url">
-            <span itemprop="name">c++中的ffmpeg源码学习</span>
+          <a class="post-title-link" href="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/" itemprop="url">
+            <span itemprop="name">YOLOv7 Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors</span>
           </a>
       </div>
 
@@ -304,15 +305,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-04-12T09:36:29+08:00"
-              content="2023-04-12">
-          04-12
+              datetime="2023-06-18T17:03:19+08:00"
+              content="2023-06-18">
+          06-18
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/04/12/ffmpeg%E5%9F%BA%E7%A1%80%E4%BA%86%E8%A7%A3/" itemprop="url">
-            <span itemprop="name">ffmpeg基础了解</span>
+          <a class="post-title-link" href="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/" itemprop="url">
+            <span itemprop="name">YOLOv6 A Single-Stage Object Detection Framework for Industrial  Applications</span>
           </a>
       </div>
 
@@ -324,15 +325,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-03-21T21:00:27+08:00"
-              content="2023-03-21">
-          03-21
+              datetime="2023-06-18T17:02:39+08:00"
+              content="2023-06-18">
+          06-18
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/03/21/RK3588%E3%80%81ros%E3%80%81fastdeploy%E8%81%94%E5%90%88%E7%8E%AF%E5%A2%83%E8%AE%BE%E7%BD%AE/" itemprop="url">
-            <span itemprop="name">RK3588、ros、fastdeploy联合环境设置</span>
+          <a class="post-title-link" href="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/" itemprop="url">
+            <span itemprop="name">RepVGG Making VGG-style ConvNets Great Again</span>
           </a>
       </div>
 
@@ -344,15 +345,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2023-03-04T15:28:29+08:00"
-              content="2023-03-04">
-          03-04
+              datetime="2023-04-23T20:46:36+08:00"
+              content="2023-04-23">
+          04-23
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/" itemprop="url">
-            <span itemprop="name">RK3588s部署相关</span>
+          <a class="post-title-link" href="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/" itemprop="url">
+            <span itemprop="name">A New Baseline for Single-/Cross-Modality Re-ID</span>
           </a>
       </div>
 
@@ -368,7 +369,7 @@ <h1 class="site-title">凯_kaiii</h1>
 
   
   <nav class="pagination">
-    <span class="page-number current">1</span><a class="page-number" href="/archives/page/2/">2</a><a class="page-number" href="/archives/page/3/">3</a><a class="extend next" rel="next" href="/archives/page/2/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
+    <span class="page-number current">1</span><a class="page-number" href="/archives/page/2/">2</a><span class="space">&hellip;</span><a class="page-number" href="/archives/page/4/">4</a><a class="extend next" rel="next" href="/archives/page/2/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
   </nav>
 
 
@@ -434,7 +435,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/page/2/index.html b/archives/page/2/index.html
index 30e91b8..a4057f6 100644
--- a/archives/page/2/index.html
+++ b/archives/page/2/index.html
@@ -151,12 +151,13 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
     <div class="collection-year">
-      <span class="collection-header">2022</span>
+      <span class="collection-header">2023</span>
     </div>
 
   <article itemscope itemtype="http://schema.org/Article">
@@ -164,15 +165,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-08-22T21:01:24+08:00"
-              content="2022-08-22">
-          08-22
+              datetime="2023-04-23T20:45:36+08:00"
+              content="2023-04-23">
+          04-23
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/" itemprop="url">
-            <span itemprop="name">Towards Data-Efficient Detection Transformer</span>
+          <a class="post-title-link" href="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/" itemprop="url">
+            <span itemprop="name">Bag of Tricks and A Strong Baseline for Deep Person Re-identification</span>
           </a>
       </div>
 
@@ -184,15 +185,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-08-22T20:56:45+08:00"
-              content="2022-08-22">
-          08-22
+              datetime="2023-04-23T19:48:09+08:00"
+              content="2023-04-23">
+          04-23
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/08/22/Deformable%20DETR/" itemprop="url">
-            <span itemprop="name">Deformable DETR</span>
+          <a class="post-title-link" href="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/" itemprop="url">
+            <span itemprop="name">目标重识别综述阅读</span>
           </a>
       </div>
 
@@ -204,15 +205,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-08-22T20:56:31+08:00"
-              content="2022-08-22">
-          08-22
+              datetime="2023-04-12T09:36:52+08:00"
+              content="2023-04-12">
+          04-12
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/08/22/VIT/" itemprop="url">
-            <span itemprop="name">VIT</span>
+          <a class="post-title-link" href="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/" itemprop="url">
+            <span itemprop="name">c++中的ffmpeg源码学习</span>
           </a>
       </div>
 
@@ -224,15 +225,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-08-22T20:56:17+08:00"
-              content="2022-08-22">
-          08-22
+              datetime="2023-04-12T09:36:29+08:00"
+              content="2023-04-12">
+          04-12
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/08/22/DETR/" itemprop="url">
-            <span itemprop="name">DETR</span>
+          <a class="post-title-link" href="/2023/04/12/ffmpeg%E5%9F%BA%E7%A1%80%E4%BA%86%E8%A7%A3/" itemprop="url">
+            <span itemprop="name">ffmpeg基础了解</span>
           </a>
       </div>
 
@@ -244,15 +245,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-08-22T20:56:02+08:00"
-              content="2022-08-22">
-          08-22
+              datetime="2023-03-21T21:00:27+08:00"
+              content="2023-03-21">
+          03-21
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/08/22/Bert/" itemprop="url">
-            <span itemprop="name">Bert</span>
+          <a class="post-title-link" href="/2023/03/21/RK3588%E3%80%81ros%E3%80%81fastdeploy%E8%81%94%E5%90%88%E7%8E%AF%E5%A2%83%E8%AE%BE%E7%BD%AE/" itemprop="url">
+            <span itemprop="name">RK3588、ros、fastdeploy联合环境设置</span>
           </a>
       </div>
 
@@ -264,35 +265,38 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-08-22T20:55:36+08:00"
-              content="2022-08-22">
-          08-22
+              datetime="2023-03-04T15:28:29+08:00"
+              content="2023-03-04">
+          03-04
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/" itemprop="url">
-            <span itemprop="name">transformer相关</span>
+          <a class="post-title-link" href="/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/" itemprop="url">
+            <span itemprop="name">RK3588s部署相关</span>
           </a>
       </div>
 
     </header>
   </article>
+    <div class="collection-year">
+      <span class="collection-header">2022</span>
+    </div>
 
   <article itemscope itemtype="http://schema.org/Article">
     <header class="post-header">
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-07-26T22:26:51+08:00"
-              content="2022-07-26">
-          07-26
+              datetime="2022-08-22T21:01:24+08:00"
+              content="2022-08-22">
+          08-22
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/" itemprop="url">
-            <span itemprop="name">目标检测经典论文阅读</span>
+          <a class="post-title-link" href="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/" itemprop="url">
+            <span itemprop="name">Towards Data-Efficient Detection Transformer</span>
           </a>
       </div>
 
@@ -304,15 +308,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-07-25T22:26:51+08:00"
-              content="2022-07-25">
-          07-25
+              datetime="2022-08-22T20:56:45+08:00"
+              content="2022-08-22">
+          08-22
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/07/25/Label%20Assignment/" itemprop="url">
-            <span itemprop="name">Label Assignment</span>
+          <a class="post-title-link" href="/2022/08/22/Deformable%20DETR/" itemprop="url">
+            <span itemprop="name">Deformable DETR</span>
           </a>
       </div>
 
@@ -324,15 +328,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-07-04T21:14:44+08:00"
-              content="2022-07-04">
-          07-04
+              datetime="2022-08-22T20:56:31+08:00"
+              content="2022-08-22">
+          08-22
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/" itemprop="url">
-            <span itemprop="name">YOLOv4总结</span>
+          <a class="post-title-link" href="/2022/08/22/VIT/" itemprop="url">
+            <span itemprop="name">VIT</span>
           </a>
       </div>
 
@@ -344,15 +348,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-04-19T10:53:23+08:00"
-              content="2022-04-19">
-          04-19
+              datetime="2022-08-22T20:56:17+08:00"
+              content="2022-08-22">
+          08-22
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/" itemprop="url">
-            <span itemprop="name">目标检测相关</span>
+          <a class="post-title-link" href="/2022/08/22/DETR/" itemprop="url">
+            <span itemprop="name">DETR</span>
           </a>
       </div>
 
@@ -368,7 +372,7 @@ <h1 class="site-title">凯_kaiii</h1>
 
   
   <nav class="pagination">
-    <a class="extend prev" rel="prev" href="/archives/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/archives/">1</a><span class="page-number current">2</span><a class="page-number" href="/archives/page/3/">3</a><a class="extend next" rel="next" href="/archives/page/3/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
+    <a class="extend prev" rel="prev" href="/archives/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/archives/">1</a><span class="page-number current">2</span><a class="page-number" href="/archives/page/3/">3</a><a class="page-number" href="/archives/page/4/">4</a><a class="extend next" rel="next" href="/archives/page/3/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
   </nav>
 
 
@@ -434,7 +438,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/page/3/index.html b/archives/page/3/index.html
index 438ebab..6b126fe 100644
--- a/archives/page/3/index.html
+++ b/archives/page/3/index.html
@@ -151,7 +151,8 @@ <h1 class="site-title">凯_kaiii</h1>
   <div class="post-block">
     <div class="posts-collapse">
       <div class="collection-title">
-        <span class="collection-header">嗯..! 目前共计 25 篇日志。 继续努力。</span>
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
       </div>
 
       
@@ -164,15 +165,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-03-28T10:54:34+08:00"
-              content="2022-03-28">
-          03-28
+              datetime="2022-08-22T20:56:02+08:00"
+              content="2022-08-22">
+          08-22
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/03/28/pytorch%E7%9B%B8%E5%85%B3/" itemprop="url">
-            <span itemprop="name">pytorch相关</span>
+          <a class="post-title-link" href="/2022/08/22/Bert/" itemprop="url">
+            <span itemprop="name">Bert</span>
           </a>
       </div>
 
@@ -184,15 +185,115 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-03-28T10:50:14+08:00"
+              datetime="2022-08-22T20:55:36+08:00"
+              content="2022-08-22">
+          08-22
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/" itemprop="url">
+            <span itemprop="name">transformer相关</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2022-07-26T22:26:51+08:00"
+              content="2022-07-26">
+          07-26
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/" itemprop="url">
+            <span itemprop="name">目标检测经典论文阅读</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2022-07-25T22:26:51+08:00"
+              content="2022-07-25">
+          07-25
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2022/07/25/Label%20Assignment/" itemprop="url">
+            <span itemprop="name">Label Assignment</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2022-07-04T21:14:44+08:00"
+              content="2022-07-04">
+          07-04
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/" itemprop="url">
+            <span itemprop="name">YOLOv4总结</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2022-04-19T10:53:23+08:00"
+              content="2022-04-19">
+          04-19
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/" itemprop="url">
+            <span itemprop="name">目标检测相关</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2022-03-28T10:54:34+08:00"
               content="2022-03-28">
           03-28
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/03/28/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%BD%91%E7%BB%9C%E7%9B%B8%E5%85%B3/" itemprop="url">
-            <span itemprop="name">深度学习网络相关</span>
+          <a class="post-title-link" href="/2022/03/28/pytorch%E7%9B%B8%E5%85%B3/" itemprop="url">
+            <span itemprop="name">pytorch相关</span>
           </a>
       </div>
 
@@ -204,15 +305,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-03-03T10:59:39+08:00"
-              content="2022-03-03">
-          03-03
+              datetime="2022-03-28T10:50:14+08:00"
+              content="2022-03-28">
+          03-28
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/03/03/%E5%9F%BA%E4%BA%8Egithub-Hexo%E5%88%9B%E5%BB%BA%E4%B8%AA%E4%BA%BA%E5%8D%9A%E5%AE%A2/" itemprop="url">
-            <span itemprop="name">基于github+Hexo创建个人博客</span>
+          <a class="post-title-link" href="/2022/03/28/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%BD%91%E7%BB%9C%E7%9B%B8%E5%85%B3/" itemprop="url">
+            <span itemprop="name">深度学习网络相关</span>
           </a>
       </div>
 
@@ -224,15 +325,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-03-03T10:26:51+08:00"
+              datetime="2022-03-03T10:59:39+08:00"
               content="2022-03-03">
           03-03
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/03/03/Hilbert%E7%9A%84c-%E5%AE%9E%E7%8E%B0/" itemprop="url">
-            <span itemprop="name">Hilbert的c++实现</span>
+          <a class="post-title-link" href="/2022/03/03/%E5%9F%BA%E4%BA%8Egithub-Hexo%E5%88%9B%E5%BB%BA%E4%B8%AA%E4%BA%BA%E5%8D%9A%E5%AE%A2/" itemprop="url">
+            <span itemprop="name">基于github+Hexo创建个人博客</span>
           </a>
       </div>
 
@@ -244,15 +345,15 @@ <h1 class="site-title">凯_kaiii</h1>
 
       <div class="post-meta">
         <time itemprop="dateCreated"
-              datetime="2022-03-03T10:22:35+08:00"
+              datetime="2022-03-03T10:26:51+08:00"
               content="2022-03-03">
           03-03
         </time>
       </div>
 
       <div class="post-title">
-          <a class="post-title-link" href="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/" itemprop="url">
-            <span itemprop="name">c++中fftw库的安装及基础使用</span>
+          <a class="post-title-link" href="/2022/03/03/Hilbert%E7%9A%84c-%E5%AE%9E%E7%8E%B0/" itemprop="url">
+            <span itemprop="name">Hilbert的c++实现</span>
           </a>
       </div>
 
@@ -268,7 +369,7 @@ <h1 class="site-title">凯_kaiii</h1>
 
   
   <nav class="pagination">
-    <a class="extend prev" rel="prev" href="/archives/page/2/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/archives/">1</a><a class="page-number" href="/archives/page/2/">2</a><span class="page-number current">3</span>
+    <a class="extend prev" rel="prev" href="/archives/page/2/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/archives/">1</a><a class="page-number" href="/archives/page/2/">2</a><span class="page-number current">3</span><a class="page-number" href="/archives/page/4/">4</a><a class="extend next" rel="next" href="/archives/page/4/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
   </nav>
 
 
@@ -334,7 +435,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/archives/page/4/index.html b/archives/page/4/index.html
new file mode 100644
index 0000000..1a3326a
--- /dev/null
+++ b/archives/page/4/index.html
@@ -0,0 +1,353 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="选择大于努力">
+<meta property="og:type" content="website">
+<meta property="og:title" content="凯_kaiii">
+<meta property="og:url" content="http://example.com/archives/page/4/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="选择大于努力">
+<meta property="og:locale" content="zh_CN">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+
+<link rel="canonical" href="http://example.com/archives/page/4/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : false,
+    isPost : false,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>归档 | 凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content archive">
+            
+
+  
+  
+  
+  <div class="post-block">
+    <div class="posts-collapse">
+      <div class="collection-title">
+        
+        <span class="collection-header">还行! 目前共计 31 篇日志。 继续努力。</span>
+      </div>
+
+      
+    <div class="collection-year">
+      <span class="collection-header">2022</span>
+    </div>
+
+  <article itemscope itemtype="http://schema.org/Article">
+    <header class="post-header">
+
+      <div class="post-meta">
+        <time itemprop="dateCreated"
+              datetime="2022-03-03T10:22:35+08:00"
+              content="2022-03-03">
+          03-03
+        </time>
+      </div>
+
+      <div class="post-title">
+          <a class="post-title-link" href="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/" itemprop="url">
+            <span itemprop="name">c++中fftw库的安装及基础使用</span>
+          </a>
+      </div>
+
+    </header>
+  </article>
+
+
+    </div>
+  </div>
+  
+  
+  
+
+  
+  <nav class="pagination">
+    <a class="extend prev" rel="prev" href="/archives/page/3/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/archives/">1</a><span class="space">&hellip;</span><a class="page-number" href="/archives/page/3/">3</a><span class="page-number current">4</span>
+  </nav>
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+
+  
+
+</body>
+</html>
diff --git a/index.html b/index.html
index 138c56f..7296bf9 100644
--- a/index.html
+++ b/index.html
@@ -148,7 +148,7 @@ <h1 class="site-title">凯_kaiii</h1>
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/ELAN/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -162,7 +162,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/" class="post-title-link" itemprop="url">YOLOv7 Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors</a>
+            <a href="/2023/06/30/ELAN/" class="post-title-link" itemprop="url">ELAN</a>
         </h2>
 
         <div class="post-meta">
@@ -173,7 +173,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-06-18 17:04:34 / 修改时间：17:04:49" itemprop="dateCreated datePublished" datetime="2023-06-18T17:04:34+08:00">2023-06-18</time>
+              <time title="创建时间：2023-06-30 16:11:09 / 修改时间：16:12:28" itemprop="dateCreated datePublished" datetime="2023-06-30T16:11:09+08:00">2023-06-30</time>
             </span>
 
           
@@ -187,62 +187,40 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h1 id="YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors"><a href="#YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors" class="headerlink" title="YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors"></a>YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors</h1><h2 id="文章主要贡献"><a href="#文章主要贡献" class="headerlink" title="文章主要贡献"></a>文章主要贡献</h2><ul>
-<li>设计了几种可训练的bag-of-freebies方法，使得实时目标检测在不增加推理成本的情况下大大提高了检测精度</li>
-<li>对于目标检测方法的改进，我们发现了两个新问题<strong>，即重参数化模块如何替换原始模块，以及动态标签分配策略如何处理对不同输出层的分配</strong>。此外，我们还提出了解决这些问题所带来的困难的方法</li>
-<li>提出了实时目标检测器的“扩展”和“复合缩放”方法，可以有效地利用参数和计算量</li>
-<li>本文提出的方法可有效减少当前实时目标检测器约40%的参数和50%的计算量，具有更快的推理速度和更高的检测精度。</li>
-</ul>
-<p>技术上的点为：</p>
-<p>1.模型重参数化<br>    YOLOV7将模型重参数化引入到网络架构中，重参数化这一思想最早出现于REPVGG中。<br>2.标签分配策略<br>    YOLOV7的标签分配策略采用的是YOLOV5的跨网格搜索，以及YOLOX的匹配策略。<br>3.ELAN高效网络架构<br>    YOLOV7中提出的一个新的网络架构，以高效为主。<br>4.带辅助头的训练<br>    YOLOV7提出了辅助头的一个训练方法，主要目的是通过增加训练成本，提升精度，同时不影响推理的时间，因为辅助头只会出现在训练过程中。</p>
-<h2 id="作者认为SOTA的目标检测所需要的部件"><a href="#作者认为SOTA的目标检测所需要的部件" class="headerlink" title="作者认为SOTA的目标检测所需要的部件"></a>作者认为SOTA的目标检测所需要的部件</h2><ul>
-<li>更快、更强的网络架构（backbone）</li>
-<li>一种更有效的特征提取方法（neck）</li>
-<li>更精确的检测方法（head）</li>
-<li>更具鲁棒性的损失函数（loss）</li>
-<li>更高效的标签分配方法（label assignment）</li>
-<li>更高效的训练方法（train strategy）</li>
+          <h1 id="（ELAN）Designing-Network-Design-Strategies-Through-Gradient-Path-Analysis"><a href="#（ELAN）Designing-Network-Design-Strategies-Through-Gradient-Path-Analysis" class="headerlink" title="（ELAN）Designing Network Design Strategies Through Gradient Path Analysis"></a>（ELAN）Designing Network Design Strategies Through Gradient Path Analysis</h1><p>文章作者的想法为，发现当今主流的网络设计策略大多是基于前馈路径，即基于数据路径设计网络架构。在本文中，我们希望通过提高网络学习能力来增强训练模型的表达能力。由于驱动网络参数学习的机制是反向传播算法，我们设计了基于反向传播路径的网络设计策略。提出了层级、阶段级和网络级的梯度路径设计策略。</p>
+<h2 id="背景"><a href="#背景" class="headerlink" title="背景"></a>背景</h2><p>很多研究都是从相同的角度出发的，也就是从浅层抽取 low-level 特征，从深层抽取 high-level 特征，然后将这些特征结合起来，即是 data path（前向传播）的角度</p>
+<p><strong>本文作者的思考：</strong></p>
+<p><img src="/2023/06/30/ELAN/3d05a481006d4031bc834323bbad4180.png" alt="在这里插入图片描述">如图所示，作者在 objective 和 loss 的角度分析了浅层和深层模型，作者发现通过调整 objective 和 loss layer 的配置，就可以控制每层学习到的特征（无论浅层还是深层)。<br>也就是说，网络学习到什么类型的特征取决于训练人员用什么信息投喂，而不是如何组合这些层，基于此，作者重新设计的网络结构</p>
+<p><strong>本文作者的出发点：</strong></p>
+<p>由于目前的参数更新方法都是反向传播规则，即目标函数会根据梯度来更新权重参数，所以本文是基于梯度传播路径来设计网络结构<br>本文的做法：为 layer-level、stage-level、network-level 设计了梯度路径：</p>
+<p><code>Layer-level design：</code>设计了梯度分流策略，并通过调整 layers 的数量和计算残差连接的 channel ratio，设计了 Partial Residual Network（PRN）（PRN 和本文是相同的作者团队）<br><code>Stage-level design：</code>将硬件的特性引入网络结构中来加速网络的推理过程。作者通过最大化梯度结合和最小化硬件消耗的两个方式，设计了 Cross Stage Network（CSPNet）[33] （CSPNet 和本文是相同的作者团队）<br><code>Network-level design：</code>作者考虑了梯度传播的效率来平衡网络的学习能力，以网络的梯度反传路径长度作为总基础，设计了 Efficient Layer Aggregation Network（ELAN）</p>
+<h2 id="ELAN"><a href="#ELAN" class="headerlink" title="ELAN"></a>ELAN</h2><p>ELAN 的主要目标是为了解决 deep model scaling 时难以收敛的问题</p>
+<p>ELAN 是由 VoVNet 和 CSPNet 结合而来的，且其整个网络的梯度长度的优化是基于 Stack in computational block 结构的</p>
+<p><code>Stack in computational block：</code></p>
+<p>在做模型缩放时，如果网络达到了一定的深度，再叠加深度时，网络的效果可能会不升反降</p>
+<p>举个例子：</p>
+<ul>
+<li>scaled-YOLOv4，P7 model 使用很多操作和参数，但只获得了很小的性能提升</li>
+<li>ResNet-152 约是 ResNet-50 参数量的 3 倍，但在 ImageNet 只带了了 1% 的 acc 提升，当 ResNet 堆叠到大约 200 层时，性能比 ResNet-152 更差</li>
+<li>VoVNet 堆叠到 99 层时，其 acc 比 VoVNet-39 还低</li>
 </ul>
-<h2 id="模型重参数化"><a href="#模型重参数化" class="headerlink" title="模型重参数化"></a>模型重参数化</h2><p>模型重参数化分为两种主要的技术手段</p>
+<p>分析：</p>
 <ul>
-<li>模块级集成<ul>
-<li>在训练时将一个模块拆分为多个相同或不同的模块分支，在推理时将多个分支模块整合为一个完全等价的模块。</li>
+<li>从梯度路径的设计来看，作者认为随着堆叠层数的增加， VoVNet 比 ResNet 的性能下降更多的原因在于，VoVNet 是基于 OSA module 堆叠而来，而每个 OSA module 都包括一个 transition layer，所以每堆叠一个 OSA module，每个层的梯度路径都会增加 1</li>
+<li>而 ResNet 是基于 residual layers 堆叠而来的，每堆叠一个 residual layer，只会增加梯度最长路径</li>
 </ul>
-</li>
-<li>模型级继承<ul>
-<li>用不同的训练数据训练多个相同的模型，然后对多个训练模型的权值进行平均</li>
-<li>对不同迭代次数下的模型权值进行加权平均。</li>
+<p>为了进一步分析，作者基于 YOLOR-CSP 进行了一些实验，并且发现：</p>
+<ul>
+<li>当堆叠层数达到 80+ 时， CSP 早融合的方式比 normal CSP 效果更好，每个 stage 的最短梯度路径会减 1</li>
+<li>当网络继续变深和变宽，CSP 晚融合的方式得到了更好的效果，每个 layer 的最短梯度路径会减 1</li>
 </ul>
-</li>
+<p>Stack in computational block 如图 6 所示：</p>
+<ul>
+<li>出发点 1：为了避免使用更多 transition layer</li>
+<li>出发点 2：让整个网络的最短梯度路径变得更长一些</li>
 </ul>
-<h2 id="模型缩放"><a href="#模型缩放" class="headerlink" title="模型缩放"></a>模型缩放</h2><p>模型缩放常有不同的缩放因子，如分辨率(输入图像的大小)、深度(层数)、宽度(通道数)和阶段(特征金字塔的数量)，从而在网络参数的数量、计算量、推理速度和精度上达到很好的权衡。我们观察到，所有基于连接的模型，如DenseNet或VoVNet，当这些模型的深度被缩放时，都会改变某些层的输入宽度。由于所提出的体系结构是基于串联的，我们必须为该模型设计一种新的复合缩放方法</p>
-<h2 id="模型结构图"><a href="#模型结构图" class="headerlink" title="模型结构图"></a>模型结构图</h2><p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-1e9750e05bc3e329c7095388ea3583a7_1440w.webp" alt="img"></p>
-<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/d6fa41fd929243228535b61c93b6ea14.png" alt="请添加图片描述"></p>
-<h3 id="扩展的高效层聚合网络E-ELAN"><a href="#扩展的高效层聚合网络E-ELAN" class="headerlink" title="扩展的高效层聚合网络E-ELAN"></a>扩展的高效层聚合网络E-ELAN</h3><p>要设计高效的网络结构，一般需要考虑参数量、计算量、计算密度、内存访问消耗memory access cost（MAC），还要输入输出通道比例、多分支结构和元素级的相加等等，此外在模型缩放时还要考虑激活函数。</p>
-<p>下图a、b是VovNet和改进的CSPVoVNet，CSPVoVNet分析了梯度路径，使得不同层的权重能够学习到更多的信息。ELAN考虑了如何设计一个更高效的网络结构：通过控制最短最长梯度路径，更深层能够更加高效地学习和收敛。</p>
-<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-b0bd82873eb6ae4998b9177000aebd9d_1440w.webp" alt="img"></p>
-<p><strong>我们改进了ELAN结构，使用expand, shuffle, merge cardinality三种方式</strong>。</p>
-<p>expand即指提高channels数量（假设提高为g倍），使用组卷积来减少计算量。但是组卷积会使得特征层的不同组之间的信息无法交流，因此参考shufflenet网络，使用通道重排技术进行信息交互。假设group=g，那么对g组特征层使用通道重排技术，然后将其相cat。这时候，此时的每一个group的特征层的channels数量和输入特征层相同（因为输出通道数扩大了g倍），因此我们将g组特征层相加起来，得到新的特征层，这就是merge操作。改进的E-ELAN操作如图2d。（另外，读到后面可以知道，不是所有模型都使用E-ELAN，图1的结构图是YOLOv7的基础版，是没有使用E-ELAN，而是使用ELAN）</p>
-<h3 id="基于concatenation的模型的缩放策略"><a href="#基于concatenation的模型的缩放策略" class="headerlink" title="基于concatenation的模型的缩放策略"></a>基于concatenation的模型的缩放策略</h3><p>模型缩放是调整模型的尺寸，如增大模型提高精度，减小模型提高速度，来获得不同尺寸的模型以适应不同实际工程。如scaled-YOLOv4，它通过缩放stages的数量进行缩放模型。</p>
-<p>对于常用的网络如PlainNet或者ResNet，缩放模型后，模型的输入通道数和输出通道数不会发生改变，那么可以独立分析缩放的影响。（如YOLOX和YOLOv5通过控制CSP_Block中残差块的数量进行缩放，这种不会改变输出通道数）。<strong>但是基于concatenation的模型，增加卷积个数后，下一个层的入度将会改变。</strong>如图3a和b，添加了深度后，模块输出的通道数一样会改变。</p>
-<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-933dbca99e1b3195d97cf3e9535e2ca4_1440w.webp" alt="img"></p>
-<p>因此，如果对于要使用cat的模型，添加了更多的卷积后，模型的输入输出通道数将会改变，那么将不好单独分析模型缩放深度和宽度的影响。因此为了解决此问题，<strong>我们提出了如图3c的模块</strong>，当模型缩放深度后（如图3c的scaling up depth），我们计算cat后的输出通道数，然后设置相应的宽度缩放因子（如图3c的scaling up width），以此来控制输出的通道数不会改变。也就是说，通过computational block控制缩放深度，通过Transition控制缩放宽度。</p>
-<h3 id="3-训练时的免费午餐"><a href="#3-训练时的免费午餐" class="headerlink" title="3 训练时的免费午餐"></a><strong>3 训练时的免费午餐</strong></h3><h3 id="3-1-planned重参数卷积"><a href="#3-1-planned重参数卷积" class="headerlink" title="3.1 planned重参数卷积"></a><strong>3.1 planned重参数卷积</strong></h3><p>尽管RepConv在VGG上取得巨大成功，但是当我们直接将其应用到ResNet和DenseNet或者其他结构时，其精度会较大下降。我们使用<strong>梯度流动传播路径方法</strong>去分析如何将重参数卷积结合到不同的网络。我们也设计了相应的planned重参数卷积。</p>
-<p>RepConv经常和$3<em>3$卷积、$1</em>1$卷积和恒等映射混合使用。在分析了RepConv和不同结构的结合的表现后，我们发现RepConv里面的恒等映射损害了ResNet的残差连接和DenseNet的cat操作，而这两个操作能够给不同特征层带来梯度的多样性。因此，<strong>我们设计了一个去除恒等映射的RepConv-N，如果遇到残差连接或者cat操作时，使用RepConv-N，而不是RepConv</strong>。</p>
-<p>如图4，在图4g和h中，RepConv去除了恒等分支。而图4d和f，因为输出时连接了残差，所以应该使用RepConv-N。</p>
-<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-ba4eb83432276c6af04975f82a32d2a0_1440w.webp" alt="img"></p>
-<h3 id="3-2-粗到细的训练loss策略"><a href="#3-2-粗到细的训练loss策略" class="headerlink" title="3.2 粗到细的训练loss策略"></a><strong>3.2 粗到细的训练loss策略</strong></h3><p><strong>深度监督</strong>是训练深层网络时经常使用的技巧。它的主要思想是在网络的中间添加一个额外的辅助头，浅层网络的权重能够作为辅助损失去指导网络。甚至对于那些容易收敛的如ResNet、DenseNet等网络，深度监督依然能够为模型在多个任务上显著地提升表现。图5的a和b是采用与不采用深度监督后的模型结构，在本文中，我们将最终对输出负责的head称为lead head，辅助训练的head称为auxiliary head</p>
-<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-9888244b3a573b41257f5d5e2380b767_1440w.webp" alt="img"></p>
-<p>然后，我们讨论了<strong>标签分配</strong>。在早期的工作中，标签分配通常是通过参考gt标签，然后给予一个硬标签。然而最近，开始考虑预测输出的质量和分布，然后基于此计算一个可信赖的软标签。比如YOLO使用预测框与真实框的IOU，作为软标签。本文将这种机制称作标签分配器（label assigner）。</p>
-<p>因为本文使用了深度监督策略，那么如何为auxiliary head和lead head分配软标签呢？主流的方法如图5c所示，即分别为Lead head和auxiliary head的预测结果做标签分配和loss计算。本文使用一种新颖的方法，即通过lead head的输出同时指导lead head和auxiliary head，也就是通过lead head的输出生成粗到细的层级标签。这两种提出的方法如图5d和e所示。</p>
-<p><strong>Lead head指导的标签分配器（如图5d）</strong>，主要基于lead的预测输出和ground truth进行计算，通过优化过程生成软标签。这些软标签，将会在训练时同时用于辅助头auxiliary head和导向头lead head。之所以这么做，是因为lead head的表征能力强，所以生成的软标签对源数据和目标的分布和关系，更具代表性。更进一步说，我们可以将这个过程当作<strong>一类泛化性的残差学习</strong>，浅层辅助头学习导向头已经学习过的信息，那么导向头能够更加关注学习以前未学过的残差信息。</p>
-<p><strong>粗到细的导向头指导的标签分配器（如图5e</strong>），它也使用lead head的预测和gt来生成软标签，但是它是生成两类标签，如coarse label和fine label。其中，fine标签和图5d的软标签生成过程相同，coarse标签通过放宽对正样本的约束，允许更多的网格被视作正样本，这就是粗标签生成过程。这是因为auxiliary head相对于lead head的学习能力较弱，为了避免信息丢失，对于auxiliary head我们聚焦于优化其召回率。此时，lead head能够从高召回率的结果中挑选高精度的结果。但是如果额外添加的粗标签的loss权重，和精标签的相同，那么可能会损害检测器。因此，为了使得粗标签中额外的正样本的权重减少，我们对解码器做了限制（具体如何限制文中未作解释，可能是对权重参数做了调整，具体信息得看源码才能知道），使得额外的粗正样本不能完美地产生软标签。以上的机制，允许粗标签和精标签的重要性在训练时动态调整，<strong>使得精标签的优化上界始终优于粗标签</strong>。</p>
-<h3 id="3-3-其他训练时的免费午餐"><a href="#3-3-其他训练时的免费午餐" class="headerlink" title="3.3 其他训练时的免费午餐"></a><strong>3.3 其他训练时的免费午餐</strong></h3><p>以下列了一些本文使用的方案，但是不是由本文最先提出的。</p>
-<ol>
-<li><strong>Conv-BN-Act策略</strong>。BN层直接与Conv层相连，这样在推理时，BN层能够与conv层相融合。</li>
-<li><strong>YOLOR的隐式知识建模</strong>（不太了解，所以没细看）。</li>
-<li><strong>EMA model</strong>。滑动平均训练策略，这是在训练时给近期数据更高权重的平均方法，用于对模型的参数做平均，以求提高测试指标并增加模型鲁棒。在推理时，我们使用了EMA模型作为最终的模型。</li>
-</ol>
+<p>E-LAN 结构如图 6c 所示：主要为了避免过多的使用 transition layer（会提升梯度最短路径，影响网络加深）</p>
+<p><img src="/2023/06/30/ELAN/628ff466598746f4ac251d9abbe94326.png" alt="在这里插入图片描述"></p>
 
       
     </div>
@@ -262,7 +240,7 @@ <h3 id="3-3-其他训练时的免费午餐"><a href="#3-3-其他训练时的免
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/CSPNet/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -276,7 +254,7 @@ <h3 id="3-3-其他训练时的免费午餐"><a href="#3-3-其他训练时的免
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/" class="post-title-link" itemprop="url">YOLOv6 A Single-Stage Object Detection Framework for Industrial  Applications</a>
+            <a href="/2023/06/30/CSPNet/" class="post-title-link" itemprop="url">CSPNet</a>
         </h2>
 
         <div class="post-meta">
@@ -287,7 +265,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-06-18 17:03:19 / 修改时间：17:04:07" itemprop="dateCreated datePublished" datetime="2023-06-18T17:03:19+08:00">2023-06-18</time>
+              <time title="创建时间：2023-06-30 16:10:57 / 修改时间：16:12:49" itemprop="dateCreated datePublished" datetime="2023-06-30T16:10:57+08:00">2023-06-30</time>
             </span>
 
           
@@ -301,69 +279,43 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h1 id="YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications"><a href="#YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications" class="headerlink" title="YOLOv6: A Single-Stage Object Detection Framework for Industrial  Applications"></a>YOLOv6: A Single-Stage Object Detection Framework for Industrial  Applications</h1><h2 id="YOLOv6发现以往的模型存在以下问题："><a href="#YOLOv6发现以往的模型存在以下问题：" class="headerlink" title="YOLOv6发现以往的模型存在以下问题："></a>YOLOv6发现以往的模型存在以下问题：</h2><ul>
-<li>来自RepVGG的重参数化是一种尚未在检测中得到很好利用的优越技术。我们还注意到，对于RepVGG块，简单的模型缩放变得不切实际，因此我们认为小型和大型网络之间的网络设计的优雅一致性是不必要的。对于小型网络，简单的单路径架构是更好的选择，但对于大型模型，单路径架构的参数和计算成本的指数增长使其不可行</li>
-<li>基于重参数化的检测器的量化也需要细致的处理，否则在训练和推理过程中由于其异构配置而导致的性能下降将难以处理。</li>
-<li>以前的工作往往不太关注部署，其延迟通常在V100等高成本机器上进行比较。当涉及到真正的服务环境时，存在硬件差距。通常，像Tesla T4这样的低功耗gpu成本更低，并且提供相当好的推理性能。</li>
-<li>考虑到架构差异，标签分配和损失函数设计等高级领域特定策略需要进一步验证;</li>
-<li>对于部署，我们可以容忍训练策略的调整，以提高精度性能，但不增加推理成本，例如知识蒸馏。</li>
-</ul>
-<h2 id="本文的主要工作"><a href="#本文的主要工作" class="headerlink" title="本文的主要工作"></a>本文的主要工作</h2><ul>
-<li>我们重新设计了一系列不同规模的网络，为不同场景的工业应用量身定制。</li>
-<li>不同规模的架构不同，以实现最佳的速度和精度权衡，其中小模型具有简单的单路径主干，而大模型构建在高效的多分支块上。</li>
-<li>我们为YOLOv6注入了一种自蒸馏策略，同时执行分类任务和回归任务。同时，我们动态调整来自老师和标签的知识，帮助学生模型在所有训练阶段更有效地学习知识。</li>
-<li>我们广泛验证了标签分配、损失函数和数据增强技术的先进检测技术，并有选择地采用它们来进一步提高性能。</li>
-<li>我们在RepOptimizer和通道式蒸馏的帮助下，对检测的量化方案进行了改革，这导致了一个永远快速和准确的检测器，在batchsize大小为32时，具有43.3%的COCO AP和869 FPS的吞吐量。</li>
-</ul>
-<h2 id="使用的方法-amp-模型的具体结构"><a href="#使用的方法-amp-模型的具体结构" class="headerlink" title="使用的方法&amp;模型的具体结构"></a>使用的方法&amp;模型的具体结构</h2><p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/b55cad01c6aa466c8df35624466f1a49.png" alt="img"></p>
-<ul>
-<li><strong>网络设计</strong>:<ul>
-<li><strong>backbone</strong>:与其他主流架构相比，我们发现在相似的推理速度下，RepVGG骨干网在<strong>小型网络</strong>中具有更强的特征表示能力，但由于参数和计算成本的爆炸式增长，它难以扩展以获得更大的模型。在这方面，我们将RepBlock作为我们小型网络的构建块。对于<strong>大型模型</strong>，我们修改了一个更有效的CSP块，命名为CSPStackRep块。</li>
-<li><strong>neck</strong>:YOLOv6的颈部在YOLOv4和YOLOv5之后采用PAN拓扑。我们用RepBlocks或CSPStackRep Blocks增强颈部以获得RepPAN。</li>
-<li><strong>head</strong>:我们简化了解耦头，使其更高效，称为高效解耦头。</li>
-</ul>
-</li>
-<li><strong>标签分配</strong>:我们通过大量实验评估了标签分配策略的最新进展，结果表明<strong>TAL</strong>更有效，更适合训练。</li>
-<li><strong>损失函数</strong>:主流无锚目标检测器的损失函数包含分类损失，anchor回归损失和对象损失。对于每一种损失，我们系统地用所有可用的技术进行实验，最终选择<strong>VariFocal loss</strong>作为我们的分类损失，<strong>SIoU/GIoU loss</strong>作为我们的回归损失</li>
-<li><strong>行业便利的改进</strong>:我们引入了额外的常见做法和技巧来提高性能，包括<strong>自蒸馏</strong>和<strong>更多的训练epoch</strong>。分类和anchor回归分别由教师模型监督。由于DFL，anchor回归的精馏成为可能。此外，通过余弦衰减动态衰减软、硬标签信息的比例，帮助学员在训练过程中有选择地获取不同阶段的知识。此外，我们在评估中遇到了没有增加额外灰色边界的性能受损问题，对此我们提供了一些补救措施。</li>
-<li><strong>量化和部署</strong>:为了解决基于再参数化的量化模型的性能下降问题，我们使用<strong>RepOptimizer</strong>训练YOLOv6，以获得ptq友好的权重。我们进一步采用QAT与通道智能蒸馏和图优化来追求极致的性能。</li>
-</ul>
-<h2 id="Network-Design"><a href="#Network-Design" class="headerlink" title="Network Design"></a>Network Design</h2><p>​    单阶段物体探测器通常由以下几个部分组成：主干、颈部和头部。主干网主要决定了特征表示能力，而其设计由于计算成本较大，对推理效率的影响很大。颈部用于将低级的物理特征与高级的语义特征进行聚合，然后在所有层次上建立金字塔形特征映射。头部由几个卷积层组成，并根据颈部组装的多层次特征来预测动态检测结果。从结构的角度来看，它可以分为基于锚头和无锚头，或者是参数耦合头和参数解耦头。 </p>
-<p>​    在YOLOv6中，基于硬件友好的网络设计的原则，我们提出了两个缩放的可再参数化的骨干和颈，以适应不同大小的模型，以及一个有效的解耦与混合通道策略的头。YOLOv6的整体架构如图所示。</p>
-<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/b55cad01c6aa466c8df35624466f1a49-16867300125633.png" alt="img"></p>
-<h3 id="Backbone"><a href="#Backbone" class="headerlink" title="Backbone"></a><strong>Backbone</strong></h3><p>​    多分支网络通常比单路径网络具有更好的分类性能，但它往往伴随着并行性的降低，并导致推理延迟的增加。相反，像VGG这样的普通单路网络具有高并行性和更少的内存占用的优点，从而获得了更高的推理效率。最近在RepVGG中，提出了一种结构重参数化方法，将训练时间的多分支拓扑与推理时间的平面架构解耦，以实现更好的速度精度权衡。</p>
-<p>​     <strong>受上述工作的启发，我们设计了一个高效的可重新参数化的骨干，称为EffificientRep。对于小模型，训练阶段骨干的主要成分是RepBlock</strong>，如下图所示在推理阶段，每个RepBlock转换为3×3卷积层（表示为RepConv），具有ReLU激活函数，3×3卷积在主流gpu和cpu上得到了高度优化，并且它具有更高的计算密度。因此，高效的代表骨干网充分利用了硬件的计算能力，从而显著降低了推理延迟，同时提高了表示能力。</p>
-<p>​    然而，<strong>随着模型容量的进一步扩大，单路网络中的计算成本和参数数量呈指数级增长。</strong>为了更好地实现计算负担和准确性之间的权衡，我们修改了CSPStackRep块来构建中大型网络的主干。如图所示，<strong>CSPStackRepBlock</strong>由三个1×1卷积层和一堆由两个RepVGGBlock或RepConv（分别在训练或推理时）组成，具有残差连接。此外，采用跨阶段部分（CSP）连接，在不增加计算成本的情况下提高性能。</p>
-<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/17095d3e9d894251b1542f04500d7653.png" alt="img"></p>
-<h3 id="Neck"><a href="#Neck" class="headerlink" title="Neck"></a><strong>Neck</strong></h3><p>​    <strong>采用YOLO v4和YOLO v5的PAN结构，将RepBlock（用于小型模型）或CSPStackRep块替换为YOLOv5中使用的CSPBlock)，</strong>并相应地调整宽度和深度。YOLOv6的颈部被表示为Rep-PAN。 </p>
-<h3 id="Head"><a href="#Head" class="headerlink" title="Head"></a><strong>Head</strong></h3><p>​    <strong>Effificient decoupled head：</strong> YOLOv5的检测头是一个耦合头，分类和定位分支共享参数，而FCOS和YOLOX的检测头将两个分支解耦，并在每个分支中额外引入两个3×3卷积层来提高性能。在YOLOv6中，我们采用了一种混合信道策略来构建一个更有效的解耦头。具体来说，我们将中间的3个3×3卷积层的数量减少到只有一个。头部的宽度由主干和颈部的宽度乘数共同缩放。这些修改进一步降低了计算成本，以实现更低的推理延迟。 </p>
-<p>​    <strong>Achor-free：</strong> Achor-free检测头因其更好的泛化能力和解码预测结果的简单性而脱颖而出。其后处理的时间成本大大降低了。无锚点探测器有两种类型的无锚点检测器：基于锚点的和基于关键点的。<strong>在YOLOv6中，我们采用了基于锚点的范式，其框回归分支实际上预测了从锚点到边界框四边的距离。</strong></p>
-<h3 id="Label-Assignment"><a href="#Label-Assignment" class="headerlink" title="Label Assignment"></a>Label Assignment</h3><p>​    标签分配负责在训练阶段为预定义的锚点分配标签。先前的工作提出了各种标签分配策略，从简单的基于iou的策略和内部地面真值方法到其他更复杂的方案。</p>
-<p>​    <strong>SimOTA</strong> OTA认为目标检测中的标签分配是一个最优的传输问题。它从全局的角度为每个地面真实对象定义了正/负的训练样本。SimOTA是OTA的一个简化版本，它减少了额外的超参数并保持了性能。在YOLOv6的早期版本中，使用了SimOTA作为标签分配方法。然而，在实践中，<strong>我们发现引入SimOTA会减慢培训过程。而且经常陷入不稳定的训练。因此，我们希望有一个替代SimOTA。</strong> </p>
-<p>​    <strong>Task alignment learning</strong> 任务对齐学习（TAL）首次在TOOD中提出，其中设计了一个统一的分类分数和预测框质量的统一度量。用此度量替换IoU以分配对象标签。在一定程度上，缓解了任务（分类和预测框回归）的错位问题。TOOD的另一个主要贡献是关于任务状头（T-head）。T-head堆栈卷积层来构建交互式特性，在此之上使用了任务对齐预测器（TAP）。PP-YOLOE用轻量级ESE注意取代T-head的层注意，形成ET-head。<strong>然而，我们发现ET-head会恶化我们模型的推理速度，它没有精度增益。因此，我们保留了我们的高效解耦头的设计。</strong></p>
-<p>​    <strong>此外，我们观察到TAL比SimOTA带来更多的性能改善，稳定训练。因此，我们在YOLOv6中采用TAL作为默认的标签分配策略。</strong></p>
-<h3 id="Loss-Functions"><a href="#Loss-Functions" class="headerlink" title="Loss Functions"></a>Loss Functions</h3><p>​    对象检测包含两个子任务：分类和定位，对应于两个损失函数：分类损失和预测框回归损失。对于每个子任务，近年来都有各种不同的损失函数。在本节中，我们将介绍这些损失函数，并描述我们如何为YOLOv6选择最佳的损失函数。 </p>
-<h4 id="Classifification-Loss"><a href="#Classifification-Loss" class="headerlink" title="Classifification Loss"></a><strong>Classifification Loss</strong></h4><p>​     提高分类器的性能是优化检测器的关键部分。Focal Loss改进了传统的交叉熵损失，解决了正负样本或硬易样本之间的类不平衡问题。为了解决训练和推理之间质量估计和分类使用不一致的问题，Quality Focal Loss（QFL）进一步扩展了Focal Loss，并将分类评分和定位质量联合表示出来进行分类监督。<strong>而VariFocal Loss (VFL)来源于Focal Loss，但它不对称地处理正样本和负样本。通过考虑不同重要程度的正样本和负样本，它平衡了来自两个样本的学习信号。Poly Loss将常用的分类损失分解为一系列加权多项式基。它在不同的任务和数据集上调整多项式系数，通过实验证明了其优于交叉熵损失和焦点损失。</strong></p>
-<p>​    我们评估了YOLOv6上的所有这些高级分类损失，并最终采用了VFL 。</p>
-<h4 id="Box-Regression-Loss"><a href="#Box-Regression-Loss" class="headerlink" title="Box Regression Loss"></a>Box Regression Loss</h4><p>​    预测框回归损失提供了重要的学习信号精确的定位边界框。L1损失是早期工作中原始的预测框回归损失。逐渐地，各种设计良好的预测框回归损失已经出现，如iou系列损失和概率损失。</p>
-<p>​    <strong>IoU-series Loss</strong> IoU损失回归了一个预测框作为一个整体单位的四个边界。由于它与评价度量的一致性，它已被证明是有效的。IoU有许多变体，如GIoU、DIoU、CIoU、α-IoU和SIoU等，形成了相关的损失函数。我们用GIoU、CIoU和SIoU进行了实验。而SIOU应用于YOLOv6-N和YOLOv6-T，而其他的则使用GIoU。</p>
-<p>​    <strong>Probability Loss</strong>  Distribution Focal Loss<strong>（DFL）将预测框位置的基本连续分布简化为一个离散的概率分布。</strong>它在不引入任何其他强先验的情况下考虑数据中的模糊性和不确定性，有助于提高<strong>预测框</strong>的定位精度，特别是在地面-真值盒的边界模糊的情况下。在DFL的基础上，DFLv2 开发了一个轻量级的子网络，以利用分布统计数据与真实定位质量之间的密切相关性，进一步提高了检测性能。<strong>然而，DFL通常比一般的预测框回归多输出17×的回归值，这导致了大量的开销。额外的计算成本明显地阻碍了对小模型的训练。而DFLv2则由于额外的子网络而进一步增加了计算负担。</strong>在我们的实验中，DFLv2在我们的模型上带来了与DFL相似的性能增益。因此，我们只在YOLOv6-M/L中采用DFL。实验细节见第3.3.3节。</p>
-<h4 id="Object-Loss"><a href="#Object-Loss" class="headerlink" title="Object Loss"></a><strong>Object Loss</strong></h4><p>​    Object loss首先是在FCOS中提出的，以降低低质量的边界框的得分，以便在后处理中可以过滤掉它们。它也被用于YOLOX来加速收敛和提高网络精度。作为像FCOS和YOLOX这样的无锚框架，我们尝试在YOLOv6中使用ObjectLoss。不幸的是，它并没有带来许多积极的影响。</p>
-<h3 id="Industry-handy-improvements"><a href="#Industry-handy-improvements" class="headerlink" title="Industry-handy improvements"></a>Industry-handy improvements</h3><h4 id="More-training-epochs"><a href="#More-training-epochs" class="headerlink" title="More training epochs"></a><strong>More training epochs</strong></h4><p>​    实验结果表明，训练时间越长，探测器就具有进步的性能。<strong>我们将训练从300个epochs延长到400个epochs，以达到更好的收敛性。</strong></p>
-<h4 id="Self-distillation"><a href="#Self-distillation" class="headerlink" title="Self-distillation"></a><strong>Self-distillation</strong></h4><p>​    为了进一步提高模型的准确性，同时不引入太多额外的计算成本，<strong>我们采用经典的知识蒸馏技术来最小化教师模型和学生模型之间预测的KL散度。</strong>我们限制教师模型是预先训练的学生模型，因此我们称之为自我蒸馏。请注意，kl-散度通常用于度量数据分布之间的差异。然而，在目标检测中有两个子任务，其中只有分类任务可以直接利用基于kl-散度的知识精馏。由于DFL损失[20]，我们也可以在预测框回归上执行它。知识蒸馏损失可以表述为： </p>
-<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/9ef8cfa56b40480e94f5ce1b36eb5875.png" alt="img"></p>
-<p>​    其中<img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/70e48551855e4598af43ca460c462046.png" alt="img">和<img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/956c6028740d47c398f7ef336d6e5ffb.png" alt="img">分别为教师模型和学生模型的类别预测，因此<img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/2421a4e7d6da4247af9d11f7fefe46dc.png" alt="img">和<img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/7628f443735a4c1e9c0a75518ea107e7.png" alt="img">为预测框回归预测。总体损失函数现在可以表述为： </p>
-<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/1879de4162f44bb080647818d6350ce4.png" alt="img"></p>
-<p>​    其中，Ldet是用预测和标签计算出的检测损失。引入超参数α来平衡两个损失。在训练的早期阶段，从教师模型那里得到的软标签更容易学习。随着训练的继续，学生模型的表现将与教师模型相匹配，这样硬标签将对学生更有帮助。在此基础上，我们将余弦权值衰减应用于α，以动态调整来自教师的硬标签和软标签的信息。</p>
-<h4 id="Gray-border-of-images"><a href="#Gray-border-of-images" class="headerlink" title="Gray border of images"></a><strong>Gray border of images</strong></h4><p>​    我们注意到，<strong>在评估YOLOv5 和YOLOv7 实现中的模型性能时，在每个图像周围都设置了一个半步幅的灰色边界。</strong>虽然没有添加任何有用的信息，但它有助于检测图像边缘附近的物体。这个技巧也适用于YOLOv6。 <strong>然而，额外的灰度像素明显降低了推理速度。如果没有灰色边框，YOLOv6的性能就会恶化</strong>。我们假设该问题与Mosaic augmentation中的灰色边界填充有关。实验在关闭mosaic增强在最后的epochs进行验证。在这方面，我们改变了灰度边界的面积，并将具有灰度边界的图像的大小直接调整为目标图像的大小。结合这两种策略，我们的模型可以保持甚至提高性能，而不降低推理速度。</p>
-<h3 id="Quantization-and-Deployment"><a href="#Quantization-and-Deployment" class="headerlink" title="Quantization and Deployment"></a><strong>Quantization and Deployment</strong></h3><p>​    对于工业部署，通常的做法是采用量化以进一步加快运行时，而不会影响太多性能。训练后量化（PTQ）直接用一个小的校准集对模型进行量化。而量化感知训练（QAT）进一步提高了对训练集的访问的性能，这通常与蒸馏联合使用。<strong>然而，由于在YOLOv6中大量使用重新参数化块，以前的PTQ技术不能产生高性能，而在训练和推理过程中匹配假量化器时，很难合并QAT。</strong>我们在这里展示了在部署期间的陷阱和我们的解决方法。 </p>
-<h4 id="Reparameterizing-Optimizer"><a href="#Reparameterizing-Optimizer" class="headerlink" title="Reparameterizing Optimizer"></a><strong>Reparameterizing Optimizer</strong></h4><p>​    RepOptimizer<strong>在每个优化步骤中提出梯度重新参数化。</strong>该技术也能很好地解决了基于再参数化的模型的量化问题。因此，我们以这种方式重建了YOLOv6的重新参数化块，并使用重新优化器对其进行训练，以获得对PTQ友好的权值。特征图的分布很窄，这大大有利于量化过程。 </p>
-<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/408b78b8e84d40c590319c35205855c0.png" alt="img"></p>
-<h4 id="Sensitivity-Analysis"><a href="#Sensitivity-Analysis" class="headerlink" title="Sensitivity Analysis"></a><strong>Sensitivity Analysis</strong></h4><p>​    我们通过将量化敏感操作部分转换为浮点计算，进一步提高了PTQ的性能。为了获得灵敏度分布，我们常用了几个指标，即均方误差（MSE）、信噪比（SNR）和余弦相似度。通常，为了进行比较，可以选择输出特征映射（在激活某一层之后）来计算有量化和没有量化的这些度量。作为一种替代方法，它也可以通过开关特定层的量化来计算验证AP。</p>
-<p>​    我们在使用重新优化器训练的YOLOv6-S模型上计算所有这些指标，并选择前6个敏感层，以浮动形式运行。敏感性分析的完整图表见B.2。</p>
-<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/88873d7d91d945c79f54014e725fbe13.png" alt="img"> </p>
-<h4 id="Quantization-aware-Training-with-Channel-wise-Distillation"><a href="#Quantization-aware-Training-with-Channel-wise-Distillation" class="headerlink" title="Quantization-aware Training with Channel-wise Distillation"></a><strong>Quantization-aware Training with Channel-wise</strong> <strong>Distillation</strong></h4><p>​    <strong>在PTQ不足的情况下，我们建议涉及量化感知训练（QAT）来提高量化性能。为了解决在训练和推理过程中假量化器的不一致性问题，有必要在重新优化器上建立QAT。</strong>此外，在YOLOv6框架内采用了通道蒸馏（后来称为CW蒸馏），如图5所示。这也是一种自蒸馏的方法，其中教师网络是在fp32精度上的学生模型。参见第3.5.1节中的实验。 </p>
-<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/cda38d2ac2884096b174b6dc66edbb6e-168707903752712.png" alt="cda38d2ac2884096b174b6dc66edbb6e"></p>
+          <h1 id="CSPNET-A-NEW-BACKBONE-THAT-CAN-ENHANCE-LEARNING-CAPABILITY-OF-CNN"><a href="#CSPNET-A-NEW-BACKBONE-THAT-CAN-ENHANCE-LEARNING-CAPABILITY-OF-CNN" class="headerlink" title="CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN"></a>CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN</h1><h2 id="CSPNet-简介"><a href="#CSPNet-简介" class="headerlink" title="CSPNet 简介"></a>CSPNet 简介</h2><p>在本文中，作者提出了跨阶段局部网络(CSPNet)，用来缓解以往工作需要从网络架构角度进行大量推理计算的问题，作者把这个问题归结为网络优化中的<strong>重复梯度信息</strong>。</p>
+<p>作者的主要想法是通过分割梯度流，使梯度流通过不同的网络路径传播。通过切换拼接和转换，传播的梯度信息可以具有较大的相关性差异。此外，CSPNet可以大大减少计算量，并提高推理速度和准确性。除此之外，CSPNet 易于实现，并且足够通用，可以与 ResNet、ResNeXt 和 DenseNet 的体系结构相融合。</p>
+<p>本文主要解决了以下的三个问题：</p>
+<ul>
+<li><strong>加强CNN的学习能力：</strong>现有的CNN网络存在经过轻量化之后的准确率大大下降的问题，现有的网络使用CSPNet的思想之后，计算量将减少10％至20％，准确率更高。</li>
+<li><strong>消除计算瓶颈：</strong>认为过高的bottleneck会导致花费更多的时间进行推理，或部份算术单元会被闲置。所以将CNN的计算量均匀的分布在每一层，从而有效的提升每个计算单元的利用率。</li>
+<li><strong>降低内存成本：</strong>在特征金字塔生成过程中采用了跨通道池化的方式进行特征映射。</li>
+</ul>
+<h2 id="CSPNet思想"><a href="#CSPNet思想" class="headerlink" title="CSPNet思想"></a>CSPNet思想</h2><pre><code>    在原本DenseNet中，前面层的feature map全部传入后面层作为输入，在CSPNet中，将前面层的feature map在通道上一分为二，一部分输入到后面层，一部分直接通过short-cut的方式连接到transition层，这样可以缓解一部分的梯度信息重复计算问题，从而减少模型的计算量和显存占用。
+</code></pre><h2 id="CSPNet网络创新点"><a href="#CSPNet网络创新点" class="headerlink" title="CSPNet网络创新点"></a>CSPNet网络创新点</h2><h3 id="整体结构"><a href="#整体结构" class="headerlink" title="整体结构"></a>整体结构</h3><p><img src="/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p>传统的DenseNet中，第i层的输入与第i层的输出做concat，作为第i+1层的输入，这就要求输入和输出的分辨率保持不变，就是不做下采样操作，下采样操作在transition层进行。</p>
+<p>在CSPDenseNet中，将输入特征数据在通道维度上划分为<img src="/2023/06/30/CSPNet/281b211c0a544314af53007639dc64e8.png" alt="img">， <img src="/2023/06/30/CSPNet/f3ba8572acaf4dab9e857b6403f518ef.png" alt="img">输入到DenseNet中，<img src="/2023/06/30/CSPNet/103a8eac372346009eeffe0dcad93118.png" alt="img">直接在transition层与DenseBlock的输出在通道维度上做concat。在CSPDenseNet的transition层，先将Dense Block的输出结果<img src="/2023/06/30/CSPNet/2d7ec7a7f418470698bc5a1f820be714.png" alt="img">经过一个conv卷积操作，然后和<img src="/2023/06/30/CSPNet/6fcccbe8978840aea95bca7d05e6306b.png" alt="img">进行concat得到<img src="/2023/06/30/CSPNet/419c23c79b0945b294cf22b5c14741b8.png" alt="img">，输入到另一个conv卷积操作得到<img src="/2023/06/30/CSPNet/150b965a21f743e8a22a9068a2ca9c15.png" alt="img">。</p>
+<p>上述图（b）中CSPDenseNet的前向推理过程如下：</p>
+<p><img src="/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_13,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p>参数更新过程如下：</p>
+<p><img src="/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_14,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p>经过上述改进之后，CSPDenseNet将原来DenseNet中对于全部feature map的重复梯度计算降低了一半，因为另一半x0’ 的feature map不在经过Dense Block，直接送入了transition层。所以这种网络结构叫做Cross Stage Partial DenseNet，就是跨Stage的部分的DenseNet。</p>
+<h3 id="Partial-Dense-Block"><a href="#Partial-Dense-Block" class="headerlink" title="Partial Dense Block"></a>Partial Dense Block</h3><p>Partial Dense Block的设计目的为</p>
+<ul>
+<li><strong>增加梯度路径:</strong>通过拆分合并策略，可以使梯度路径的数量增加一倍。由于跨阶段策略，可以减轻使用显式特征映射复制进行连接所带来的缺点</li>
+<li><strong>每层的平衡计算:</strong>通常，DenseNet的基础层通道数远大于增长率。由于局部密集块中涉及密集层操作的基础层通道仅占原始数量的一半，因此可以有效解决近一半的计算瓶颈</li>
+<li><strong>减少内存流量:</strong>假设DenseNet中一个密集块的基本特征图大小为w × h × c，增长率为d，总共有m个密集层。则该密集块的CIO为$(c × m) + ((m^2 + m) × d)=2$，部分密集块的CIO为$(c × m) + (m^2 + m) × d)=2$。虽然m和d通常远小于c，但部分密集块最多可以节省网络内存流量的一半。</li>
+</ul>
+<h3 id="Partial-Transition-Layer"><a href="#Partial-Transition-Layer" class="headerlink" title="Partial Transition Layer"></a>Partial Transition Layer</h3><p>Partial Transition Layer的设计目的为使梯度组合的差异最大化。Partial Transition Layer是一种层次化的特征融合机制，它利用梯度流的聚合策略来防止不同的层学习重复的梯度信息。在这里，作者设计了两个CSPDenseNet变体来展示这种梯度流截断是如何影响网络的学习能力的。</p>
+<p><img src="/2023/06/30/CSPNet/20201210234304222.png" alt="在这里插入图片描述"></p>
+<p>上图中的 (c) 和 (d) 展示了两种不同的融合策略：</p>
+<p><strong>Fusion First：</strong>是将两部分生成的feature map进行拼接，然后进入过渡层。如果采用这种策略，将会损失大量的梯度信息。<br><strong>Fusion Last：</strong>对于fusion last策略，来自稠密块的输出将经过过渡层，然后与来自Part1的feature map进行连接。如果采用这种策略，由于梯度流被截断，梯度信息将不会被重用。<br>如果我们使用上图所示的四种架构来进行图像分类，其结果如下图所示：</p>
+<p><img src="/2023/06/30/CSPNet/20201210235050303.png" alt="在这里插入图片描述"></p>
+<p>从上图可以看出，如果采用Fusion Last策略进行图像分类，计算成本明显下降，但Top-1的准确率仅下降0.1%。另一方面，CSP (fusion first)策略确实有助于显著降低计算成本，但Top-1的准确率显著下降1.5%。</p>
+<p><strong>通过使用跨阶段的分割和合并策略，我们能够有效地减少信息集成过程中重复的可能性。如果能够有效地减少重复的梯度信息，那么网络的学习能力将会得到很大的提高。</strong></p>
+<p>我们可以得到如下结论：</p>
+<ul>
+<li>使用Fusion First有助于降低计算代价，但是准确率有显著下降。</li>
+<li>使用Fusion Last也是极大降低了计算代价，top-1 accuracy仅仅下降了0.1个百分点。</li>
+<li>同时使用Fusion First和Fusion Last相结合的CSP所采用的融合方式可以在降低计算代价的同时，提升准确率。</li>
+</ul>
+<h2 id="应用CSPNet的思想至其他网络："><a href="#应用CSPNet的思想至其他网络：" class="headerlink" title="应用CSPNet的思想至其他网络："></a>应用CSPNet的思想至其他网络：</h2><p><img src="/2023/06/30/CSPNet/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5aSn5rW3,size_20,color_FFFFFF,t_70,g_se,x_16-168726774348025.png" alt="img"></p>
 
       
     </div>
@@ -383,7 +335,7 @@ <h4 id="Quantization-aware-Training-with-Channel-wise-Distillation"><a href="#Qu
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/RegVGG/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -397,7 +349,7 @@ <h4 id="Quantization-aware-Training-with-Channel-wise-Distillation"><a href="#Qu
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/" class="post-title-link" itemprop="url">RepVGG Making VGG-style ConvNets Great Again</a>
+            <a href="/2023/06/30/RegVGG/" class="post-title-link" itemprop="url">RegVGG</a>
         </h2>
 
         <div class="post-meta">
@@ -408,7 +360,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-06-18 17:02:39 / 修改时间：17:02:54" itemprop="dateCreated datePublished" datetime="2023-06-18T17:02:39+08:00">2023-06-18</time>
+              <time title="创建时间：2023-06-30 16:10:43 / 修改时间：16:13:03" itemprop="dateCreated datePublished" datetime="2023-06-30T16:10:43+08:00">2023-06-30</time>
             </span>
 
           
@@ -435,7 +387,7 @@ <h3 id="对于较为复杂的网络（ResNet的残差块以及Inception的分支
 <li>模型的具体架构(包括具体的深度和层宽度)的实例化没有模型结构的自动搜索，手工细化，复合缩放，也没有其他代价较大的设计。</li>
 </ul>
 <h3 id="作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。"><a href="#作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。" class="headerlink" title="作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。"></a>作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。</h3><p>针对多分支架构的优点集中于训练上，而不希望用于推理上，故提出重参数化的方法来解耦训练时的多分支结构和推理时的简单架构，即意味着通过转换其参数将架构从一个转换到另一个。</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/4H7{5]]_TNU%XI%5PPH9KA9.png" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/4H7{5]]_TNU%XI%5PPH9KA9.png" alt="img"></p>
 <p>如上图中(b)和(c)所示，即为转换之后的RepVGG和转换之前的RepVGG。其将分支看作退化的1x1卷积，进一步看作退化的3x3卷积。从而可以从(b)中的模型架构转变为(c)中的模型架构，可以用3x3卷积、BN、1x1卷积等模块进行原模型的等效替换。从而提升计算速度。</p>
 <h3 id="本文的核心贡献点如下："><a href="#本文的核心贡献点如下：" class="headerlink" title="本文的核心贡献点如下："></a>本文的核心贡献点如下：</h3><ul>
 <li>我们提出了RepVGG，这是一种简单的架构，与最先进的技术相比，具有良好的速度-精度权衡。</li>
@@ -443,27 +395,27 @@ <h3 id="本文的核心贡献点如下："><a href="#本文的核心贡献点如
 <li>我们展示了RepVGG在图像分类和语义分割方面的有效性，以及实现的效率和易用性。</li>
 </ul>
 <h3 id="如何实现结构重参数化："><a href="#如何实现结构重参数化：" class="headerlink" title="如何实现结构重参数化："></a>如何实现结构重参数化：</h3><p>在上述提到，RepVGG在训练时每一层都有三个分支，分别是identify，1x1，3x3，模型训练时，输出$ y=x+g(x)+f(x) $，每一层就需要3个参数块，对于n层网络，就需要$3*n$个参数块。所以我们需要重参数化，会使得推理时模型参数量小。</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/aa1ad31949b54e76b0a282fab915478f.png" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/aa1ad31949b54e76b0a282fab915478f.png" alt="img"></p>
 <p>上图中的过程即为将训练好的多分支模型转换为单分支模型，从而达到推理时的高性能</p>
 <figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">对于重参数化的实现主要存在两个问题：</span><br><span class="line">第一个问题，在每个卷积后都接上一个BN，怎么将卷积和BN融合。</span><br><span class="line">第二个问题，存在不同大小的卷积，怎么将几个不同大小的卷积融合在一起。</span><br></pre></td></tr></table></figure>
 <p>对于第一个问题，在每个卷积后都接上一个BN，怎么将卷积和BN融合。</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-84cdab58644fcbcafb3c690c1669b879_1440w.webp" alt="v2-84cdab58644fcbcafb3c690c1669b879_1440w"></p>
+<p><img src="/2023/06/30/RegVGG/v2-84cdab58644fcbcafb3c690c1669b879_1440w.webp" alt="v2-84cdab58644fcbcafb3c690c1669b879_1440w"></p>
 <p>这其实就是一个卷积层，只不过权重考虑了BN的参数 我们令：</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-b438e3a2ee316a6054a4e4c45443fef3_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/v2-b438e3a2ee316a6054a4e4c45443fef3_1440w.webp" alt="img"></p>
 <p>最终的融合结果即为：</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-cd0d2de067e4850fe4fafce70f58acf1_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/v2-cd0d2de067e4850fe4fafce70f58acf1_1440w.webp" alt="img"></p>
 <h3 id="2-2-2-conv-3x3和conv-1x1合并"><a href="#2-2-2-conv-3x3和conv-1x1合并" class="headerlink" title="2.2.2. conv_3x3和conv_1x1合并"></a>2.2.2. conv_3x3和conv_1x1合并</h3><p> 这里为了详细说明下，假设输入特征图特征图尺寸为(1, 2, 3, 3)，输出特征图尺寸与输入特征图尺寸相同，且stride=1，下面展示是conv_3x3的卷积过程：</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-89854f076457c9c03b733a389db96993_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/v2-89854f076457c9c03b733a389db96993_1440w.webp" alt="img"></p>
 <p> conv_3x3卷积过程大家都很熟悉，看上图一目了然，首先将特征图进行pad=kernel_size//2，然后从左上角开始(上图中红色位置)做卷积运算，最终得到右边output输出。下面是conv_1x1卷积过程：</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-88962d2f0fc8f1371d0d521c04c2a57d_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/v2-88962d2f0fc8f1371d0d521c04c2a57d_1440w.webp" alt="img"></p>
 <p> 同理，conv_1x1跟conv_3x3卷积过程一样，从上图中左边input中红色位置开始进行卷积，得到右边的输出，观察conv_1x1和conv_3x3的卷积过程，可以发现他们都是从input中红色起点位置开始，走过相同的路径，因此，将conv_3x3和conv_1x1进行融合，只需要将conv_1x1卷积核padding成conv_3x3的形式，然后于conv_3x3相加，再与特征图做卷积(这里依据卷积的可加性原理)即可，也就是conv_1x1的卷积过程变成如下形式：</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-b7409c315f10a158331bf90fcf32efd6_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/v2-b7409c315f10a158331bf90fcf32efd6_1440w.webp" alt="img"></p>
 <h3 id="2-2-3-identity-等效为特殊权重的卷积层"><a href="#2-2-3-identity-等效为特殊权重的卷积层" class="headerlink" title="2.2.3. identity 等效为特殊权重的卷积层"></a>2.2.3. identity 等效为特殊权重的卷积层</h3><p> identity层就是输入直接等于输出，也即input中每个通道每个元素直接输出到output中对应的通道，用一个什么样的卷积层来等效这个操作呢，我们知道，卷积操作必须涉及要将每个通道加起来然后输出的，然后又要保证input中的每个通道每个元素等于output中，从这一点，我们可以从PWconv想到，只要令当前通道的卷积核参数为1，其余的卷积核参数为0，就可以做到；从DWconv中可以想到，用conv_1x1卷积且卷积核权重为1，就能保证每次卷积不改变输入，因此，identity可以等效成如下的conv_1x1的卷积形式：</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-b05e6fa96bd642c1da2d36d39a543d7a_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/v2-b05e6fa96bd642c1da2d36d39a543d7a_1440w.webp" alt="img"></p>
 <p>从上面的分析，我们进一步可以将indentity -&gt; conv_1x1 -&gt; conv_3x3的形式，如下所示：</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-bc97e575d5007645901830109828a36f_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/v2-bc97e575d5007645901830109828a36f_1440w.webp" alt="img"></p>
 <p> 上述过程就是对应论文中所属的下述从step1到step2的变换过程，涉及conv于BN层融合，conv_1x1与identity转化为等价的conv_3x3的形式：</p>
-<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-f5ce0b89a10aa36223275dccd6327cbe_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/30/RegVGG/v2-f5ce0b89a10aa36223275dccd6327cbe_1440w.webp" alt="img"></p>
 <p> 结构重参数化的最后一步也就是上图中step2 -&gt; step3， 这一步就是利用卷积可加性原理，将三个分支的卷积层和bias对应相加组成最终一个conv<em>3x3的形式即可。</em><br>这里，大家可能既然把BN，identity，conv_1x1和conv_3x3都融合在一起了，为什么不干脆把ReLU也融合进去呢？其实也是可以将ReLU层进行融合的，<strong>但是需要进行量化</strong>，<strong>conv输出tensor的值域直接使用relu输出的值阈（同时对应计算Ｓ和Z），就可以完成conv和relu合并。无量化动作的优化是无法完成conv+relu的合并*</strong>。这里的知识请大家参考论文：<em><br><em>*<a href="https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1712.05877">Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference</a>。</em></em></p>
 
       
@@ -484,7 +436,7 @@ <h3 id="2-2-3-identity-等效为特殊权重的卷积层"><a href="#2-2-3-identi
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/VovNet/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -498,7 +450,7 @@ <h3 id="2-2-3-identity-等效为特殊权重的卷积层"><a href="#2-2-3-identi
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/" class="post-title-link" itemprop="url">A New Baseline for Single-/Cross-Modality Re-ID</a>
+            <a href="/2023/06/30/VovNet/" class="post-title-link" itemprop="url">VovNet</a>
         </h2>
 
         <div class="post-meta">
@@ -509,7 +461,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-04-23 20:46:36 / 修改时间：21:04:48" itemprop="dateCreated datePublished" datetime="2023-04-23T20:46:36+08:00">2023-04-23</time>
+              <time title="创建时间：2023-06-30 16:10:29 / 修改时间：16:13:21" itemprop="dateCreated datePublished" datetime="2023-06-30T16:10:29+08:00">2023-06-30</time>
             </span>
 
           
@@ -523,20 +475,47 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h1 id="AGW-A-New-Baseline-for-Single-Cross-Modality-Re-ID"><a href="#AGW-A-New-Baseline-for-Single-Cross-Modality-Re-ID" class="headerlink" title="AGW: A New Baseline for Single-/Cross-Modality Re-ID"></a>AGW: A New Baseline for Single-/Cross-Modality Re-ID</h1><p>其为综述Deep Learning for Person Re-identification:A Survey and Outlook 中提出的方法</p>
-<p> AGW是在BagTricks的基础之上进行设计研究的，其主要包括以下三个主要的提升组件：</p>
+          <h1 id="VoVNet-An-Energy-and-GPU-Computation-Efficient-Backbone-Network-for-Real-Time-Object-Detection"><a href="#VoVNet-An-Energy-and-GPU-Computation-Efficient-Backbone-Network-for-Real-Time-Object-Detection" class="headerlink" title="VoVNet:An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection"></a>VoVNet:An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection</h1><h2 id="大体介绍及缘由"><a href="#大体介绍及缘由" class="headerlink" title="大体介绍及缘由"></a>大体介绍及缘由</h2><p>因为 <code>DenseNet</code> 通过用密集连接，来聚合具有不同感受野大小的中间特征，因此它在对象检测任务上表现出良好的性能。虽然特征重用（<code>feature reuse</code>）的使用，让 <code>DenseNet</code> 以少量模型参数和 <code>FLOPs</code>，也能输出有力的特征，但是使用 <code>DenseNet</code> 作为 <code>backbone</code> 的目标检测器却表现出了运行速度慢和效率低下的弊端。作者认为是密集连接(<code>dense connection</code>)带来的输入通道线性增长，从而导高内存访问成本和能耗。</p>
+<p>为了提高 <code>DenseNet</code> 的效率，作者提出一个新的更高效的网络 <code>VoVet</code>，由 <code>OSA</code>（<code>One-Shot Aggregation</code>，一次聚合）组成。<code>OSA</code> <strong>仅在模块的最后一层聚合前面所有层的特征</strong>，这种结构不仅继承了 <code>DenseNet</code> 的多感受野表示多种特征的优点，也解决了密集连接效率低下的问题。基于 <code>VoVNet</code> 的检测器不仅速度比 <code>DenseNet</code> 快 2 倍，能耗也降低了 1.5-4.1 倍。另外，<code>VoVNet</code> 网络的速度和效率还优于 <code>ResNet</code>，并且其对于小目标检测的性能有了显著提高。</p>
+<p>DenseNet和VoVNet之间的区别，大体上可以如下图所示：</p>
+<p><img src="/2023/06/30/VovNet/v2-06f9e7e6761c98f4f554cb5aabe9cab2_1440w.webp" alt="img"></p>
+<h3 id="贡献："><a href="#贡献：" class="headerlink" title="贡献："></a>贡献：</h3><ul>
+<li><p>讨论了 MAC 和 GPU 计算的效率，并研究了如何设计更高效的结构</p>
+</li>
+<li><p>抛出了 DenseNet 网络结构中的问题，包括低效的、冗余的操作等</p>
+</li>
+<li><p>提出了 One-shot Aggregation（OSA），将中间的特征一次性聚合（在最后一层聚合一次），如图 1b 所示，能够在</p>
+<p>保留 concat 优势的同时优化 MAC（中间层输入输出通道相同） 和 GPU 计算效率（无需 1x1 卷积）</p>
+</li>
+<li><p>基于 OSA 模块，构建了 VoVNet，一个 backbone 网络结构，并且将该 backbone 用于 DSOD、RefineDet、Mask R-CNN 等方法中，取得了比 DenseNet、ResNet 等方法更好的效率和准确率的平衡</p>
+</li>
+</ul>
+<h2 id="proposed-method"><a href="#proposed-method" class="headerlink" title="proposed method"></a>proposed method</h2><h3 id="重新思考密集连接"><a href="#重新思考密集连接" class="headerlink" title="重新思考密集连接"></a>重新思考密集连接</h3><p><strong>DenseNet 的优点</strong>：</p>
+<p>在计算第 $l$ 层的输出时，要用到之前所有层的输出的 concat 的结果。这种<strong>密集的连接使得各个层的各个尺度的特征都能被提取</strong>，供后面的网络使用。这也是它能得到比较高的精度的原因，而且<strong>密集的连接更有利于梯度的回传</strong>（ResNet shorcut 操作的加强版）。</p>
+<p><strong>DenseNet 缺点</strong>（导致了能耗和推理效率低的）：</p>
 <ul>
-<li>Non-local Attention (Att) Block</li>
-<li>Generalized-mean (GeM) Pooling.</li>
-<li>Weighted Regularization Triplet (WRT) loss</li>
+<li>密集连接会增加输入通道大小，但输出通道大小保持不变，导致的输入和输出通道数都不相等。因此，DenseNet 具有具有较高的 MAC。</li>
+<li>DenseNet 采用了 <code>bottleneck</code> 结构，这种结构将一个 3×3 卷积分成了两个计算（1x1+3x3 卷积），这带来了更多的序列计算（sequential computations），导致会降低推理速度。</li>
+</ul>
+<blockquote>
+<p>密集连接会导致计算量增加，所以不得不采用 1×1 卷积的 <code>bottleneck</code> 结构。</p>
+</blockquote>
+<h3 id="One-shot-Aggregation"><a href="#One-shot-Aggregation" class="headerlink" title="One-shot Aggregation"></a>One-shot Aggregation</h3><p>OSA 模块就是只聚合每个 block 的最后一层特征，也就是在每个 block 的最后一层，对该 block 的前面所有层的特征进行 concat，只进行这一次的聚合。</p>
+<p>该模块将中间层的特征聚合到最后一层。如图所示。每个卷积层包含双向连接，一个连接到下一层以产生具有更大感受野的特征，而另一个仅聚合到最终输出特征映射。</p>
+<p><img src="/2023/06/30/VovNet/4c2143990db24da7be3fa4c43c96dd82.png" alt="在这里插入图片描述"></p>
+<ul>
+<li>首先，在和 DenseNet-40 的 dense block 参数和计算量相似的基础上，设计 OSA module</li>
+<li>先使用层数相同的方式，随着每个卷积层输入尺度的减小，OSA 的输出比 dense block 的输出更大，OSA 模块的网络得到 93.6% acc，比同量级的 ResNet 效果好，由此可见，只在最后一层进行特征聚合，比使用全部中间层聚合更好</li>
+<li>OSA 的 transition layer 和 DenseNet 有较大不同，OSA 中，从浅层来的特征对 transition layer 更有效，因为深层特征对 transition layer 没有很大的影响</li>
+<li>所以，将 OSA module 降为使用 5 层（共 43 通道），如图 2 最下边一行，得到了 5.44% err，和 DenseNet-40 的 5.24% 很接近，这说明使用大量的中间层的密集连接是低效且没有很大的作用</li>
+<li>在检测任务上，使用 5 层 43 通道的 OSA module 可以将 MAC 从 3.7M 降低到 2.5M，这是因为 OSA 的中间层输入输出通道是相同的，使得MAC 最低，此外，因为检测任务比分类任务使用更大分辨率的特征图，MAC 会更严重的影响耗时和效率</li>
+</ul>
+<p>总之，OSA 能够提升 GPU 是计算效率，OSA 中间层的输入输出通道数相同，也不大需要使用 1x1 瓶颈层来降维，所以，OSA 层数更少、更高效</p>
+<h3 id="OSA-与-DenseNet-的不同之处总结如下："><a href="#OSA-与-DenseNet-的不同之处总结如下：" class="headerlink" title="OSA 与 DenseNet 的不同之处总结如下："></a>OSA 与 DenseNet 的不同之处总结如下：</h3><ul>
+<li>每一层的输出并没有按路线（route）到所有后续的中间层，这使得中间层的输入大小是恒定的。这样就提高了 GPU 的计算效率。</li>
+<li>另外一个不同之处在于没有了密集连接，因此 MAC 比 DenseNet 小得多</li>
+<li>此外，由于 OSA 模块聚集了浅层特征，它包含的层更少。因此，OSA 模块被设计成只有几层，可以在 GPU 中高效计算。</li>
 </ul>
-<h2 id="Non-local-Attention-Att-Block"><a href="#Non-local-Attention-Att-Block" class="headerlink" title="Non-local Attention (Att) Block"></a>Non-local Attention (Att) Block</h2><p> 注意力的概念在ReID的学习中起到至关重要的作用，使用强大的非局部注意力块来获得各个位置特征的加权和。公式如下：$z_i = W_z ∗ φ(x_i) + x_i $，其中$W_z$是需要学习的权重矩阵，$φ()$表示非局部的操作，$+x_i$构建了一个残差策略。详情参见《Non-local neural networks》</p>
-<h2 id="Generalized-mean-GeM-Pooling"><a href="#Generalized-mean-GeM-Pooling" class="headerlink" title="Generalized-mean (GeM) Pooling."></a>Generalized-mean (GeM) Pooling.</h2><p>ReID任务可视为细粒度的实例检索，广泛使用的max-pooling或average-pooling无法捕获领域特定的鉴别特征。所以针对该问题采用可学习的池化层，称为Generalized-mean (GeM) Pooling，公式如下:</p>
-<p><img src="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/image-20230418144447925.png" alt="image-20230418144447925"></p>
-<p>$p_k$是一个池化超参数，可以在反向传播过程中学习，$p_k→∞$时近似最大池化，在$p_k = 1$时近似平均池化。详情参见《Fine-tuning cnn image retrieval with no human annotation》。可视为在最低维度上，对每个元素的p次方求均值再开p次方。</p>
-<h2 id="Weighted-Regularization-Triplet-WRT-loss"><a href="#Weighted-Regularization-Triplet-WRT-loss" class="headerlink" title="Weighted Regularization Triplet (WRT) loss"></a>Weighted Regularization Triplet (WRT) loss</h2><p>除了使用基于softmax的交叉熵之外，还使用了另一个加权正则化三元组损失。<br><img src="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/20201026220254980.png" alt="在这里插入图片描述"><br>避免引入了margin参数，类似于《Multi-similarity loss with general pair weighting for deep metric learning》</p>
-<h2 id="完整流程如下所示"><a href="#完整流程如下所示" class="headerlink" title="完整流程如下所示"></a>完整流程如下所示</h2><p><img src="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMxMjUzNTcz,size_16,color_FFFFFF,t_70#pic_center.png" alt="watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMxMjUzNTcz,size_16,color_FFFFFF,t_70"></p>
-<p><strong>AGW在跨模态行人重识别中的效果：</strong><br><img src="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMxMjUzNTcz,size_16,color_FFFFFF,t_70#pic_center-16818009779205.png" alt="watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMxMjUzNTcz,size_16,color_FFFFFF,t_70"></p>
 
       
     </div>
@@ -556,7 +535,7 @@ <h2 id="完整流程如下所示"><a href="#完整流程如下所示" class="hea
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/MobileNet/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -570,7 +549,7 @@ <h2 id="完整流程如下所示"><a href="#完整流程如下所示" class="hea
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/" class="post-title-link" itemprop="url">Bag of Tricks and A Strong Baseline for Deep Person Re-identification</a>
+            <a href="/2023/06/30/MobileNet/" class="post-title-link" itemprop="url">MobileNet</a>
         </h2>
 
         <div class="post-meta">
@@ -581,7 +560,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-04-23 20:45:36 / 修改时间：21:03:55" itemprop="dateCreated datePublished" datetime="2023-04-23T20:45:36+08:00">2023-04-23</time>
+              <time title="创建时间：2023-06-30 16:10:03 / 修改时间：16:13:52" itemprop="dateCreated datePublished" datetime="2023-06-30T16:10:03+08:00">2023-06-30</time>
             </span>
 
           
@@ -595,73 +574,63 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h1 id="Bag-of-Tricks-and-A-Strong-Baseline-for-Deep-Person-Re-identification"><a href="#Bag-of-Tricks-and-A-Strong-Baseline-for-Deep-Person-Re-identification" class="headerlink" title="Bag of Tricks and A Strong Baseline for Deep Person Re-identification"></a>Bag of Tricks and A Strong Baseline for Deep Person Re-identification</h1><p>针对的问题：目前先进的基于深度神经网络的人员重识别技术设计了复杂的网络结构和串联多分支特征。</p>
-<p>本文收集并评估了一些有效的训练技巧，通过对技巧的结合，模型仅使用全局特征即达到在Market1501上95.4％的rank-1。</p>
-<p>作者认为，一个算法的baseline是十分重要的，对发表在顶会上的算法的baseline进行调查之后发现，顶级会议文章所选用的baseline效果大都较差。因此，作者使用一些训练策略更改了baseline。</p>
-<p>本文的研究目的总结如下：</p>
-<ul>
-<li>调查了许多发表在顶级会议上的作品，发现其中大多数都是在糟糕的baseline上扩展的</li>
-<li>对于学术界，我们希望为研究人员提供一个强有力的基线，以实现更高的准确性。</li>
-<li>对于社区，我们希望给评论者一些参考，什么技巧会影响ReID模型的性能。我们建议，在比较不同方法的性能时，评审人员需要考虑这些技巧。</li>
-<li>对于行业来说，我们希望提供一些有效的技巧，在不消耗太多额外的情况下获得更好的模型</li>
-</ul>
-<p>本文研究了六个技巧，使准确率在Market1501上达到了94.5％的rank1和85.9％的mAP，本文的主要贡献如下：</p>
-<ul>
-<li><p>收集了一些有效的训练技巧并设计了一种新型颈结构，命名为BNNeck。且两个广泛使用的数据集上评估了每个技巧的改进。</p>
-</li>
-<li><p>我们提供了强大的ReID基线。值得一提的是，该结果是利用ResNet50骨干网提供的全局特征获得的。据我们所知，这是全局特性在亲自ReID中获得的最佳性能。</p>
-</li>
-<li><p>作为补充，我们评估了图像大小和批量大小的数量对ReID模型性能的影响。</p>
-</li>
-</ul>
-<h2 id="标准-Re-ID-baseline"><a href="#标准-Re-ID-baseline" class="headerlink" title="标准 Re-ID baseline"></a>标准 Re-ID baseline</h2><ol>
-<li><p>在ImageNet上使用预训练的参数初始化ResNet50，并将全连接层的维数更改为N。N表示训练数据集中的身份数。</p>
-</li>
-<li><p>我们随机抽取每个人的P个身份和K张图像，构成一个训练批次。最后批大小为B = P×K。在本文中，我们设P = 16, K = 4。</p>
-</li>
-<li><p>我们将每张图像调整为256 × 128像素，并将调整后的图像填充为10个零值像素。然后随机裁剪成256 × 128的矩形图像。</p>
-</li>
-<li><p>每幅图像以0.5概率水平翻转。</p>
-</li>
-<li><p>每张图像解码为[0,1]中的32位浮点原始像素值。然后分别减去0.485,0.456,0.406，除以0.229,0.224,0.225，归一化RGB通道。</p>
-</li>
-<li><p>该模型输出ReID特征f和ID预测logits p。</p>
-</li>
-<li><p>ReID特征f用于计算triplet loss。ID预测logits p用于计算交叉熵损失。triplet loss的边际m设置为0.3。</p>
-</li>
-<li><p>采用Adam方法对模型进行优化。初始学习率设置为0.00035，在第40 epoch和第70 epoch分别降低到初始学习率的0.1。总共有120个训练阶段。</p>
-</li>
-</ol>
-<h2 id="训练技巧"><a href="#训练技巧" class="headerlink" title="训练技巧"></a>训练技巧</h2><p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417202016054.png" alt="image-20230417202016054"></p>
-<p>使用的训练技巧如下所示：</p>
-<ul>
-<li><code>Warmup Learning Rate</code>：学习率对模型的性能表现有很大的影响。在实践中，如下所示，使用10个epoch线性增加学习速率，从$3.5\times10^{-5}$到$3.5\times10^{-4}$。在第40 epoch和第70 epoch，学习率分别衰减到$3.5\times10^{-5}$和$3.5\times10^{-6}$。即第t时代的学习率lr(t)计算为:</li>
-</ul>
-<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417202745696.png" alt="image-20230417202745696"></p>
-<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417202823803.png" alt="image-20230417202823803"></p>
-<ul>
-<li><p><code>Random Erasing Augmentation</code>:在ReID任务中，图片中的人常被其他物体遮挡，为解决该问题并提高系统的泛化性，使用随机擦除增强方案。在实际使用中，对于mini-batch中的图片I，其被随机擦除的概率为$p_e$，即保持不变的概率为$1-p_e$，REA在图片$I$中随机选择尺寸大小为$(W_e,H_e)$的矩形区域$I_e$，并将其填充为随机的数值。假设图像I和区域$I_e$的面积分别为$S = W × H$和$S_e = W_e × H_e$，使用$r_e = S_e/S$为擦除矩形区域的面积比。此外，区域$I_e$的纵横比在$r_1$和$r_2$之间随机初始化。REA随机初始化一个点$P=(x_e, y_e)$。如果$x_e + W_e≤W$,$ y_e + H_e≤H$，则设区域$I_e = (x_e, y_e, x_e + W_e, y_e + H_e)$为所选矩形区域。否则，重复上述过程，直到选择合适的$I_e$。对于所选的擦除区域$I_e$, $I_e$​中的每个像素都被赋值为区域I的均值，本文中，设置超参数如下所示：$p = 0.5$, $0.02 &lt;S_e &lt; 0.4$, $r1 = 0.3$, $r2 = 3.33$,</p>
-</li>
-<li><p><code>Label Smoothing</code>:在标准的ReID任务中，ID Embedding是ReID的一个基础组件，其输出图片的ID预测。标准的交叉熵损失的计算如下所示。</p>
-<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417205337361.png" alt="image-20230417205337361"></p>
-<p>但是由于测试集的人员ID在训练集中未曾出现，所以防止ReID模型过度拟合训练ID较为重要，针对该问题，使用标签平滑（LS）方案，对应公式如下所示：</p>
-<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417205726034.png" alt="image-20230417205726034"></p>
-<p>其中$\epsilon$为一个较小的常数，其使模型在训练集上不那么武断、不那么自信，在本研究中，设置$\epsilon$为0.1。</p>
-</li>
-<li><p><code>Last Stride</code>:由于更高的空间分辨率所带来的特征的粒度就越丰富。故增加特征图的大小可以较明显的增强特征表述。假设输入的图片初始尺寸为$256\times128$，经过ResNet50网络进行特征提取之后，输出的特征图尺寸为$8\times4$，如果将其最终一步的stride由2更改为1，对应的输出的特征图尺寸为$16\times8$，从而实现特征更为丰富空间尺寸更大的特征图，并能带来显著的改善。</p>
-</li>
-<li><p><code>BNNeck</code>:前人的许多ReID相关的工作将ID loss和triplet loss相结合，从而联合训练ReID模型。标准的联合训练方式中，ID loss和 triplet loss 约束相同的特征f，但是这两个损失的目标在嵌入空间是不同的。大量前置的研究发现，分类损失其实是在特征空间学习几个超平面，把不同类别的特征分配到不同的子空间里面（类比于SVM分类器中的超平面）。并且从人脸的SphereFace到ReID的SphereReID等工作都显示，把特征归一化到超球面，然后再优化分类损失会更好。triplet loss适合在自由的欧式空间里约束。我们经常观察到，如果把feature归一化到超球面上然后再用triplet loss优化网络的话，通常性能会比不约束的时候要差。我们推断是因为，如果把特征约束到超球面上，特征分布的自由区域会大大减小，triplet loss把正负样本对推开的难度增加。而对于分类超平面，如果把特征约束到超球面上，分类超平面还是比较清晰的。对于标准的Baseline，一个可能发生的现象是，ID loss和triplet loss不会同步收敛。通常会发现一个loss一直收敛下降，另外一个loss在某个阶段会出现先增大再下降的现象。也就是说这两个task在更新的过程中梯度方向可能不一致。<br>针对该问题，希望找个一种方式，使得triplet loss能够在自由的欧式空间里约束feature，而ID loss可以在一个超球面附近约束feature，于是乎就出现了以下的BNNeck。BNNeck的原理也很简单，网络global pooling得到的feature是在欧式空间里的，我们直接连接triplet loss，我们把这个feature记作$f_t$ 。然后这个feature经过一个BN层得到$ f_i$，经过BN层的归一化之后，batch里面$f_i$的各个维度都被拉到差不多，最后近似地在超球面附近分布。<br><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417210658881.png" alt="image-20230417210658881"><br>最后特征的分布可以大致认为如下分布：从而感性的感受到ID loss和 Triplet loss的区别以及BNNeck的用途。</p>
-<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230418101628876.png" alt="image-20230418101628876"></p>
-</li>
-<li><p><code>Center Loss</code>:Triplet loss的公式为$L_{Tri} = [d_p − d_n + α]_+$，其中$d_p$为正例之间的距离度量，$d_n$为负例之间的距离度量，$\alpha$为triplet loss的余量，文章中设置为0.3 。然而Triplet loss值考虑了正例与负例之间的差值，但没有考虑正例和负例的绝对值。故引入Center Loss，其学习每个类的深层特征的中心，并惩罚深层特征与对应类中心之间的距离，其表达式为</p>
-<ul>
-<li><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230418110411492.png" alt="image-20230418110411492"></li>
-<li>其中$y_j$为第一个mini-batch中第j个图像的标签，$c_{y_j}$为深层特征的第一级中心，B为batch size。其有效的描述了类内变化，增加了类间的紧凑型。</li>
-<li>最终的Loss表述为：$L=L_{ID}+L_{Triplet}+\beta L_C$，其中$\beta$为center loss的平衡系数，被设置为0.0005.</li>
-</ul>
-</li>
+          <h1 id="MobileNet系列"><a href="#MobileNet系列" class="headerlink" title="MobileNet系列"></a>MobileNet系列</h1><h2 id="MobileNetv1"><a href="#MobileNetv1" class="headerlink" title="MobileNetv1"></a>MobileNetv1</h2><p>贡献：</p>
+<ul>
+<li>提出了深度可分离卷积，将标准卷积用逐通道卷积+逐点卷积来代替</li>
+<li>能够在边端设备使用，在保证效果的同时提升速度</li>
+</ul>
+<h3 id="深度可分离卷积"><a href="#深度可分离卷积" class="headerlink" title="深度可分离卷积"></a>深度可分离卷积</h3><p>深度级可分离卷积其实是一种可分解卷积操作（factorized convolutions）。其可以分解为两个更小的操作：深度卷积（depthwise  convolution） 和点卷积（ pointwise convolution）。</p>
+<p>对于一个标准卷积，输入一个$12<em>12</em>3$的一个输入特征图，经过$ 5<em>5</em>3$的卷积核得到一个$8<em>8</em>1$的输出特征图。如果我们此时有$256$个特征图，我们将会得到一个$8<em>8</em>256$的输出特征图，如下图所示:</p>
+<p><img src="/2023/06/30/MobileNet/ed74994c96c043b086a6ef061bf0d4af.png" alt="img"></p>
+<p> 对于深度卷积(其实就是组为1 的分组卷积)来说，将特征图通道全部进行分解，每个特征图都是单通道模式，并对每一个单独的通道特征图进行卷积操作。这样就会得到和原特征图一样通道数的生成特征图。假设输入$12<em>12</em>3$ 的特征图，经过$5<em>5</em>1<em>3$的深度卷积之后，得到了$8</em>8*3$的输出特征图。输入和输出的维度是不变的3，这样就会有一个问题，通道数太少，特征图的维度太少，不能够有效的获得信息。</p>
+<p><img src="/2023/06/30/MobileNet/7ee519c66af94a6b9d3eb69cea3ce7bf.png" alt="img"></p>
+<p>逐点卷积就是$1<em>1$卷积，主要作用就是对特征图进行升维和降维。在深度卷积的过程中，我们得到了$8</em>8<em>3$的输出特征图，我们用256个$1</em>1<em>3$的卷积核对输入特征图进行卷积操作，输出的特征图和标准的卷积操作一样都是$8</em>8*256$了。如下图：</p>
+<p><img src="/2023/06/30/MobileNet/f750cdd5d58440e795006c3bee29c78c.png" alt="img"></p>
+<p>标准卷积与深度可分离卷积的过程对比如下：</p>
+<p><img src="/2023/06/30/MobileNet/721c0945ad57422da5c344f802e29d48.png" alt="img"></p>
+<h3 id="深度可分离卷积的优势"><a href="#深度可分离卷积的优势" class="headerlink" title="深度可分离卷积的优势"></a>深度可分离卷积的优势</h3><p>对于标准卷积来说，卷积核的尺寸是$D_k<em>D_k</em>M$，一共有$N$个，所以标准卷积的参数量是：</p>
+<p><img src="/2023/06/30/MobileNet/cd3017db342c44c5ae247f81d74e8413.png" alt="img"></p>
+<p>其计算量计算如下</p>
+<p><img src="/2023/06/30/MobileNet/6faa54a4ef7a4a4bb13c16196de618c8.png" alt="img"></p>
+<p>,深度可分离卷积的参数量由深度卷积和逐点卷积两部分组成。深度卷积的卷积核尺寸$D_k<em>D_k</em>M$；逐点卷积的卷积核尺寸为$1<em>1</em>M$，一共有$N$个，所以深度可分离卷积的参数量是：</p>
+<p><img src="/2023/06/30/MobileNet/3ad597ec791743ca9fbea1f78cf0bd8d.png" alt="img"></p>
+<p>其计算量计算如下</p>
+<p><img src="/2023/06/30/MobileNet/3e28ca45a556474ab109a013a6efb3c2.png" alt="img"></p>
+<h3 id="网络结构"><a href="#网络结构" class="headerlink" title="网络结构"></a>网络结构</h3><p><img src="/2023/06/30/MobileNet/099f6b5094204e1faf457ff6677f730e.png" alt="在这里插入图片描述"></p>
+<p>MobileNetV1 的结构如表 1 所示，下采样是使用步长为 2 的卷积实现的，共 28 层</p>
+<p><img src="/2023/06/30/MobileNet/f7310662dff144a79bce1bdccf5f90b2.png" alt="在这里插入图片描述"></p>
+<h2 id="MobileNetv2"><a href="#MobileNetv2" class="headerlink" title="MobileNetv2"></a>MobileNetv2</h2><p>贡献：</p>
+<ul>
+<li>提出了倒残差结构：先 1x1 升维，使用 3x3 提取特征，最后再 1x1 降维，和残差结构的先降维后升维的结构是反的</li>
+<li>提出了线性瓶颈</li>
+</ul>
+<p>MobileNetV2中的核心思想是，瓶颈对模型的中间输入和输出进行编码，而内层则用于封装模型从较低级别概念（如：像素等）转换到较高级别描述符（如：图像类别等）的能力。最后，与传统的剩余连接一样，快捷方式能够实现更快地训练速度和更高的准确率。</p>
+<h3 id="倒残差结构"><a href="#倒残差结构" class="headerlink" title="倒残差结构"></a>倒残差结构</h3><p>实验发现在 MobileNetv1 中，深度卷积核的参数较多为 0，也就是其卷积核没有发挥提取特征作用。那么作者先通过 1x1 卷积将维度上升，再使用深度卷积，深度卷积的输入输出通道数更高，就能够提取更多的信息。</p>
+<p><img src="/2023/06/30/MobileNet/dfc1b9f5f1c7443e85b6190eb6a8422b.png" alt="在这里插入图片描述"></p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">残差模块：输入首先经过1*1的卷积进行压缩，然后使用3*3的卷积进行特征提取，最后在用1*1的卷积把通道数变换回去。整个过程是“压缩-卷积-扩张”。这样做的目的是减少3*3模块的计算量，提高残差模块的计算效率。</span><br><span class="line">倒残差模块：输入首先经过1*1的卷积进行通道扩张，然后使用3*3的depthwise卷积，最后使用1*1的pointwise卷积将通道数压缩回去。整个过程是“扩张-卷积-压缩”。为什么这么做呢？因为depthwise卷积不能改变通道数，因此特征提取受限于输入的通道数，所以将通道数先提升上去。文中的扩展因子为6。</span><br></pre></td></tr></table></figure>
+<h3 id="线性瓶颈"><a href="#线性瓶颈" class="headerlink" title="线性瓶颈"></a>线性瓶颈</h3><p>线性瓶颈结构，就是末层卷积使用线性激活的瓶颈结构（将 ReLU 函数替换为线性函数），因为 ReLU 激活函数对低维信息会造成很大损失。</p>
+<p>具体来说当低维信息映射到高维，然后经过Relu映射回低维时，若映射到的维度相对较高，则信息变换回去的损失较小；若映射到的维度相对较低，则信息变换回去后损失很大，如下图所示：</p>
+<p><img src="/2023/06/30/MobileNet/7abdcc43b7bb47c8937195e9a97f8ab3.png" alt="在这里插入图片描述"></p>
+<h2 id="MobileNetv3"><a href="#MobileNetv3" class="headerlink" title="MobileNetv3"></a>MobileNetv3</h2><p>贡献：</p>
+<ul>
+<li>使用 NAS 的方法搜寻更适合移动 CPU 的结构</li>
+<li>提出了 MobileNetV3-Large 和 MobileNetV3-Small，并引入了 h-swish 和 SE 等模块进行效果优化</li>
+</ul>
+<p>MobileNetV3 提出的目标就是为了实现移动设备上的模型的准确率和耗时的平衡。</p>
+<ul>
+<li>MobileNetV1 引入了深度可分离卷积，来代替传统卷积</li>
+<li>MobileNetV2 引入了线性瓶颈和反残差结构，来提升速度</li>
+<li>MobileNetV3 为了 NAS 来搜寻更合适的网络，并且引入了 Swish 非线性方法的优化版本 h-swish 和 SE 模块，建立更高效的网络</li>
+</ul>
+<h3 id="网络优化"><a href="#网络优化" class="headerlink" title="网络优化"></a>网络优化</h3><ul>
+<li><strong>修改初始卷积核的个数</strong><ul>
+<li>对于v2的输入层，通过3*3卷积将输入扩张成32维。作者发现，其实可以32再降低一点，所以这里改成了16，在保证了精度的前提下，降低了3ms的速度。关于这一点改变可以在最后给出的网络结构中看到</li>
+</ul>
+</li>
+<li><strong>更改网络末端计算量大的层</strong></li>
+<li><strong>引入了SE模块</strong></li>
+<li><strong>H-Swish激活函数</strong></li>
 </ul>
-<h2 id="试验效果"><a href="#试验效果" class="headerlink" title="试验效果"></a>试验效果</h2><p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230418135011856.png" alt="image-20230418135011856"></p>
 
       
     </div>
@@ -681,7 +650,7 @@ <h2 id="试验效果"><a href="#试验效果" class="headerlink" title="试验
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/30/ShuffleNet/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -695,7 +664,7 @@ <h2 id="试验效果"><a href="#试验效果" class="headerlink" title="试验
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/" class="post-title-link" itemprop="url">目标重识别综述阅读</a>
+            <a href="/2023/06/30/ShuffleNet/" class="post-title-link" itemprop="url">ShuffleNet</a>
         </h2>
 
         <div class="post-meta">
@@ -706,7 +675,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-04-23 19:48:09 / 修改时间：20:57:28" itemprop="dateCreated datePublished" datetime="2023-04-23T19:48:09+08:00">2023-04-23</time>
+              <time title="创建时间：2023-06-30 16:09:52 / 修改时间：16:14:07" itemprop="dateCreated datePublished" datetime="2023-06-30T16:09:52+08:00">2023-06-30</time>
             </span>
 
           
@@ -720,61 +689,48 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h1 id="目标重识别论文阅读笔记"><a href="#目标重识别论文阅读笔记" class="headerlink" title="目标重识别论文阅读笔记"></a>目标重识别论文阅读笔记</h1><h2 id="Deep-Learning-for-Person-Re-identification-A-Survey-and-Outlook"><a href="#Deep-Learning-for-Person-Re-identification-A-Survey-and-Outlook" class="headerlink" title="Deep Learning for Person Re-identification: A Survey and Outlook"></a>Deep Learning for Person Re-identification: A Survey and Outlook</h2><h3 id="定义："><a href="#定义：" class="headerlink" title="定义："></a>定义：</h3><p>行人重识别（以下简称reid）问题是在没有重叠场景的摄像机拍摄画面下，对目标行人进行检索。</p>
-<p>现阶段的reid问题主要分为两大类：closed-world和open-world。说人话就是，closed-world重在研究，在各种面向研究的假设的基础上进行研究，主要是从一大堆行人的bounding box图片中去检索目标行人，而open-world重在“落地”，主要是直接从视频中去检索目标行人，或者是偏向无监督、弱监督学习。</p>
-<h3 id="难点"><a href="#难点" class="headerlink" title="难点"></a>难点</h3><p><strong>不同视角、参差不齐的低分辨率图像、光照变化、姿态不同、遮挡情况、异构数据、复杂的相机环境、背景环境、不可靠的边缘框生成</strong>都会对ReID任务造成影响和挑战。实际部署时，摄像头的变化、Gallery十分巨大、数据要求高、对网络的泛化能力要求高、外表特征的变化等也是影响很大的因素。</p>
-<h3 id="步骤"><a href="#步骤" class="headerlink" title="步骤"></a>步骤</h3><ol>
-<li><strong>原始数据收集</strong>：从处于不同环境的不同地方的摄像机获取原始视频数据。这些数据包含大量的背景杂波。</li>
-<li><strong>边界框（Bounding Box）生成</strong>：通过行人检测或跟踪算法从原始视频数据中提取包含行人图像的边界框。在大规模应用中不可能手动裁剪所有行人图像。</li>
-<li><strong>训练数据标注</strong>：对于区分行人任务来说，图像标注必不可少。</li>
-<li><strong>模型构建和训练</strong>：已经开发了广泛运用的模型，重点在于特征表示学习、度量学习或两者结合。</li>
-<li><strong>测试阶段</strong>：给定一个query和一组gallery，使用上一阶段训练完毕的模型进行行人特征提取，计算query图像和gallery图像的相似度进行排序。</li>
-</ol>
-<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQmFsYWJvbw==,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
-<p>即closed-world和open-world ReID之间的区别可总结如下：</p>
+          <h1 id="ShuffleNet系列"><a href="#ShuffleNet系列" class="headerlink" title="ShuffleNet系列"></a>ShuffleNet系列</h1><h2 id="ShuffleNetv1"><a href="#ShuffleNetv1" class="headerlink" title="ShuffleNetv1"></a>ShuffleNetv1</h2><p><strong>现有网络的问题：</strong></p>
+<p>现有的高效结构如 Xception 和 ResNeXt，其实在极小的网络上的计算效率依然不太高，主要在于很耗费计算量的 1x1 卷积。</p>
+<p><strong>ShuffleNet 如何解决：</strong>使用 point-wise 分组卷积和 channel shuffle 两个操作，很好的降低计算量并保持准确率。这种结构能够允许网络使用更多的通道，帮助 encode 阶段提取更多的信息，这点对极小的网络非常关键。</p>
+<ul>
+<li>使用 point-wise 卷积来降低 1x1 卷积的计算量</li>
+<li>使用 channel shuffle 能够让不同通道的信息进行交互</li>
+</ul>
+<p>这里再介绍几个基本概念：</p>
+<p><strong>分组卷积：</strong>AlexNet 中提出的概念，在 ResNeXt 中有使用，也就是将特征图分为 N 个组，每组分别进行卷积，然后将卷积结果 concat 起来<br><strong>深度可分离卷积：</strong>和 MobileNet 中都有使用，也就是每个特征图使用一个卷积核来提取特征，之后使用 1x1 的卷积进行通道间的特征融合<br><strong>channel shuffle：</strong>shuffle 可以翻译为重新洗牌，也就是把不同组的 channel 再细分一下，打乱重新分组<br><strong>模型加速：</strong>加速推理时候的速度，如剪枝、量化</p>
+<p><img src="/2023/06/30/ShuffleNet/0ddfad3d997b42c1a675fa533f4645b2.png" alt="在这里插入图片描述"></p>
+<h3 id="ShuffleNet的亮点"><a href="#ShuffleNet的亮点" class="headerlink" title="ShuffleNet的亮点"></a>ShuffleNet的亮点</h3><ul>
+<li>结合<strong><em>\</em>Group convolutions**</strong>和<strong><em>\</em>Channel Shuffle**</strong></li>
+</ul>
+<p>​    <strong>group conv的问题：</strong>现在的精简CNN网络设计中使用Group convolutions已经成为一种趋势，它可有效地减少传统CNN所需的密集计算的运算量。但同时由于Groups之间彼此并<strong>不share feature map特征</strong>，这样就会导致每个filter只对限定的一部分输入特征可见，最终使得输出特征集合的表达能力大大降低。</p>
+<p>​    <strong>本文改进点：</strong>为了有效地对冲Groups convolution使用导致的Groups间特征互不相通的负面影响，作者提出了<strong>对Group convolution计算后对输出的output feature maps进行\</strong>shuffle处理*<em>*</em>，以使得接下来的Group convolution filters可在每个group所输出的部分channels构成的集合上进行计算。</p>
+<h2 id="ShuffleNetv2"><a href="#ShuffleNetv2" class="headerlink" title="ShuffleNetv2"></a>ShuffleNetv2</h2><p>贡献： </p>
 <ul>
-<li><strong>单模态和异构数据</strong></li>
-<li><strong>边界框生成和原始图像/视频</strong></li>
-<li><strong>丰富的标签数据和不可用/有限的标签</strong></li>
-<li><strong>正确标签和噪声标签</strong></li>
-<li><strong>query是否存在于gallery中</strong></li>
+<li>提出了更应该使用直接的效率度量方法（如速度、耗时等）</li>
+<li>在 V1 的 channel shuffle 的基础上，又提出了 channel split，增强特征的重用性的同时也减少了计算量</li>
+<li>提出了设计高效网络的方法：<ul>
+<li>使用输入输出通道相同的卷积</li>
+<li>了解使用分组卷积的代价（分组越多，MAC 越大）</li>
+<li>合理的设定分组个数</li>
+<li>降低网络并行的分支（并行越多 MAC 越大）</li>
+<li>减少逐点运算</li>
 </ul>
-<h3 id="closed-world-ReID介绍以及方法总览"><a href="#closed-world-ReID介绍以及方法总览" class="headerlink" title="closed-world ReID介绍以及方法总览"></a>closed-world ReID介绍以及方法总览</h3><h4 id="closed-wrold假设"><a href="#closed-wrold假设" class="headerlink" title="closed-wrold假设"></a>closed-wrold假设</h4><ul>
-<li>通过单模态可见光摄像机捕获行人</li>
-<li>已经给出行人bounding box</li>
-<li>有足够的标注好的训练数据。用于监督训练</li>
-<li>标签通常是正确的</li>
-<li>query行人必须出现在图库中</li>
+</li>
+</ul>
+<p>ShuffleNetV2 首先提出了 4 条设计高效网络的方法：</p>
+<ul>
+<li>G1：Equal channel width minimizes memory access cost (MAC)：当卷积层的输入特征矩阵与输出特征矩阵 channel 相等时 MAC 最小 （保持FLOPs不变时）</li>
+<li>G2： Excessive group convolution increases MAC：当 GConv 的 groups 增大时（保持FLOPs不变时），MAC 也会增大，所以建议针对不同的硬件和需求，更好的设计对应的分组数，而非盲目的增加</li>
+<li>G3： Network fragmentation reduces degree of parallelism：网络设计的碎片化程度（或者说并行的分支数量）越高，速度越慢（Appendix Fig 1）</li>
+<li>G4：Element-wise operations are non-negligible：Element-wise操作，即逐点运算，带来的影响是不可忽视的，轻量级模型中，元素操作占用了相当多的时间，特别是在GPU上。这里的元素操作符包括 ReLU、AddTensor、AddBias 等。将 depthwise convolution 作为一个 element-wise operator，因为它的 MAC/FLOPs 比率也很高</li>
+</ul>
+<p><strong>基于上面4条指导准则总结如下：</strong></p>
+<ul>
+<li>1x1卷积进行平衡输入和输出的通道大小；</li>
+<li>组卷积要谨慎使用，注意分组数；</li>
+<li>避免网络的碎片化；</li>
+<li>减少元素级运算。</li>
 </ul>
-<h4 id="特征表示学习"><a href="#特征表示学习" class="headerlink" title="特征表示学习"></a>特征表示学习</h4><h4 id="全局表征学习"><a href="#全局表征学习" class="headerlink" title="全局表征学习"></a>全局表征学习</h4><p>从每个人的图像中提取特征向量，直接将行人图片送入网络进行特征的提取。</p>
-<h4 id="局部表征学习"><a href="#局部表征学习" class="headerlink" title="局部表征学习"></a>局部表征学习</h4><p>将行人的图片进行分块，使用网络对每一个块进行特征提取，最后将所有的特征结合起来</p>
-<h4 id="辅助表征学习"><a href="#辅助表征学习" class="headerlink" title="辅助表征学习"></a>辅助表征学习</h4><p>在网络中加入一些辅助性对目标进行描述的元素，例如外观描述，视角描述、区域信息等。</p>
-<h4 id="基于视频的表征学习"><a href="#基于视频的表征学习" class="headerlink" title="基于视频的表征学习"></a>基于视频的表征学习</h4><p>输入为由多张图片组成的行人的视频序列，其具有丰富的外表和时域信息。</p>
-<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/image-20230309134909484.png" alt="image-20230309134909484"></p>
-<h4 id="度量学习"><a href="#度量学习" class="headerlink" title="度量学习"></a>度量学习</h4><p>度量学习目前的主要工作集中以及体现于特征学习中的loss函数的设计，目前最常用的三种loss为：<strong>identity loss</strong>、<strong>verification loss</strong>、<strong>triplet loss</strong>以及其的变种。</p>
-<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/image-20230309135813177.png" alt="image-20230309135813177" style="zoom:50%;"></p>
-<h5 id="identity-loss"><a href="#identity-loss" class="headerlink" title="identity loss"></a>identity loss</h5><p>将行人重识别的训练过程视为图像分类问题，将每个人视作一个独立的类别，通过类比于图像分类的方式进行重识别。这种方式其在训练过程中能较为容易训练和自动挖掘困难样本</p>
-<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/20200710212437448.png" alt="在这里插入图片描述"></p>
-<h5 id="verification-loss"><a href="#verification-loss" class="headerlink" title="verification loss"></a>verification loss</h5><p>用对比损失函数或者二元损失函数来优化成对样本间关联。对比损失函数提升了成对样本距离比较，即为学习使不同类别的图像对应的特征相距较远</p>
-<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/202007102124402.png" alt="在这里插入图片描述"></p>
-<p>或</p>
-<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/20200710212501363.png" alt="在这里插入图片描述"></p>
-<h5 id="triplet-loss"><a href="#triplet-loss" class="headerlink" title="triplet loss"></a>triplet loss</h5><p>将ReID问题看作是检索排序问题，其主要思想可以看作同一个样本之间的距离应该小于不同的样本之间的距离</p>
-<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/2020071021245875.png" alt="在这里插入图片描述"></p>
-<h4 id="数据集和评价指标"><a href="#数据集和评价指标" class="headerlink" title="数据集和评价指标"></a>数据集和评价指标</h4><p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQmFsYWJvbw==,size_20,color_FFFFFF,t_70,g_se,x_16-16783434167663.png" alt="img"></p>
-<h4 id="SOTA-方法解析"><a href="#SOTA-方法解析" class="headerlink" title="SOTA 方法解析"></a>SOTA 方法解析</h4><h5 id="基于图像的ReID"><a href="#基于图像的ReID" class="headerlink" title="基于图像的ReID"></a>基于图像的ReID</h5><h6 id="VAL：引入视角信息"><a href="#VAL：引入视角信息" class="headerlink" title="VAL：引入视角信息"></a>VAL：引入视角信息</h6><p>目前通过神经网络的目标重识别的识别能力已经高于人工辨识的准确度，sota数据中常常使用目标的全局特征结合局部特征进行融合，从而达到更好的效果</p>
-<p>文章强调注意力机制的有效性，多损失训练的有效性</p>
-<h5 id="基于视频的ReID"><a href="#基于视频的ReID" class="headerlink" title="基于视频的ReID"></a>基于视频的ReID</h5><p>时空建模对提取视频特征是十分重要的，其中包含跨多帧的注意力机制，甚至利用视频序列中的多帧可以填补被遮挡的部份。</p>
-<h3 id="Open-world-ReID"><a href="#Open-world-ReID" class="headerlink" title="Open-world ReID"></a>Open-world ReID</h3><h5 id="Depth-based-Re-ID：捕获人体形状和骨骼状态，提供在光照差别大、换衣服情况下的重识别的解决方案。"><a href="#Depth-based-Re-ID：捕获人体形状和骨骼状态，提供在光照差别大、换衣服情况下的重识别的解决方案。" class="headerlink" title="Depth-based Re-ID：捕获人体形状和骨骼状态，提供在光照差别大、换衣服情况下的重识别的解决方案。"></a>Depth-based Re-ID：捕获人体形状和骨骼状态，提供在光照差别大、换衣服情况下的重识别的解决方案。</h5><h5 id="Text-To-Image-ReID：解决在语言描述和RGB图像之间的匹配上的问题，用一段语言描述来代替对目标的文字描述"><a href="#Text-To-Image-ReID：解决在语言描述和RGB图像之间的匹配上的问题，用一段语言描述来代替对目标的文字描述" class="headerlink" title="Text-To-Image ReID：解决在语言描述和RGB图像之间的匹配上的问题，用一段语言描述来代替对目标的文字描述"></a>Text-To-Image ReID：解决在语言描述和RGB图像之间的匹配上的问题，用一段语言描述来代替对目标的文字描述</h5><h5 id="Visible-Infrared-Re-ID：处理在白天可视化图片和夜晚红外图片之间的跨模态匹配问题，解决低光照问题"><a href="#Visible-Infrared-Re-ID：处理在白天可视化图片和夜晚红外图片之间的跨模态匹配问题，解决低光照问题" class="headerlink" title="Visible-Infrared Re-ID：处理在白天可视化图片和夜晚红外图片之间的跨模态匹配问题，解决低光照问题"></a>Visible-Infrared Re-ID：处理在白天可视化图片和夜晚红外图片之间的跨模态匹配问题，解决低光照问题</h5><h5 id="Cross-Resolution-Re-ID：跨分辨率的ReID在低分辨率图片和高分辨率图片中进行匹配，处理大分辨率的变化问题"><a href="#Cross-Resolution-Re-ID：跨分辨率的ReID在低分辨率图片和高分辨率图片中进行匹配，处理大分辨率的变化问题" class="headerlink" title="Cross-Resolution Re-ID：跨分辨率的ReID在低分辨率图片和高分辨率图片中进行匹配，处理大分辨率的变化问题"></a>Cross-Resolution Re-ID：跨分辨率的ReID在低分辨率图片和高分辨率图片中进行匹配，处理大分辨率的变化问题</h5><h4 id="End-to-End-ReID"><a href="#End-to-End-ReID" class="headerlink" title="End-to-End ReID"></a>End-to-End ReID</h4><p>端到端的ReID减缓了对边缘框的需求问题，直接利用原始的视频信息、图像信息进行计算，得出对应的目标ID在视频中的位置</p>
-<h4 id="ReID-in-Raw-Images-Videos"><a href="#ReID-in-Raw-Images-Videos" class="headerlink" title="ReID in Raw Images/Videos"></a>ReID in Raw Images/Videos</h4><p>该任务需要同一个模型同时完成人物检测和ReID任务，由于两个主要部件的侧重点有所不同，所以是一个有挑战性的任务</p>
-<h4 id="Multi-camera-Tracking"><a href="#Multi-camera-Tracking" class="headerlink" title="Multi-camera Tracking"></a>Multi-camera Tracking</h4><p>该任务与MTMCT（multi-person, multi-camera tracking）近似，可根据基于图的连接、多目标多摄像机跟踪与重识别之间的相关性进行优化解决。</p>
-<h4 id="Semi-supervised-and-Unsupervised-Re-ID"><a href="#Semi-supervised-and-Unsupervised-Re-ID" class="headerlink" title="Semi-supervised and Unsupervised Re-ID"></a>Semi-supervised and Unsupervised Re-ID</h4><h4 id="Noise-Robust-Re-ID"><a href="#Noise-Robust-Re-ID" class="headerlink" title="Noise-Robust Re-ID"></a>Noise-Robust Re-ID</h4><h4 id="Open-set-Re-ID-and-Beyond"><a href="#Open-set-Re-ID-and-Beyond" class="headerlink" title="Open-set Re-ID and Beyond"></a>Open-set Re-ID and Beyond</h4><p>Open-set ReID通常被视为目标验证问题，辨别两个人员图像是否属于同一个目标。对于该问题，Adversarial PersonNet (APN) 共同学习GAN模块和Re-ID特征提取器。然而该问题依旧有非常大的提升空间，例如更高的识别率和更低的错误率。</p>
-<h5 id="Re-ID组"><a href="#Re-ID组" class="headerlink" title="Re-ID组"></a>Re-ID组</h5><p>它的目的是将人以群体而不是个人的形式联系起来。早期的研究主要集中在利用稀疏字典学习或协方差描述子聚集进行组表示提取。最近，应用图卷积网络，将群表示为图。在端到端人搜索和个体再识别中也应用了群体相似性来提高准确性。然而，群体Re-ID仍然具有挑战性，因为群体变异比个体更复杂。</p>
-<h5 id="动态多摄像机网络"><a href="#动态多摄像机网络" class="headerlink" title="动态多摄像机网络"></a>动态多摄像机网络</h5><p>动态更新多摄像机网络是另一个具有挑战性的问题，需要对新的摄像机或探头进行模型适配。引入一种人在循环增量学习方法来更新Re-ID模型，适应不同探测库的表示。早期的研究也将主动学习应用于多摄像头网络的连续Re-ID。引入了一种基于稀疏非冗余代表选择的连续自适应方法。设计了一种传递推理算法来开发基于测地线流核的最佳源摄像机模型。密集人群和社会关系中的多种环境约束(如摄像机拓扑)被集成到开放世界的人Re-ID系统中。在实际的动态多摄像机网络中，摄像机的模型自适应和环境因素是至关重要的。此外，如何将深度学习技术应用于动态多摄像机网络的研究还较少。</p>
-<h3 id="对ReID技术的总览和展望"><a href="#对ReID技术的总览和展望" class="headerlink" title="对ReID技术的总览和展望"></a>对ReID技术的总览和展望</h3><h4 id="mINP-A-New-Evaluation-Metric-for-Re-ID"><a href="#mINP-A-New-Evaluation-Metric-for-Re-ID" class="headerlink" title="mINP: A New Evaluation Metric for Re-ID"></a>mINP: A New Evaluation Metric for Re-ID</h4><h4 id="单-跨模态重新识别的新基线-AGW"><a href="#单-跨模态重新识别的新基线-AGW" class="headerlink" title="单/跨模态重新识别的新基线 AGW"></a>单/跨模态重新识别的新基线 AGW</h4><h4 id="尚未调查的未决问题"><a href="#尚未调查的未决问题" class="headerlink" title="尚未调查的未决问题"></a>尚未调查的未决问题</h4><p>Open-set Re-ID、overlapping camera、same time、based on video </p>
-<h2 id="Person-Re-identification-A-Retrospective-on-Domain-Specific"><a href="#Person-Re-identification-A-Retrospective-on-Domain-Specific" class="headerlink" title="Person Re-identification A Retrospective on Domain Specific"></a>Person Re-identification A Retrospective on Domain Specific</h2><p>Re-ID的应用场景：智能视频监控、机器人、人机交互、自动视觉监视系统等</p>
-<p>Re-ID遇到的问题：遮挡、位姿方差、背景杂波、不对中、尺度差异、照明方差、视点方差、低分辨率和跨域或泛化。</p>
-<p>该文从遮挡、位姿方差、背景杂波等六个方面总结了在该领域上做得最好的CNN、Attention、Self-Attention的论文。</p>
 
       
     </div>
@@ -794,7 +750,7 @@ <h2 id="Person-Re-identification-A-Retrospective-on-Domain-Specific"><a href="#P
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -808,7 +764,7 @@ <h2 id="Person-Re-identification-A-Retrospective-on-Domain-Specific"><a href="#P
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/" class="post-title-link" itemprop="url">c++中的ffmpeg源码学习</a>
+            <a href="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/" class="post-title-link" itemprop="url">YOLOv7 Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors</a>
         </h2>
 
         <div class="post-meta">
@@ -819,7 +775,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-04-12 09:36:52 / 修改时间：09:38:05" itemprop="dateCreated datePublished" datetime="2023-04-12T09:36:52+08:00">2023-04-12</time>
+              <time title="创建时间：2023-06-18 17:04:34 / 修改时间：17:04:49" itemprop="dateCreated datePublished" datetime="2023-06-18T17:04:34+08:00">2023-06-18</time>
             </span>
 
           
@@ -833,239 +789,62 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="c-中的ffmpeg使用"><a href="#c-中的ffmpeg使用" class="headerlink" title="c++中的ffmpeg使用"></a>c++中的ffmpeg使用</h2><h3 id="c-中ffmpeg的环境配置"><a href="#c-中ffmpeg的环境配置" class="headerlink" title="c++中ffmpeg的环境配置"></a>c++中ffmpeg的环境配置</h3><p>工程配置的CMakeLists.txt的一个可用案例如下所示：</p>
-<figure class="highlight cmake"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">cmake_minimum_required</span>(VERSION <span class="number">2.8</span>)</span><br><span class="line"><span class="keyword">project</span>(ffmpeg_project)</span><br><span class="line"></span><br><span class="line"><span class="comment">#以使用的rk3588s为例，以下两个set按照自己ffmpeg的安装目录修改</span></span><br><span class="line"><span class="keyword">set</span>(FFMPEG_LIBS_DIR /lib/aarch64-linux-gnu)</span><br><span class="line"><span class="keyword">set</span>(FFMPEG_HEADERS_DIR /usr/local/<span class="keyword">include</span>)</span><br><span class="line"></span><br><span class="line"><span class="keyword">include_directories</span>(<span class="variable">$&#123;FFMPEG_HEADERS_DIR&#125;</span>)</span><br><span class="line"><span class="keyword">link_directories</span>(<span class="variable">$&#123;FFMPEG_LIBS_DIR&#125;</span>)</span><br><span class="line"><span class="keyword">set</span>(FFMPEG_LIBS libavcodec.so libavformat.so libswscale.so libavdevice.so libavutil.so)</span><br><span class="line"></span><br><span class="line"><span class="keyword">add_executable</span>(ffmpeg_test main.cpp)</span><br><span class="line"><span class="keyword">target_link_libraries</span>(<span class="variable">$&#123;PROJECT_NAME&#125;</span> <span class="variable">$&#123;FFMPEG_LIBS&#125;</span>)</span><br></pre></td></tr></table></figure>
-<h3 id="c-中头文件包含ffmpeg实例"><a href="#c-中头文件包含ffmpeg实例" class="headerlink" title="c++中头文件包含ffmpeg实例"></a>c++中头文件包含ffmpeg实例</h3><figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">extern</span> <span class="string">&quot;C&quot;</span> &#123;</span><br><span class="line">	<span class="meta">#<span class="meta-keyword">include</span><span class="meta-string">&lt;libavcodec/avcodec.h&gt;</span></span></span><br><span class="line">	<span class="meta">#<span class="meta-keyword">include</span><span class="meta-string">&lt;libavformat/avformat.h&gt;</span></span></span><br><span class="line">	<span class="meta">#<span class="meta-keyword">include</span><span class="meta-string">&lt;libavutil/avutil.h&gt;</span></span></span><br><span class="line">	<span class="meta">#<span class="meta-keyword">include</span><span class="meta-string">&lt;libavutil/opt.h&gt;</span></span></span><br><span class="line">&#125;</span><br></pre></td></tr></table></figure>
-<p>在引入ffmpeg的头文件的时候，需要使用<code>extern &quot;C&quot;</code>将头文件包含。<code>extern &quot;c&quot;</code> 的主要作用就是为了能够正确实现C++代码调用其他C语言代码。加上 extern “c” 后，会指示编译器这部分的代码按C语言，而不是C++的方式进行编译。而ffmpeg的各个头文件都是使用c进行开发运行的，具体解释可见<a target="_blank" rel="noopener" href="https://blog.csdn.net/QTVLC/article/details/83962280">链接</a>。</p>
-<h3 id="c-中使用ffmpeg的大体流程"><a href="#c-中使用ffmpeg的大体流程" class="headerlink" title="c++中使用ffmpeg的大体流程"></a>c++中使用ffmpeg的大体流程</h3><p><a target="_blank" rel="noopener" href="https://blog.csdn.net/leixiaohua1020/article/details/42658139#comments_25910979">详情可见雷神博客</a></p>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hVR09QSUdT,size_16,color_FFFFFF,t_70.png" alt="watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hVR09QSUdT,size_16,color_FFFFFF,t_70"></p>
-<p>在使用c++调用ffmpeg进行音视频处理过程中的大体流程按照<code>常见使用方法的ffmpeg音视频转换流程</code>所述。</p>
-<h3 id="c-中使用ffmpeg的常用结构体"><a href="#c-中使用ffmpeg的常用结构体" class="headerlink" title="c++中使用ffmpeg的常用结构体"></a>c++中使用ffmpeg的常用结构体</h3><p>结构体之间关系如下所示：</p>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/Center.jpeg" alt="img"></p>
-<p>FFMPEG中结构体很多。最关键的结构体可以分成以下几类：</p>
-<ul>
-<li>解协议（http,rtsp,rtmp,mms）</li>
-</ul>
-<blockquote>
-<p>AVIOContext，URLProtocol，URLContext主要存储视音频使用的协议的类型以及状态。URLProtocol存储输入视音频使用的封装格式。每种协议都对应一个URLProtocol结构。（注意：FFMPEG中文件也被当做一种协议“file”）</p>
-</blockquote>
-<ul>
-<li>解封装（flv,avi,rmvb,mp4）</li>
-</ul>
-<blockquote>
-<p>AVFormatContext主要存储视音频封装格式中包含的信息；AVInputFormat存储输入视音频使用的封装格式。每种视音频封装格式都对应一个AVInputFormat 结构。</p>
-</blockquote>
-<ul>
-<li>解码（h264,mpeg2,aac,mp3）</li>
-</ul>
-<blockquote>
-<p>每个AVStream存储一个视频/音频流的相关数据；每个AVStream对应一个AVCodecContext，存储该视频/音频流使用解码方式的相关数据；每个AVCodecContext中对应一个AVCodec，包含该视频/音频对应的解码器。每种解码器都对应一个AVCodec结构。</p>
-</blockquote>
-<ul>
-<li>存数据</li>
-</ul>
-<blockquote>
-<p>视频的话，每个结构一般是存一帧；音频可能有好几帧<br>解码前数据：AVPacket<br>解码后数据：AVFrame</p>
-</blockquote>
-<ul>
-<li><p><code>AVFormatContext</code>:封装格式上下文结构体，也是统领<strong>全局</strong>的结构体，保存了视频文件封装格式相关信息，是负责储存数据的结构体。</p>
-<ul>
-<li><p><code>AVInputFormat</code>:每种封装格式（例如<code>FLV</code>,<code>MKV</code>, <code>MP4</code>, <code>AVI</code>）对应一个该结构体。同理如<code>AVOutputFormat</code>。其保存在<code>AVFormatContext</code>中，主要被ffmpeg内部使用调用。</p>
-</li>
-<li><p>通过使用下述函数装载解封装器</p>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_open_input</span><span class="params">(AVFormatContext **ps, <span class="keyword">const</span> <span class="keyword">char</span> *filename, AVInputFormat *fmt, AVDictionary **options)</span></span></span><br></pre></td></tr></table></figure>
-</li>
-</ul>
-</li>
-<li><p><code>AVIOContext</code>:主要负责解协议，封装协议相关的过程。在整个过程中负责对例如rtmp udp进行解协议。</p>
-</li>
-<li><code>AVStream</code>:视频文件中每个视频（音频）流对应一个该结构体。</li>
-<li><p><code>AVCodecContext</code>:编解码器上下文结构体，保存了视频（音频）编解码相关信息。</p>
-<ul>
-<li><code>AVCodec</code>:每种视频（音频）编解码器(例如H.264解码器)对应一个该结构体。其保存于<code>AVCodecContext</code>中，使用<code>avcodec_find_decoder(AVCodecID id)</code>装载解码器</li>
-</ul>
-</li>
-<li><p><code>AVFrame</code>:存储一帧解码后像素（采样）数据。</p>
-</li>
-<li><code>AVPacket</code>:存储一帧压缩编码数据。</li>
+          <h1 id="YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors"><a href="#YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors" class="headerlink" title="YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors"></a>YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors</h1><h2 id="文章主要贡献"><a href="#文章主要贡献" class="headerlink" title="文章主要贡献"></a>文章主要贡献</h2><ul>
+<li>设计了几种可训练的bag-of-freebies方法，使得实时目标检测在不增加推理成本的情况下大大提高了检测精度</li>
+<li>对于目标检测方法的改进，我们发现了两个新问题<strong>，即重参数化模块如何替换原始模块，以及动态标签分配策略如何处理对不同输出层的分配</strong>。此外，我们还提出了解决这些问题所带来的困难的方法</li>
+<li>提出了实时目标检测器的“扩展”和“复合缩放”方法，可以有效地利用参数和计算量</li>
+<li>本文提出的方法可有效减少当前实时目标检测器约40%的参数和50%的计算量，具有更快的推理速度和更高的检测精度。</li>
 </ul>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5byA5rC05aSq54Or,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center.png" alt="在这里插入图片描述"></p>
-<h3 id="解码过程中常用函数的解析"><a href="#解码过程中常用函数的解析" class="headerlink" title="解码过程中常用函数的解析"></a>解码过程中常用函数的解析</h3><p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/1426134989_1189.jpg" alt="1426134989_1189" style="zoom:200%;"></p>
-<h4 id="av-register-all"><a href="#av-register-all" class="headerlink" title="av_register_all()"></a>av_register_all()</h4><p><code>av_register_all()</code>注册所有解复用、解码等，将各个类别串成一个链表。在目前使用的ffmpeg4.2及以上的版本里面可不用该函数。其代码整个流程为首先确定有没有进行初始化，如果没有初始化，就调用avcodec_register_all()注册编解码器。函数的调用关系如下所示：</p>
-<ul>
-<li>在新版本的ffmpeg中，所有的解复用器，协议，复用器等被组织为一个全局静态数组，该数组在执行./configure命令的时候根据配置生成</li>
+<p>技术上的点为：</p>
+<p>1.模型重参数化<br>    YOLOV7将模型重参数化引入到网络架构中，重参数化这一思想最早出现于REPVGG中。<br>2.标签分配策略<br>    YOLOV7的标签分配策略采用的是YOLOV5的跨网格搜索，以及YOLOX的匹配策略。<br>3.ELAN高效网络架构<br>    YOLOV7中提出的一个新的网络架构，以高效为主。<br>4.带辅助头的训练<br>    YOLOV7提出了辅助头的一个训练方法，主要目的是通过增加训练成本，提升精度，同时不影响推理的时间，因为辅助头只会出现在训练过程中。</p>
+<h2 id="作者认为SOTA的目标检测所需要的部件"><a href="#作者认为SOTA的目标检测所需要的部件" class="headerlink" title="作者认为SOTA的目标检测所需要的部件"></a>作者认为SOTA的目标检测所需要的部件</h2><ul>
+<li>更快、更强的网络架构（backbone）</li>
+<li>一种更有效的特征提取方法（neck）</li>
+<li>更精确的检测方法（head）</li>
+<li>更具鲁棒性的损失函数（loss）</li>
+<li>更高效的标签分配方法（label assignment）</li>
+<li>更高效的训练方法（train strategy）</li>
 </ul>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/SouthEast.jpeg" alt="img"></p>
-<h4 id="avformat-alloc-context"><a href="#avformat-alloc-context" class="headerlink" title="avformat_alloc_context()"></a>avformat_alloc_context()</h4><p><code>avformat_alloc_context()</code>主要负责AVFormatContext的初始化，主要功能为分配内存以及设置其中某些项的值为默认值。</p>
-<blockquote>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150303154603565.png" alt="img"></p>
-<h4 id="avformat-open-input"><a href="#avformat-open-input" class="headerlink" title="avformat_open_input()"></a>avformat_open_input()</h4><p>avformat_open_input()主要负责打开多媒体数据，并获得一些数据相关的信息。</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_open_input</span><span class="params">(AVFormatContext **ps, <span class="keyword">const</span> <span class="keyword">char</span> *filename, AVInputFormat *fmt, AVDictionary **options)</span></span>;</span><br><span class="line"></span><br><span class="line">ps：函数调用成功之后处理过的AVFormatContext结构体。</span><br><span class="line">file：打开的视音频流的URL。</span><br><span class="line">fmt：强制指定AVFormatContext中AVInputFormat的。这个参数一般情况下可以设置为<span class="literal">NULL</span>，这样FFmpeg可以自动检测AVInputFormat。</span><br><span class="line">dictionay：附加的一些选项，一般情况下可以设置为<span class="literal">NULL</span>。</span><br><span class="line">当函数执行成功时，返回值大于等于<span class="number">0</span>，可以通过判断返回值与<span class="number">0</span>的关系从而判断是否打开多媒体数据成功。</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150304201149635.jpeg" alt="img"></p>
-<p>函数首先对输入进来的<code>AVFormatContext</code>指针进行容错检查，如有无进行初始化等操作，然后针对一些格式进行特殊处理。核心处理流程有两步。</p>
+<h2 id="模型重参数化"><a href="#模型重参数化" class="headerlink" title="模型重参数化"></a>模型重参数化</h2><p>模型重参数化分为两种主要的技术手段</p>
 <ul>
-<li>一为使用<code>init_input</code>函数，打开输入的视频数据并且探测视频的格式。<a target="_blank" rel="noopener" href="https://blog.csdn.net/leixiaohua1020/article/details/44064715">详细解释链接</a><ul>
-<li>FFmpeg内部判断封装格式的原理实际上是对每种AVInputFormat给出一个分数，满分是100分，越有可能正确的AVInputFormat给出的分数就越高。最后选择分数最高的AVInputFormat作为推测结果。<ul>
-<li>如果AVInputFormat中包含read_probe()，就调用read_probe()函数获取匹配分数（这一方法如果结果匹配的话，一般会获得AVPROBE_SCORE_MAX的分值，即100分）。如果不包含该函数，就使用av_match_ext()函数比较输入媒体的扩展名和AVInputFormat的扩展名是否匹配，如果匹配的话，设定匹配分数为AVPROBE_SCORE_EXTENSION（AVPROBE_SCORE_EXTENSION取值为50，即50分）。</li>
-<li>使用av_match_name()比较输入媒体的mime_type和AVInputFormat的mime_type，如果匹配的话，设定匹配分数为AVPROBE_SCORE_MIME（AVPROBE_SCORE_MIME取值为75，即75分）。</li>
-<li>如果该AVInputFormat的匹配分数大于此前的最大匹配分数，则记录当前的匹配分数为最大匹配分数，并且记录当前的AVInputFormat为最佳匹配的AVInputFormat.</li>
+<li>模块级集成<ul>
+<li>在训练时将一个模块拆分为多个相同或不同的模块分支，在推理时将多个分支模块整合为一个完全等价的模块。</li>
 </ul>
 </li>
+<li>模型级继承<ul>
+<li>用不同的训练数据训练多个相同的模型，然后对多个训练模型的权值进行平均</li>
+<li>对不同迭代次数下的模型权值进行加权平均。</li>
 </ul>
 </li>
-<li>二为使用<code>s-&gt;iformat-&gt;read_header()</code>，读取多媒体数据文件头，根据视音频流创建相应的AVStream。</li>
-</ul>
-<h4 id="avformat-find-stream-info"><a href="#avformat-find-stream-info" class="headerlink" title="avformat_find_stream_info()"></a>avformat_find_stream_info()</h4><p><code>avformat_find_stream_info</code>主要用于给每个媒体流（音频/视频）的AVStream结构体赋值，函数正常执行后返回值大于等于0。</p>
-<ul>
-<li><p>函数内部实现了解码器的查找，解码器的打开，视音频帧的读取，视音频帧的解码等工作。函数流程大致如下所示：</p>
-<ul>
-<li>查找解码器：find_decoder()</li>
-<li>打开解码器：avcodec_open2()</li>
-<li><p>读取完整的一帧压缩编码的数据：read_frame_internal()</p>
-<ul>
-<li>注：av_read_frame()内部实际上就是调用的read_frame_internal()。</li>
 </ul>
-</li>
-<li><p>解码一些压缩编码数据：try_decode_frame()</p>
-</li>
-</ul>
-</li>
-</ul>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_find_stream_info</span><span class="params">(AVFormatContext *ic, AVDictionary **options)</span></span>;</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150306173746865.png" alt="img"></p>
-<h4 id="avcodec-find-decoder"><a href="#avcodec-find-decoder" class="headerlink" title="avcodec_find_decoder()"></a>avcodec_find_decoder()</h4><p><code>avcodec_find_encoder()</code>用于查找FFmpeg的编码器</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="function">AVCodec *<span class="title">avcodec_find_encoder</span><span class="params">(<span class="keyword">enum</span> AVCodecID id)</span></span></span><br><span class="line"><span class="function"> 该id为编码器的ID，返回为查找到的编码器，</span></span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150305163655358.png" alt="img"></p>
-<p>在其中通过调用<code>AVCodec *find_encdec(enum AVCodecID id, int encoder)</code>进行编码器的搜索，该搜索遍历AVCodec结构的链表，逐一比较输入的ID和每一个编码器的ID，直到找到ID取值相同的编码器。</p>
-<h4 id="avcodec-open2"><a href="#avcodec-open2" class="headerlink" title="avcodec_open2()"></a>avcodec_open2()</h4><p><code>avcodec_open2()</code>用于初始化一个视音频编解码器的AVCodecContext</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avcodec_open2</span><span class="params">(AVCodecContext *avctx, <span class="keyword">const</span> AVCodec *codec, AVDictionary **options)</span></span>;</span><br><span class="line"></span><br><span class="line">avctx：需要初始化的AVCodecContext。</span><br><span class="line">codec：输入的AVCodec</span><br><span class="line">options：一些选项。例如使用libx264编码的时候，“preset”，“tune”等都可以通过该参数设置。</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150307171545202.png" alt="img"></p>
-<p>函数整体工作流程如下所示：</p>
-<ul>
-<li>为各种结构体分配内存（通过各种av_malloc()实现）。</li>
-<li>将输入的AVDictionary形式的选项设置到AVCodecContext。</li>
-<li>其他一些零零碎碎的检查，比如说检查编解码器是否处于“实验”阶段。</li>
-<li>如果是编码器，检查输入参数是否符合编码器的要求</li>
-<li>调用AVCodec的init()初始化具体的解码器。</li>
-</ul>
-<h4 id="av-read-frame"><a href="#av-read-frame" class="headerlink" title="av_read_frame()"></a>av_read_frame()</h4><p><code>av_read_frame()</code>的作用是读取码流中的音频若干帧或者视频一帧。例如，解码视频的时候，每解码一个视频帧，需要先调用 av_read_frame()获得一帧视频的压缩数据，然后才能对该数据进行解码（例如H.264中一帧压缩数据通常对应一个NAL）</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">av_read_frame</span><span class="params">(AVFormatContext *s, AVPacket *pkt)</span></span>;</span><br><span class="line"></span><br><span class="line">s：输入的AVFormatContext</span><br><span class="line">pkt：输出的AVPacket</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150312025330316.jpeg" alt="img"></p>
-<p>详细解析见<a target="_blank" rel="noopener" href="https://blog.csdn.net/leixiaohua1020/article/details/12678577">链接</a>，其大体思路为</p>
-<ul>
-<li>从对应的格式中，调用<code>ff_read_packet()</code>从相应的AVInputFormat中读取数据</li>
-<li>视需求调用parse_packet()解析相应的AVPacket</li>
-</ul>
-<h4 id="avcodec-decode-video2"><a href="#avcodec-decode-video2" class="headerlink" title="avcodec_decode_video2()"></a>avcodec_decode_video2()</h4><p><code>avcodec_decode_video2()</code>的作用是解码一帧视频数据。输入一个压缩编码的结构体AVPacket，输出一个解码后的结构体AVFrame</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avcodec_decode_video2</span><span class="params">(AVCodecContext *avctx, AVFrame *picture, <span class="keyword">int</span> *got_picture_ptr, <span class="keyword">const</span> AVPacket *avpkt)</span></span>;</span><br></pre></td></tr></table></figure>
-</blockquote>
-<ul>
-<li>对输入的字段进行了一系列的检查工作：例如宽高是否正确，输入是否为视频等等。</li>
-<li>通过ret = avctx-&gt;codec-&gt;decode(avctx, picture, got_picture_ptr,&amp;tmp)这句代码，调用了相应AVCodec的decode()函数，完成了解码操作。</li>
-<li>对得到的AVFrame的一些字段进行了赋值，例如宽高、像素格式等等。</li>
-</ul>
-<h3 id="编码过程中常用函数的解析"><a href="#编码过程中常用函数的解析" class="headerlink" title="编码过程中常用函数的解析"></a>编码过程中常用函数的解析</h3><p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/1426229411_4898.jpg" alt="1426229411_4898"></p>
-<h4 id="av-register-all-1"><a href="#av-register-all-1" class="headerlink" title="av_register_all()"></a>av_register_all()</h4><p>该函数与解码时一样。</p>
-<h4 id="avformat-alloc-output-context2"><a href="#avformat-alloc-output-context2" class="headerlink" title="avformat_alloc_output_context2()"></a>avformat_alloc_output_context2()</h4><p><code>avformat_alloc_output_context2()</code>函数可以初始化一个用于输出的AVFormatContext结构体。其</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_alloc_output_context2</span><span class="params">(AVFormatContext **ctx, AVOutputFormat *oformat, <span class="keyword">const</span> <span class="keyword">char</span> *format_name, <span class="keyword">const</span> <span class="keyword">char</span> *filename)</span></span>;</span><br><span class="line"></span><br><span class="line">ctx：函数调用成功之后创建的AVFormatContext结构体。</span><br><span class="line">oformat：指定AVFormatContext中的AVOutputFormat，用于确定输出格式。如果指定为<span class="literal">NULL</span>，可以设定后两个参数（format_name或者filename）由FFmpeg猜测输出格式。</span><br><span class="line">	PS：使用该参数需要自己手动获取AVOutputFormat，相对于使用后两个参数来说要麻烦一些。</span><br><span class="line">format_name：指定输出格式的名称。根据格式名称，FFmpeg会推测输出格式。输出格式可以是“flv”，“mkv”等等。</span><br><span class="line">filename：指定输出文件的名称。根据文件名称，FFmpeg会推测输出格式。文件名称可以是“xx.flv”，“yy.mkv”等等。</span><br><span class="line">函数执行成功的话，其返回值大于等于<span class="number">0</span>。</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150303220720490.png" alt="img"></p>
-<p>函数执行流程可简单概括为以下两步：</p>
-<ul>
-<li>调用avformat_alloc_context()进行内存分配以及初始化默认的AVFormatContext。</li>
-<li>如果指定了输入的AVOutputFormat，则直接将输入的AVOutputFormat赋值给AVOutputFormat的oformat。如果没有指定输入的AVOutputFormat，就需要根据文件格式名称或者文件名推测输出的AVOutputFormat。无论是通过文件格式名称还是文件名推测输出格式，都会调用一个函数av_guess_format()。<ul>
-<li>在<code>av_guess_format()</code>中，使用socre记录每种输出格式的匹配程度，遍历ffmpeg中所有的AVOutputFormat并逐一计算每个输出格式的score，具体的计算流程如下所示：<ul>
-<li>如果封装格式名称匹配，score增加100。匹配中使用了函数av_match_name()。</li>
-<li>如果mime类型匹配，score增加10。匹配直接使用字符串比较函数strcmp()。</li>
-<li>如果文件名称的后缀匹配，score增加5。匹配中使用了函数av_match_ext()。</li>
-</ul>
-</li>
-</ul>
-</li>
-</ul>
-<h4 id="avio-open2"><a href="#avio-open2" class="headerlink" title="avio_open2()"></a>avio_open2()</h4><p><code>avio_open2()</code>用于打开FFmpeg的输入输出文件。</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avio_open2</span><span class="params">(AVIOContext **s, <span class="keyword">const</span> <span class="keyword">char</span> *url, <span class="keyword">int</span> flags, <span class="keyword">const</span> AVIOInterruptCB *int_cb, AVDictionary **options)</span></span>;</span><br><span class="line"></span><br><span class="line">s：函数调用成功之后创建的AVIOContext结构体。</span><br><span class="line">url：输入输出协议的地址（文件也是一种“广义”的协议，对于文件来说就是文件的路径）。</span><br><span class="line">flags：打开地址的方式。可以选择只读，只写，或者读写。取值如下。</span><br><span class="line">	AVIO_FLAG_READ：只读。</span><br><span class="line">	AVIO_FLAG_WRITE：只写。</span><br><span class="line">	AVIO_FLAG_READ_WRITE：读写。</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150304132258935.png" alt="img"></p>
-<p>该函数主要调用了两个函数<code>ffurl_open()</code>和<code>ffio_fdopen()</code>。</p>
-<ul>
-<li>ffurl_open()用于初始化URLContext<ul>
-<li>ffurl_open()主要调用了2个函数：ffurl_alloc()和ffurl_connect()。<ul>
-<li>ffurl_alloc()用于查找合适的URLProtocol，并创建一个URLContext</li>
-<li>ffurl_connect()用于打开获得的URLProtocol。</li>
-</ul>
-</li>
-</ul>
-</li>
-<li>ffio_fdopen()用于根据URLContext初始化AVIOContext。<ul>
-<li>URLContext中包含的URLProtocol完成了具体的协议读写等工作。AVIOContext则是在URLContext的读写函数外面加上了一层“包装”（通过retry_transfer_wrapper()函数）。</li>
-</ul>
-</li>
-</ul>
-<h4 id="avformat-new-stream"><a href="#avformat-new-stream" class="headerlink" title="avformat_new_stream()"></a>avformat_new_stream()</h4><p><code>avformat_new_stream()</code>是初始化<code>AVStream</code>的函数。</p>
-<h4 id="avcodec-find-encoder"><a href="#avcodec-find-encoder" class="headerlink" title="avcodec_find_encoder()"></a>avcodec_find_encoder()</h4><p><code>avcodec_find_encoder()</code>与解码过程中的<code>avcodec_find_decoder()</code>类似。</p>
-<h4 id="avcodec-open2-1"><a href="#avcodec-open2-1" class="headerlink" title="avcodec_open2()"></a>avcodec_open2()</h4><p><code>avcodec_open2()</code>用于初始化一个视音频编解码器的AVCodecContext。</p>
-<h4 id="avformat-write-header"><a href="#avformat-write-header" class="headerlink" title="avformat_write_header()"></a>avformat_write_header()</h4><p><code>avformat_write_header()</code>用于写视频文件头。</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_write_header</span><span class="params">(AVFormatContext *s, AVDictionary **options)</span></span>;</span><br><span class="line"></span><br><span class="line">s：用于输出的AVFormatContext。</span><br><span class="line">options：额外的选项，目前没有深入研究过，一般为<span class="literal">NULL</span>。</span><br><span class="line">函数正常执行后返回值为<span class="number">0</span></span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150307142222277.png" alt="img"></p>
-<p>avformat_write_header()完成了以下工作：</p>
-<ul>
-<li>调用init_muxer()初始化复用器<ul>
-<li>将传入的AVDictionary形式的选项设置到AVFormatContext</li>
-<li>遍历AVFormatContext中的每个AVStream，并作如下检查：<ul>
-<li>AVStream的time_base是否正确设置。如果发现AVStream的time_base没有设置，则会调用avpriv_set_pts_info()进行设置。</li>
-<li>对于音频，检查采样率设置是否正确；对于视频，检查宽、高、宽高比。</li>
-<li>其他一些检查</li>
-</ul>
-</li>
-</ul>
-</li>
-<li>调用AVOutputFormat的write_header()，write_header()是AVOutputFormat中的一个函数指针，指向写文件头的函数。不同的AVOutputFormat有不同的write_header()的实现方法。</li>
-</ul>
-<h4 id="avcodec-encode-video2"><a href="#avcodec-encode-video2" class="headerlink" title="avcodec_encode_video2()"></a>avcodec_encode_video2()</h4><p><code>avcodec_encode_video2()</code>用于编码一帧视频数据</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avcodec_encode_video2</span><span class="params">(AVCodecContext *avctx, AVPacket *avpkt, <span class="keyword">const</span> AVFrame *frame, <span class="keyword">int</span> *got_packet_ptr)</span></span>;</span><br><span class="line"> avctx：编码器的AVCodecContext。</span><br><span class="line"> avpkt：编码输出的AVPacket。</span><br><span class="line"> frame：编码输入的AVFrame。</span><br><span class="line"> got_packet_ptr：成功编码一个AVPacket的时候设置为<span class="number">1</span>。</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150311222209829.png" alt="img"></p>
-<p>在该函数中，主要由两个部分组成。首先调用<code>av_image_check_size()</code>检查设置的宽高等参数是否合理，然后调用AVcodec的<code>encode2()</code>调用具体的解码器。</p>
-<h4 id="av-write-frame"><a href="#av-write-frame" class="headerlink" title="av_write_frame()"></a>av_write_frame()</h4><p><code>av_write_frame()</code>用于输出一帧视频数据。</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">av_write_frame</span><span class="params">(AVFormatContext *s, AVPacket *pkt)</span></span>;</span><br><span class="line">	s：用于输出的AVFormatContext。</span><br><span class="line">	pkt：等待输出的AVPacket。</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150311155409612.png" alt="img"></p>
-<p>该函数主要包括以下三个步骤：</p>
-<ul>
-<li>调用check_packet()做一些简单的检测</li>
-<li>调用compute_pkt_fields2()设置AVPacket的一些属性值</li>
-<li>调用write_packet()写入数据</li>
-</ul>
-<h4 id="av-write-trailer"><a href="#av-write-trailer" class="headerlink" title="av_write_trailer()"></a>av_write_trailer()</h4><p><code>av_write_trailer()</code>用于写视频文件尾</p>
-<blockquote>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">av_write_trailer</span><span class="params">(AVFormatContext *s)</span></span>;</span><br><span class="line">	s：用于输出的AVFormatContext。</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p>av_write_trailer()主要完成了以下两步工作：</p>
-<ul>
-<li>循环调用interleave_packet()以及write_packet()，将还未输出的AVPacket输出出来。</li>
-<li>调用AVOutputFormat的write_trailer()，输出文件尾。</li>
-</ul>
-<h3 id="c-使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）"><a href="#c-使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）" class="headerlink" title="c++使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）"></a>c++使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）</h3><p>工程链接：<a target="_blank" rel="noopener" href="https://github.com/XDUwsk/ffmpeg_demo/tree/main/change_mp4_2_flv">change_mp4_2_flv</a></p>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br><span class="line">94</span><br><span class="line">95</span><br><span class="line">96</span><br><span class="line">97</span><br><span class="line">98</span><br><span class="line">99</span><br><span class="line">100</span><br><span class="line">101</span><br><span class="line">102</span><br><span class="line">103</span><br><span class="line">104</span><br><span class="line">105</span><br><span class="line">106</span><br><span class="line">107</span><br><span class="line">108</span><br><span class="line">109</span><br><span class="line">110</span><br><span class="line">111</span><br><span class="line">112</span><br><span class="line">113</span><br><span class="line">114</span><br><span class="line">115</span><br><span class="line">116</span><br><span class="line">117</span><br><span class="line">118</span><br><span class="line">119</span><br><span class="line">120</span><br><span class="line">121</span><br><span class="line">122</span><br><span class="line">123</span><br><span class="line">124</span><br><span class="line">125</span><br><span class="line">126</span><br><span class="line">127</span><br><span class="line">128</span><br><span class="line">129</span><br><span class="line">130</span><br><span class="line">131</span><br><span class="line">132</span><br><span class="line">133</span><br><span class="line">134</span><br><span class="line">135</span><br><span class="line">136</span><br><span class="line">137</span><br><span class="line">138</span><br><span class="line">139</span><br><span class="line">140</span><br><span class="line">141</span><br><span class="line">142</span><br><span class="line">143</span><br><span class="line">144</span><br><span class="line">145</span><br><span class="line">146</span><br><span class="line">147</span><br><span class="line">148</span><br><span class="line">149</span><br><span class="line">150</span><br><span class="line">151</span><br><span class="line">152</span><br><span class="line">153</span><br><span class="line">154</span><br><span class="line">155</span><br><span class="line">156</span><br><span class="line">157</span><br><span class="line">158</span><br><span class="line">159</span><br><span class="line">160</span><br></pre></td><td class="code"><pre><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&lt;iostream&gt;</span></span></span><br><span class="line"> </span><br><span class="line"><span class="keyword">extern</span> <span class="string">&quot;C&quot;</span></span><br><span class="line">&#123;</span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libavformat/avformat.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libavutil/dict.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libavutil/opt.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libavutil/timestamp.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libswscale/swscale.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libswresample/swresample.h&quot;</span></span></span><br><span class="line">&#125;;</span><br><span class="line"></span><br><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">main</span><span class="params">()</span></span></span><br><span class="line"><span class="function"></span>&#123;</span><br><span class="line">    <span class="comment">//本质上ffmpeg4.2.7不需要这句话，但是加上也没有问题</span></span><br><span class="line">	<span class="built_in">av_register_all</span>();</span><br><span class="line">	<span class="comment">//avformat_network_init();</span></span><br><span class="line"> </span><br><span class="line">    AVFormatContext* ifmt_ctx = <span class="literal">NULL</span>;</span><br><span class="line">	<span class="keyword">const</span> <span class="keyword">char</span>* inputUrl = <span class="string">&quot;/home/firefly/ffmpeg_workspace/media/4.mp4&quot;</span>;</span><br><span class="line"> </span><br><span class="line">	<span class="comment">///打开输入的流</span></span><br><span class="line">	<span class="keyword">int</span> ret = <span class="built_in">avformat_open_input</span>(&amp;ifmt_ctx, inputUrl, <span class="literal">NULL</span>, <span class="literal">NULL</span>);</span><br><span class="line">	<span class="keyword">if</span> (ret != <span class="number">0</span>)</span><br><span class="line">	&#123;</span><br><span class="line">		<span class="built_in">printf</span>(<span class="string">&quot;Couldn&#x27;t open input stream.\n&quot;</span>);</span><br><span class="line">		<span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">	&#125;</span><br><span class="line"> </span><br><span class="line">	<span class="comment">//查找流信息</span></span><br><span class="line">	<span class="keyword">if</span> (<span class="built_in">avformat_find_stream_info</span>(ifmt_ctx, <span class="literal">NULL</span>) &lt; <span class="number">0</span>)</span><br><span class="line">	&#123;</span><br><span class="line">		<span class="built_in">printf</span>(<span class="string">&quot;Couldn&#x27;t find stream information.\n&quot;</span>);</span><br><span class="line">		<span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">	&#125;</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//输出的文件</span></span><br><span class="line">    AVOutputFormat *ofmt = <span class="literal">NULL</span>;</span><br><span class="line">    AVFormatContext *ofmt_ctx = <span class="literal">NULL</span>;</span><br><span class="line">    <span class="keyword">const</span> <span class="keyword">char</span>* out_filename = <span class="string">&quot;4_out.flv&quot;</span>;</span><br><span class="line"> </span><br><span class="line">    <span class="built_in">avformat_alloc_output_context2</span>(&amp;ofmt_ctx, <span class="literal">NULL</span>, <span class="literal">NULL</span>, out_filename);</span><br><span class="line">    <span class="keyword">if</span> (!ofmt_ctx) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">int</span> stream_mapping_size = ifmt_ctx-&gt;nb_streams;</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//为数组分配内存</span></span><br><span class="line">    <span class="keyword">int</span>* stream_mapping = (<span class="keyword">int</span> *)<span class="built_in">av_mallocz_array</span>(stream_mapping_size, <span class="built_in"><span class="keyword">sizeof</span></span>(*stream_mapping));</span><br><span class="line">    <span class="keyword">if</span> (!stream_mapping) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">int</span> stream_index = <span class="number">0</span>;</span><br><span class="line">    ofmt = ofmt_ctx-&gt;oformat;</span><br><span class="line">    <span class="keyword">for</span> (<span class="keyword">int</span> i = <span class="number">0</span>; i &lt; ifmt_ctx-&gt;nb_streams; i++) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="comment">//输出的流</span></span><br><span class="line">        AVStream* out_stream = <span class="literal">NULL</span>;</span><br><span class="line"> </span><br><span class="line">        <span class="comment">//输入的流 视频、音频、字幕等</span></span><br><span class="line">        AVStream* in_stream = ifmt_ctx-&gt;streams[i];</span><br><span class="line">        AVCodecParameters* in_codecpar = in_stream-&gt;codecpar;</span><br><span class="line">        <span class="keyword">if</span> (in_codecpar-&gt;codec_type != AVMEDIA_TYPE_AUDIO &amp;&amp; in_codecpar-&gt;codec_type != AVMEDIA_TYPE_VIDEO &amp;&amp; in_codecpar-&gt;codec_type != AVMEDIA_TYPE_SUBTITLE) </span><br><span class="line">        &#123;</span><br><span class="line">            stream_mapping[i] = <span class="number">-1</span>;</span><br><span class="line">            <span class="keyword">continue</span>;</span><br><span class="line">        &#125;</span><br><span class="line">        stream_mapping[i] = stream_index++;</span><br><span class="line"> </span><br><span class="line">        <span class="comment">//创建一个新的流</span></span><br><span class="line">        out_stream = <span class="built_in">avformat_new_stream</span>(ofmt_ctx, <span class="literal">NULL</span>); </span><br><span class="line">        <span class="keyword">if</span> (!out_stream) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">        &#125;</span><br><span class="line"> </span><br><span class="line">        <span class="comment">//复制输入的流信息到输出流中</span></span><br><span class="line">        ret = <span class="built_in">avcodec_parameters_copy</span>(out_stream-&gt;codecpar, in_codecpar);</span><br><span class="line">        <span class="keyword">if</span> (ret &lt; <span class="number">0</span>) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">        &#125;</span><br><span class="line">        out_stream-&gt;codecpar-&gt;codec_tag = <span class="number">0</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">if</span> (!(ofmt-&gt;flags &amp; AVFMT_NOFILE)) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="comment">//打开输出文件</span></span><br><span class="line">        ret = <span class="built_in">avio_open</span>(&amp;ofmt_ctx-&gt;pb, out_filename, AVIO_FLAG_WRITE); </span><br><span class="line">        <span class="keyword">if</span> (ret &lt; <span class="number">0</span>) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">        &#125;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//写入头</span></span><br><span class="line">    ret = <span class="built_in">avformat_write_header</span>(ofmt_ctx, <span class="literal">NULL</span>);</span><br><span class="line">    <span class="keyword">if</span> (ret &lt; <span class="number">0</span>) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    AVPacket pkt;</span><br><span class="line">    <span class="keyword">while</span> (<span class="number">1</span>) </span><br><span class="line">    &#123;</span><br><span class="line">        AVStream* in_stream = <span class="literal">NULL</span>;</span><br><span class="line">        AVStream* out_stream = <span class="literal">NULL</span>;</span><br><span class="line"> </span><br><span class="line">        <span class="comment">//从输入流中读取数据到pkt中</span></span><br><span class="line">        ret = <span class="built_in">av_read_frame</span>(ifmt_ctx, &amp;pkt);</span><br><span class="line">        <span class="keyword">if</span> (ret &lt; <span class="number">0</span>)</span><br><span class="line">            <span class="keyword">break</span>;</span><br><span class="line"> </span><br><span class="line">        in_stream = ifmt_ctx-&gt;streams[pkt.stream_index];</span><br><span class="line">        <span class="keyword">if</span> (pkt.stream_index &gt;= stream_mapping_size || stream_mapping[pkt.stream_index] &lt; <span class="number">0</span>) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="built_in">av_packet_unref</span>(&amp;pkt);</span><br><span class="line">            <span class="keyword">continue</span>;</span><br><span class="line">        &#125;</span><br><span class="line">        pkt.stream_index = stream_mapping[pkt.stream_index];</span><br><span class="line">        out_stream = ofmt_ctx-&gt;streams[pkt.stream_index];</span><br><span class="line"> </span><br><span class="line">        <span class="comment">/* copy packet */</span></span><br><span class="line">        pkt.pts = <span class="built_in">av_rescale_q_rnd</span>(pkt.pts, in_stream-&gt;time_base, out_stream-&gt;time_base, (AVRounding)(AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX));</span><br><span class="line">        pkt.dts = <span class="built_in">av_rescale_q_rnd</span>(pkt.dts, in_stream-&gt;time_base, out_stream-&gt;time_base, (AVRounding)(AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX));</span><br><span class="line">        pkt.duration = <span class="built_in">av_rescale_q</span>(pkt.duration, in_stream-&gt;time_base, out_stream-&gt;time_base);</span><br><span class="line">        pkt.pos = <span class="number">-1</span>;</span><br><span class="line"> </span><br><span class="line">        ret = <span class="built_in">av_interleaved_write_frame</span>(ofmt_ctx, &amp;pkt);</span><br><span class="line">        <span class="keyword">if</span> (ret &lt; <span class="number">0</span>) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="built_in">fprintf</span>(stderr, <span class="string">&quot;Error muxing packet\n&quot;</span>);</span><br><span class="line">            <span class="keyword">break</span>;</span><br><span class="line">        &#125;</span><br><span class="line">        <span class="built_in">av_packet_unref</span>(&amp;pkt);</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//写文件尾</span></span><br><span class="line">    <span class="built_in">av_write_trailer</span>(ofmt_ctx);</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//关闭</span></span><br><span class="line">    <span class="built_in">avformat_close_input</span>(&amp;ifmt_ctx);</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">if</span> (ofmt_ctx &amp;&amp; !(ofmt-&gt;flags &amp; AVFMT_NOFILE))</span><br><span class="line">        <span class="built_in">avio_closep</span>(&amp;ofmt_ctx-&gt;pb);</span><br><span class="line"> </span><br><span class="line">    <span class="built_in">avformat_free_context</span>(ofmt_ctx);</span><br><span class="line">    <span class="built_in">av_freep</span>(&amp;stream_mapping);</span><br><span class="line">    <span class="keyword">if</span> (ret &lt; <span class="number">0</span> &amp;&amp; ret != AVERROR_EOF)</span><br><span class="line">    &#123;</span><br><span class="line">        <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">return</span> <span class="number">0</span>;</span><br><span class="line">&#125;</span><br><span class="line"> </span><br></pre></td></tr></table></figure>
+<h2 id="模型缩放"><a href="#模型缩放" class="headerlink" title="模型缩放"></a>模型缩放</h2><p>模型缩放常有不同的缩放因子，如分辨率(输入图像的大小)、深度(层数)、宽度(通道数)和阶段(特征金字塔的数量)，从而在网络参数的数量、计算量、推理速度和精度上达到很好的权衡。我们观察到，所有基于连接的模型，如DenseNet或VoVNet，当这些模型的深度被缩放时，都会改变某些层的输入宽度。由于所提出的体系结构是基于串联的，我们必须为该模型设计一种新的复合缩放方法</p>
+<h2 id="模型结构图"><a href="#模型结构图" class="headerlink" title="模型结构图"></a>模型结构图</h2><p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-1e9750e05bc3e329c7095388ea3583a7_1440w.webp" alt="img"></p>
+<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/d6fa41fd929243228535b61c93b6ea14.png" alt="请添加图片描述"></p>
+<h3 id="扩展的高效层聚合网络E-ELAN"><a href="#扩展的高效层聚合网络E-ELAN" class="headerlink" title="扩展的高效层聚合网络E-ELAN"></a>扩展的高效层聚合网络E-ELAN</h3><p>要设计高效的网络结构，一般需要考虑参数量、计算量、计算密度、内存访问消耗memory access cost（MAC），还要输入输出通道比例、多分支结构和元素级的相加等等，此外在模型缩放时还要考虑激活函数。</p>
+<p>下图a、b是VovNet和改进的CSPVoVNet，CSPVoVNet分析了梯度路径，使得不同层的权重能够学习到更多的信息。ELAN考虑了如何设计一个更高效的网络结构：通过控制最短最长梯度路径，更深层能够更加高效地学习和收敛。</p>
+<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-b0bd82873eb6ae4998b9177000aebd9d_1440w.webp" alt="img"></p>
+<p><strong>我们改进了ELAN结构，使用expand, shuffle, merge cardinality三种方式</strong>。</p>
+<p>expand即指提高channels数量（假设提高为g倍），使用组卷积来减少计算量。但是组卷积会使得特征层的不同组之间的信息无法交流，因此参考shufflenet网络，使用通道重排技术进行信息交互。假设group=g，那么对g组特征层使用通道重排技术，然后将其相cat。这时候，此时的每一个group的特征层的channels数量和输入特征层相同（因为输出通道数扩大了g倍），因此我们将g组特征层相加起来，得到新的特征层，这就是merge操作。改进的E-ELAN操作如图2d。（另外，读到后面可以知道，不是所有模型都使用E-ELAN，图1的结构图是YOLOv7的基础版，是没有使用E-ELAN，而是使用ELAN）</p>
+<h3 id="基于concatenation的模型的缩放策略"><a href="#基于concatenation的模型的缩放策略" class="headerlink" title="基于concatenation的模型的缩放策略"></a>基于concatenation的模型的缩放策略</h3><p>模型缩放是调整模型的尺寸，如增大模型提高精度，减小模型提高速度，来获得不同尺寸的模型以适应不同实际工程。如scaled-YOLOv4，它通过缩放stages的数量进行缩放模型。</p>
+<p>对于常用的网络如PlainNet或者ResNet，缩放模型后，模型的输入通道数和输出通道数不会发生改变，那么可以独立分析缩放的影响。（如YOLOX和YOLOv5通过控制CSP_Block中残差块的数量进行缩放，这种不会改变输出通道数）。<strong>但是基于concatenation的模型，增加卷积个数后，下一个层的入度将会改变。</strong>如图3a和b，添加了深度后，模块输出的通道数一样会改变。</p>
+<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-933dbca99e1b3195d97cf3e9535e2ca4_1440w.webp" alt="img"></p>
+<p>因此，如果对于要使用cat的模型，添加了更多的卷积后，模型的输入输出通道数将会改变，那么将不好单独分析模型缩放深度和宽度的影响。因此为了解决此问题，<strong>我们提出了如图3c的模块</strong>，当模型缩放深度后（如图3c的scaling up depth），我们计算cat后的输出通道数，然后设置相应的宽度缩放因子（如图3c的scaling up width），以此来控制输出的通道数不会改变。也就是说，通过computational block控制缩放深度，通过Transition控制缩放宽度。</p>
+<h3 id="3-训练时的免费午餐"><a href="#3-训练时的免费午餐" class="headerlink" title="3 训练时的免费午餐"></a><strong>3 训练时的免费午餐</strong></h3><h3 id="3-1-planned重参数卷积"><a href="#3-1-planned重参数卷积" class="headerlink" title="3.1 planned重参数卷积"></a><strong>3.1 planned重参数卷积</strong></h3><p>尽管RepConv在VGG上取得巨大成功，但是当我们直接将其应用到ResNet和DenseNet或者其他结构时，其精度会较大下降。我们使用<strong>梯度流动传播路径方法</strong>去分析如何将重参数卷积结合到不同的网络。我们也设计了相应的planned重参数卷积。</p>
+<p>RepConv经常和$3<em>3$卷积、$1</em>1$卷积和恒等映射混合使用。在分析了RepConv和不同结构的结合的表现后，我们发现RepConv里面的恒等映射损害了ResNet的残差连接和DenseNet的cat操作，而这两个操作能够给不同特征层带来梯度的多样性。因此，<strong>我们设计了一个去除恒等映射的RepConv-N，如果遇到残差连接或者cat操作时，使用RepConv-N，而不是RepConv</strong>。</p>
+<p>如图4，在图4g和h中，RepConv去除了恒等分支。而图4d和f，因为输出时连接了残差，所以应该使用RepConv-N。</p>
+<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-ba4eb83432276c6af04975f82a32d2a0_1440w.webp" alt="img"></p>
+<h3 id="3-2-粗到细的训练loss策略"><a href="#3-2-粗到细的训练loss策略" class="headerlink" title="3.2 粗到细的训练loss策略"></a><strong>3.2 粗到细的训练loss策略</strong></h3><p><strong>深度监督</strong>是训练深层网络时经常使用的技巧。它的主要思想是在网络的中间添加一个额外的辅助头，浅层网络的权重能够作为辅助损失去指导网络。甚至对于那些容易收敛的如ResNet、DenseNet等网络，深度监督依然能够为模型在多个任务上显著地提升表现。图5的a和b是采用与不采用深度监督后的模型结构，在本文中，我们将最终对输出负责的head称为lead head，辅助训练的head称为auxiliary head</p>
+<p><img src="/2023/06/18/YOLOv7-Trainable-bag-of-freebies-sets-new-state-of-the-art-for-real-time-object-detectors/v2-9888244b3a573b41257f5d5e2380b767_1440w.webp" alt="img"></p>
+<p>然后，我们讨论了<strong>标签分配</strong>。在早期的工作中，标签分配通常是通过参考gt标签，然后给予一个硬标签。然而最近，开始考虑预测输出的质量和分布，然后基于此计算一个可信赖的软标签。比如YOLO使用预测框与真实框的IOU，作为软标签。本文将这种机制称作标签分配器（label assigner）。</p>
+<p>因为本文使用了深度监督策略，那么如何为auxiliary head和lead head分配软标签呢？主流的方法如图5c所示，即分别为Lead head和auxiliary head的预测结果做标签分配和loss计算。本文使用一种新颖的方法，即通过lead head的输出同时指导lead head和auxiliary head，也就是通过lead head的输出生成粗到细的层级标签。这两种提出的方法如图5d和e所示。</p>
+<p><strong>Lead head指导的标签分配器（如图5d）</strong>，主要基于lead的预测输出和ground truth进行计算，通过优化过程生成软标签。这些软标签，将会在训练时同时用于辅助头auxiliary head和导向头lead head。之所以这么做，是因为lead head的表征能力强，所以生成的软标签对源数据和目标的分布和关系，更具代表性。更进一步说，我们可以将这个过程当作<strong>一类泛化性的残差学习</strong>，浅层辅助头学习导向头已经学习过的信息，那么导向头能够更加关注学习以前未学过的残差信息。</p>
+<p><strong>粗到细的导向头指导的标签分配器（如图5e</strong>），它也使用lead head的预测和gt来生成软标签，但是它是生成两类标签，如coarse label和fine label。其中，fine标签和图5d的软标签生成过程相同，coarse标签通过放宽对正样本的约束，允许更多的网格被视作正样本，这就是粗标签生成过程。这是因为auxiliary head相对于lead head的学习能力较弱，为了避免信息丢失，对于auxiliary head我们聚焦于优化其召回率。此时，lead head能够从高召回率的结果中挑选高精度的结果。但是如果额外添加的粗标签的loss权重，和精标签的相同，那么可能会损害检测器。因此，为了使得粗标签中额外的正样本的权重减少，我们对解码器做了限制（具体如何限制文中未作解释，可能是对权重参数做了调整，具体信息得看源码才能知道），使得额外的粗正样本不能完美地产生软标签。以上的机制，允许粗标签和精标签的重要性在训练时动态调整，<strong>使得精标签的优化上界始终优于粗标签</strong>。</p>
+<h3 id="3-3-其他训练时的免费午餐"><a href="#3-3-其他训练时的免费午餐" class="headerlink" title="3.3 其他训练时的免费午餐"></a><strong>3.3 其他训练时的免费午餐</strong></h3><p>以下列了一些本文使用的方案，但是不是由本文最先提出的。</p>
+<ol>
+<li><strong>Conv-BN-Act策略</strong>。BN层直接与Conv层相连，这样在推理时，BN层能够与conv层相融合。</li>
+<li><strong>YOLOR的隐式知识建模</strong>（不太了解，所以没细看）。</li>
+<li><strong>EMA model</strong>。滑动平均训练策略，这是在训练时给近期数据更高权重的平均方法，用于对模型的参数做平均，以求提高测试指标并增加模型鲁棒。在推理时，我们使用了EMA模型作为最终的模型。</li>
+</ol>
 
       
     </div>
@@ -1075,822 +854,118 @@ <h3 id="c-使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）"
     
       <footer class="post-footer">
         <div class="post-eof"></div>
-      </footer>
-  </article>
-  
-  
-  
-
-      
-  
-  
-  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/12/ffmpeg%E5%9F%BA%E7%A1%80%E4%BA%86%E8%A7%A3/">
-
-    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
-      <meta itemprop="image" content="/images/avatar.gif">
-      <meta itemprop="name" content="凯">
-      <meta itemprop="description" content="选择大于努力">
-    </span>
-
-    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
-      <meta itemprop="name" content="凯_kaiii">
-    </span>
-      <header class="post-header">
-        <h2 class="post-title" itemprop="name headline">
-          
-            <a href="/2023/04/12/ffmpeg%E5%9F%BA%E7%A1%80%E4%BA%86%E8%A7%A3/" class="post-title-link" itemprop="url">ffmpeg基础了解</a>
-        </h2>
-
-        <div class="post-meta">
-            <span class="post-meta-item">
-              <span class="post-meta-item-icon">
-                <i class="far fa-calendar"></i>
-              </span>
-              <span class="post-meta-item-text">发表于</span>
-              
-
-              <time title="创建时间：2023-04-12 09:36:29 / 修改时间：09:39:30" itemprop="dateCreated datePublished" datetime="2023-04-12T09:36:29+08:00">2023-04-12</time>
-            </span>
-
-          
-
-        </div>
-      </header>
-
-    
-    
-    
-    <div class="post-body" itemprop="articleBody">
-
-      
-          <h2 id="ffmpeg是什么"><a href="#ffmpeg是什么" class="headerlink" title="ffmpeg是什么"></a>ffmpeg是什么</h2><p>FFmpeg是一个库和工具的集合，用于处理音频、视频、字幕和相关元数据等多媒体内容。</p>
-<h2 id="ffmpeg的组成"><a href="#ffmpeg的组成" class="headerlink" title="ffmpeg的组成"></a>ffmpeg的组成</h2><p>ffmpeg由以下几个核心依赖包组成</p>
-<ul>
-<li><strong>libavcodec</strong> - 提供了更广泛的编码器解码器的实现。各种格式的编解码代码(如aacenc.c、aacdec.c等)都位于该目录下。</li>
-<li><strong>libavformat</strong> - 实现了流协议、容器格式和基本的I/O实现。用于各种音视频封装格式的生成和解析，包括获取解码所需信息、读取音视频数据等功能。各种流媒体协议代码(如rtmpproto.c等)以及音视频格式的(解)复用代码(如flvdec.c、flvenc.c等)都位于该目录下。</li>
-<li><strong>libavutil</strong> - 为核心工具包，包含一些公共的工具函数的使用库，包括算数运算，字符操作等。</li>
-<li><strong>libavfilter</strong> - 提供各种音视频滤波器。</li>
-<li><strong>libavdevice</strong> - 用于硬件的音视频采集、加速和显示。</li>
-<li><strong>libswresample</strong> - 提供音频重采样，采样格式转换和音频混合等功能。</li>
-<li><strong>libswscale</strong> - 提供原始视频的比例缩放、色彩映射转换、图像颜色空间或格式转换的功能。</li>
-</ul>
-<h2 id="ffmpeg用到的工具"><a href="#ffmpeg用到的工具" class="headerlink" title="ffmpeg用到的工具"></a>ffmpeg用到的工具</h2><ul>
-<li><a target="_blank" rel="noopener" href="https://ffmpeg.org/ffmpeg.html">ffmpeg</a>是一个用于操作、转换和流式传输多媒体内容的命令行工具箱。</li>
-<li><a target="_blank" rel="noopener" href="https://ffmpeg.org/ffplay.html">ffplay</a>是一款简约的多媒体播放器。</li>
-<li><a target="_blank" rel="noopener" href="https://ffmpeg.org/ffprobe.html">ffprobe</a>是一种检查多媒体内容的简单分析工具。</li>
-<li>其他小工具，如”aviocat”、”ismindex”和”qt faststart”。</li>
-</ul>
-<h2 id="ffmpeg的源码编译"><a href="#ffmpeg的源码编译" class="headerlink" title="ffmpeg的源码编译"></a>ffmpeg的源码编译</h2><h3 id="ffmpeg的源码下载-以ffmpeg-release-6-0为例"><a href="#ffmpeg的源码下载-以ffmpeg-release-6-0为例" class="headerlink" title="ffmpeg的源码下载    以ffmpeg release 6.0为例"></a>ffmpeg的源码下载    以<a target="_blank" rel="noopener" href="https://github.com/FFmpeg/FFmpeg/tree/release/6.0">ffmpeg release 6.0为例</a></h3><figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">git clone https://github.com/FFmpeg/FFmpeg/<span class="built_in">tree</span>/release/<span class="number">6</span>.<span class="number">0</span></span><br></pre></td></tr></table></figure>
-<h3 id="yasm的安装"><a href="#yasm的安装" class="headerlink" title="yasm的安装"></a>yasm的安装</h3><p>由于ffmpeg的安装过程中为了提高效率使用了汇编指令，而yasm是汇编编译器，在ffmpeg的编译过程中对其有依赖，所以需要对其提前进行下载安装。</p>
-<p>linux环境下直接：</p>
-<ul>
-<li>下载：wget  <a target="_blank" rel="noopener" href="http://www.tortall.net/projects/yasm/releases/yasm-1.3.0.tar.gz">http://www.tortall.net/projects/yasm/releases/yasm-1.3.0.tar.gz</a></li>
-<li>解压：tar zxvf yasm-1.3.0.tar.gz</li>
-<li>切换路径： cd yasm-1.3.0</li>
-<li>执行配置： ./configure</li>
-<li>编译：make</li>
-<li>安装：make install</li>
-</ul>
-<h3 id="ffmpeg的源码编译-1"><a href="#ffmpeg的源码编译-1" class="headerlink" title="ffmpeg的源码编译"></a>ffmpeg的源码编译</h3><p>进入ffmpeg的源码文件夹。</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">./configure --prefix=/usr/local/ffmpeg</span><br><span class="line">make &amp;&amp; make install</span><br><span class="line">vi /etc/profile</span><br><span class="line">export <span class="built_in">PATH</span>=$<span class="built_in">PATH</span>:/usr/local/ffmpeg/bin</span><br></pre></td></tr></table></figure>
-<h3 id="ffmpeg的安装测试"><a href="#ffmpeg的安装测试" class="headerlink" title="ffmpeg的安装测试"></a>ffmpeg的安装测试</h3><p>在命令行中直接输入ffmpeg，得到ffmpeg相关的信息输出即可。</p>
-<h2 id="常见使用方法"><a href="#常见使用方法" class="headerlink" title="常见使用方法"></a>常见使用方法</h2><p>具体详细版的ffmpeg文档可见： <a target="_blank" rel="noopener" href="https://xdsnet.gitbooks.io/other-doc-cn-ffmpeg/content/index.html">ffmpeg中文文档</a></p>
-<h3 id="统一语法"><a href="#统一语法" class="headerlink" title="统一语法"></a>统一语法</h3><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg [全局选项] &#123;[输入文件选项] -i 输入文件&#125; ... &#123;[输出文件选项] 输出文件&#125; ...</span><br></pre></td></tr></table></figure>
-<p>即</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg [global_options] &#123;[input_file_options] -i input_file&#125; ... &#123;[output_file_options] output_file&#125; ...</span><br></pre></td></tr></table></figure>
-<h3 id="基本选项"><a href="#基本选项" class="headerlink" title="基本选项"></a>基本选项</h3><p>能力集列表</p>
-<ul>
-<li>-formats：列出支持的文件格式。</li>
-<li>-codecs：列出支持的编解码器。</li>
-<li>-decoders：列出支持的解码器。</li>
-<li>-encoders：列出支持的编码器。</li>
-<li>-protocols：列出支持的协议。</li>
-<li>-bsfs：列出支持的比特流过滤器。</li>
-<li>-filters：列出支持的滤镜。</li>
-<li>-pix_fmts：列出支持的图像采样格式。</li>
-<li>-sample_fmts：列出支持的声音采样格式。</li>
-</ul>
-<p>常用输入选项</p>
-<ul>
-<li>-i filename：指定输入文件名。</li>
-<li>-f fmt：强制设定文件格式，需使用能力集列表中的名称(缺省是根据扩展名选择的)。</li>
-<li>-ss hh:mm:ss[.xxx]：设定输入文件的起始时间点，启动后将跳转到此时间点然后开始读取数据。</li>
-</ul>
-<p>对于输入，以下选项通常是自动识别的，但也可以强制设定。</p>
-<ul>
-<li>-c codec：指定解码器，需使用能力集列表中的名称。</li>
-<li>-acodec codec：指定声音的解码器，需使用能力集列表中的名称。</li>
-<li>-vcodec codec：指定视频的解码器，需使用能力集列表中的名称。</li>
-<li>-b:v bitrate：设定视频流的比特率，整数，单位bps。</li>
-<li>-r fps：设定视频流的帧率，整数，单位fps。</li>
-<li>-s WxH : 设定视频的画面大小。也可以通过挂载画面缩放滤镜实现。</li>
-<li>-pix_fmt format：设定视频流的图像格式(如RGB还是YUV)。</li>
-<li>-ar sample rate：设定音频流的采样率，整数，单位Hz。</li>
-<li>-ab bitrate：设定音频流的比特率，整数，单位bps。</li>
-<li>-ac channels：设置音频流的声道数目。</li>
-</ul>
-<p>常用输出选项</p>
-<ul>
-<li>-f fmt：强制设定文件格式，需使用能力集列表中的名称(缺省是根据扩展名选择的)。</li>
-<li>-c codec：指定编码器，需使用能力集列表中的名称(编码器设定为”copy“表示不进行编解码)。</li>
-<li>-acodec codec：指定声音的编码器，需使用能力集列表中的名称(编码器设定为”copy“表示不进行编解码)。</li>
-<li>-vcodec codec：指定视频的编码器，需使用能力集列表中的名称(编解码器设定为”copy“表示不进行编解码)。</li>
-<li>-r fps：设定视频编码器的帧率，整数，单位fps。</li>
-<li>-pix_fmt format：设置视频编码器使用的图像格式(如RGB还是YUV)。</li>
-<li>-ar sample rate：设定音频编码器的采样率，整数，单位Hz。</li>
-<li>-b bitrate：设定音视频编码器输出的比特率，整数，单位bps。</li>
-<li>-ab bitrate：设定音频编码器输出的比特率，整数，单位bps。</li>
-<li>-ac channels：设置音频编码器的声道数目。</li>
-<li>-an 忽略任何音频流。</li>
-<li>-vn 忽略任何视频流。</li>
-<li>-t hh:mm:ss[.xxx]：设定输出文件的时间长度。</li>
-<li>-to hh:mm:ss[.xxx]：如果没有设定输出文件的时间长度的画可以设定终止时间点。</li>
-</ul>
-<h3 id="ffmpeg音视频转换流程"><a href="#ffmpeg音视频转换流程" class="headerlink" title="ffmpeg音视频转换流程"></a>ffmpeg音视频转换流程</h3><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br></pre></td><td class="code"><pre><span class="line"> _______              ______________</span><br><span class="line">|       |            |              |</span><br><span class="line">| input |  demuxer   | encoded data |   decoder</span><br><span class="line">| file  | ---------&gt; | packets      | -----+</span><br><span class="line">|_______|            |______________|      |</span><br><span class="line">                                           v</span><br><span class="line">                                       _________</span><br><span class="line">                                      |         |</span><br><span class="line">                                      | decoded |</span><br><span class="line">                                      | frames  |</span><br><span class="line">                                      |_________|</span><br><span class="line">  ________             ______________      |</span><br><span class="line">|        |           |              |      |</span><br><span class="line">| output | &lt;-------- | encoded data | &lt;----+</span><br><span class="line">| file   |   muxer   | packets      |   encoder</span><br><span class="line">|________|           |______________|</span><br></pre></td></tr></table></figure>
-<p><code>ffmpeg</code>调用<code>libavformat</code>库(含分离器<code>demuxer</code>)读取输入文件，分离出各类编码的数据包(流)。编码数据包通过解码器解码出非压缩的数据帧(raw视频/PCM格式音频…)，这些数据帧可以被滤镜进一步处理。经过滤镜处理的数据被重新编码为新的数据包(流)，然后经过混合器混合(例如按一定顺序和比例把音频数据包和视频数据包交叉组合)，写入到输出文件。</p>
-<h3 id="滤镜处理-Filtering"><a href="#滤镜处理-Filtering" class="headerlink" title="滤镜处理(Filtering)"></a>滤镜处理(Filtering)</h3><p>在上述音视频转换流程中，decoder得到原始音视频数据之后，可以使用<code>libavfilter</code>库中的滤镜进行处理，滤镜之间可以组合使用<code>filtergraphs</code> ，对于ffmpeg而言，滤镜分为<code>简单滤镜</code>和<code>复合滤镜</code>。</p>
-<h4 id="简单滤镜"><a href="#简单滤镜" class="headerlink" title="简单滤镜"></a>简单滤镜</h4><p>简单滤镜即为只有一个输入和输出的滤镜，且滤镜两边的数据为同一类型的数据，可以理解为从raw data到encoder处理之前简单附加的一步。其具体流程可如下所示：</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line"> _________                        ______________</span><br><span class="line">|         |                      |              |</span><br><span class="line">| decoded |                      | encoded data |</span><br><span class="line">| frames  |\                     | packets      |</span><br><span class="line">|_________| \                  /||______________|</span><br><span class="line">             \   __________   /</span><br><span class="line">  simple      \ |          | /  encoder</span><br><span class="line">  filtergraph  \| filtered |/</span><br><span class="line">                | frames   |</span><br><span class="line">                |__________|</span><br></pre></td></tr></table></figure>
-<p>tips：滤镜改变的不止可以为帧内容，还可以是帧属性。例如帧率的变化，尺寸的变化等。对应于帧内容并不发生改变。</p>
-<h4 id="复合滤镜"><a href="#复合滤镜" class="headerlink" title="复合滤镜"></a>复合滤镜</h4><p>不为简单滤镜的行为均可视为复合滤镜，例如多个输入多个输出的场景，示意图如下：</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br></pre></td><td class="code"><pre><span class="line"> _________</span><br><span class="line">|         |</span><br><span class="line">| input 0 |\                    __________</span><br><span class="line">|_________| \                  |          |</span><br><span class="line">             \   _________    /| output 0 |</span><br><span class="line">              \ |         |  / |__________|</span><br><span class="line"> _________     \| complex | /</span><br><span class="line">|         |     |         |/</span><br><span class="line">| input 1 |----&gt;| filter  |\</span><br><span class="line">|_________|     |         | \   __________</span><br><span class="line">               /| graph   |  \ |          |</span><br><span class="line">              / |         |   \| output 1 |</span><br><span class="line"> _________   /  |_________|    |__________|</span><br><span class="line">|         | /</span><br><span class="line">| input 2 |/</span><br><span class="line">|_________|</span><br></pre></td></tr></table></figure>
-<p>复合滤镜由<code>-filter_complex</code>选项进行设定。<strong>注意</strong>这是一个全局选项，因为一个复合滤镜必然是不能只关联到一个单一流或者文件的。<code>-lavfi</code>选项等效于<code>-filter_complex</code></p>
-<p>一个复合滤镜的简单例子就是<code>overlay</code>滤镜，它从两路输入中，把一个视频叠加到一个输出上。对应的类似音频滤镜是<code>amix</code>。</p>
-<h4 id="流拷贝"><a href="#流拷贝" class="headerlink" title="流拷贝"></a>流拷贝</h4><p>流拷贝(Stream copy)是一种对指定流数据仅仅进行复制的<code>拷贝(copy)</code>模式。这种情况下<code>ffmpeg</code>不会对指定流进行解码和编码步骤，而仅仅是分离和混合数据包。这种模式常用于文件包装格式的转换或者修改部分元数据信息，这个过程简单图示如下：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">_______              ______________            ________</span><br><span class="line">|       |            |              |          |        |</span><br><span class="line">| input |  demuxer   | encoded data |  muxer   | output |</span><br><span class="line">| file  | ---------&gt; | packets      | -------&gt; | file   |</span><br><span class="line">|_______|            |______________|          |________|</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p>因为这种模式下不存在解码和编码过程，所以也特别快，而且不会造成新的质量损失。然而这也使得这样的模式不能适合很多工作需求，例如这个模式下不能使用大量的滤镜了，因为滤镜仅能对未压缩(编码)的数据进行处理。</p>
-<h3 id="流"><a href="#流" class="headerlink" title="流"></a>流</h3><h4 id="4-1流处理"><a href="#4-1流处理" class="headerlink" title="4.1流处理"></a>4.1流处理</h4><p>默认情况下，<code>ffmpeg</code>把输入文件每种类型(视频、音频和字幕)仅仅采用一个流转换输出到输出文件中，就是把<strong>最好</strong>效果的流进行输出：</p>
-<ul>
-<li>对于视频，它是具有最高分辨率的流</li>
-<li>对于音频，它是具有最多频道的流</li>
-<li>对于字幕，它是第一个找到的字幕流，但有一个警告。输出格式的默认字幕编码器可以是基于文本的，也可以是基于图像的，并且仅选择相同类型的字幕流</li>
-<li>在几个相同类型的流速率相等的情况下，选择具有最低索引的流。</li>
-</ul>
-<p>当然，你可以禁用默认设置，而采用<code>-vn/-an/-sn</code>选项进行专门的指定，如果要进行完全的手动控制，则是以<code>-map</code>选项，它将禁止默认值而选用指定的配置。</p>
-<h4 id="4-1流处理-1"><a href="#4-1流处理-1" class="headerlink" title="4.1流处理"></a>4.1流处理</h4><p>流处理独立于流选择，下面描述的字幕除外。流处理通过<code>-codec</code>选项进行设置，该选项寻址到特定输出文件内的流。特别是，<code>-codec</code>在流选择过程之后被ffmpeg应用，因此不影响后者。如果没有为流类型指定<code>-codec</code>选项，ffmpeg将选择输出文件muxer注册的默认编码器。</p>
-<p>对于字幕存在例外。如果为输出文件指定了字幕编码器，则将包括找到任何类型的第一个字幕流，如文本或图像。 ffmpeg不验证指定的编码器是否可以转换所选的流，或者转换的流是否在输出格式中是可接受的。这通常也适用：当用户手动设置编码器时，流选择过程不能检查编码流是否可以复用到输出文件中。如果不能，则ffmpeg将中止，并且所有输出文件都将无法处理。</p>
-<h4 id="4-2例子"><a href="#4-2例子" class="headerlink" title="4.2例子"></a>4.2例子</h4><p>假设以下三个输入文件。</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br></pre></td><td class="code"><pre><span class="line">input file &#x27;A.avi&#x27;</span><br><span class="line">      stream 0: video 640x360</span><br><span class="line">      stream 1: audio 2 channels</span><br><span class="line"> </span><br><span class="line">input file &#x27;B.mp4&#x27;</span><br><span class="line">      stream 0: video 1920x1080</span><br><span class="line">      stream 1: audio 2 channels</span><br><span class="line">      stream 2: subtitles (text)</span><br><span class="line">      stream 3: audio 5.1 channels</span><br><span class="line">      stream 4: subtitles (text)</span><br><span class="line"> </span><br><span class="line">input file &#x27;C.mkv&#x27;</span><br><span class="line">      stream 0: video 1280x720</span><br><span class="line">      stream 1: audio 2 channels</span><br><span class="line">      stream 2: subtitles (image)</span><br></pre></td></tr></table></figure>
-<h5 id="示例：自动流选择"><a href="#示例：自动流选择" class="headerlink" title="示例：自动流选择"></a>示例：自动流选择</h5><figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i A.avi -i B.mp4 out1.mkv out2.wav -map <span class="number">1</span>:a -c:a <span class="built_in">copy</span> out3.mov</span><br></pre></td></tr></table></figure>
-<p>指定了三个输出文件，对于前两个out1 out2，由于未设置<code>-map</code>选项，因此ffmpeg将自动为这两个文件选择流。<br>out1.mkv是一个Matroska容器文件，接受视频，音频和字幕流，因此ffmpeg将尝试选择每种类型中的一种。<br>对于视频，它将从B.mp4中选择流 stream 0 ，其在所有输入视频流中具有最高分辨率。<br>对于音频，它将从B.mp4中选择流 stream 3 ，因为它具有最多的通道。<br>对于字幕，它将从B.mp4中选择流 stream 2 ，这是A.avi和B.mp4中的第一个字幕流。<br>out2.wav只接受音频流，因此只选择来自B.mp4的stream 3。<br>out3.mov，由于设置了<code>-map</code>选项，因此不会进行自动流选择。 <code>-map 1:a</code>选项将从第二个输入B.mp4中选择所有音频流。此输出文件中不包含其他流。<br>对于前两个输出，将对所有包含的流进行转码。选择的编码器将是每种输出格式注册的默认编码器，可能与所选输入流的编解码器不匹配。<br>对于第三个输出，<code>-c:a copy</code>意为使用指定音视频编码中的所有音频流编解码器，设置为<code>copy</code>，因此不会发生以及不可能发生解码 - 过滤 - 编码操作。所选流的数据包应从输入文件传送，并在输出文件中复用。</p>
-<h5 id="示例：自动字幕选择"><a href="#示例：自动字幕选择" class="headerlink" title="示例：自动字幕选择"></a>示例：自动字幕选择</h5><figure class="highlight cpp"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i C.mkv out1.mkv -c:s dvdsub -an out2.mkv</span><br></pre></td></tr></table></figure>
-<p>尽管out1.mkv是Matroska容器文件，它接受字幕流，但只能选择视频和音频流。 C.mkv的字幕流是基于图像的，并且Matroska复用器的默认字幕编码器是基于文本的，因此字幕的转码操作预计会失败，因此不选择该流。 然而，在out2.mkv中，在命令中<code>-c:s dvdsub</code>指定字幕编码器，因此，除了视频流之外，还选择字幕流。 <code>-an</code>的存在禁用out2.mkv的音频流选择。</p>
-<h3 id="选项"><a href="#选项" class="headerlink" title="选项"></a>选项</h3><p>所有的数值选项，如果没有特殊定义，则需要一个接受一个字符串代表一个数作为输入，这可能跟着一个单位量词首字母，例如<code>&quot;k&quot;</code>,<code>&quot;m&quot;</code>或<code>&quot;G&quot;</code></p>
-<p>如果<code>i</code>是附加到SI单位的首字母，完整的字母将被解释为一个2的幂数单位，这是基于1024而不是1000的，添加<code>B</code>的SI单位则是再将此值乘以8。例如<code>KB</code>，<code>MiB</code>，<code>G</code>和<code>B</code></p>
-<p>对于选项中不带参数的布尔选项，即把相应的值设置为<code>true</code>，它们可以添加<code>no</code>设置为false，例如<code>nofoo</code>就相当于<code>foo false</code> 。</p>
-<h4 id="流说明-限定-符"><a href="#流说明-限定-符" class="headerlink" title="流说明(限定)符"></a>流说明(限定)符</h4><ul>
-<li>很多选项是作用于单独的流的，例如码率(bitrate)或者编码(codec)，流说明符就是精确的为每个流指定相应的选项。</li>
-<li>一个流说明符是一个以冒号分隔的字符串，其中分隔出的部分是附加选项，例如<code>-codec:a:1 ac3</code>表示编码器是对第2音频流以ac3编码。</li>
-<li>一个流说明符可能匹配多个流，则该选项是所有匹配项的选项，例如<code>-b:a 128k</code>表示所有的音频流都是128k的码率。</li>
-<li>一个空的流说明符匹配所有的流，例如<code>-codec copy</code>或者<code>-codec: copy</code>表示所有的流都不进行再次编码(包括视频和音频)</li>
-</ul>
-<p>可能的流说明符有：</p>
-<ul>
-<li><strong><code>stream_index</code></strong>:匹配流的索引，例如<code>-threads:1 4</code>表示对2号流采用4个线程处理</li>
-<li><strong><code>stream_type[:stream_index]</code></strong>:<code>stream_type</code>有<code>v</code>表示视频，<code>a</code>表示音频，<code>s</code>表示字幕，<code>d</code>表示数据和<code>t</code>表示附加/附件等可能，如果<code>stream_index</code>同时被指定，则匹配该索引对于的该类型的流。例如<code>-codec:v:0 h264</code>表示第1视频流是h.264编码。</li>
-<li><strong><code>p:program_id[:stream_index]</code></strong>:如果<code>stream_index</code>被指定，则表示被<code>program_id</code>指定的程序仅作用于<code>stream_index</code>所指流，否则将作用于所有流。</li>
-<li><strong><code>#stream_id</code>或者<code>i:stream_id</code></strong>：匹配<code>stream_id</code>所指流(MPEG-TS中的PID)</li>
-<li><strong><code>m:key[:value]</code></strong>:匹配在元数据中以标签<code>key</code>=<code>value</code>值的流，如果<code>value</code>没有设置，则匹配所有。</li>
-<li><strong><code>u</code></strong>：匹配不能被配置的流，这时编码器必须被定义且有必要的视频维度或者音频采样率之类的信息。<strong>注意</strong>，<code>ffmpeg</code>匹配由元数据标识的状态仅对于输入文件有效。</li>
-</ul>
-<h4 id="常规选项"><a href="#常规选项" class="headerlink" title="常规选项"></a>常规选项</h4><p>这些常规选项也可以用在<code>ffmpeg</code>项目中其他<code>ff*</code>工具，例如<code>ffplayer</code></p>
-<ul>
-<li><p><code>-L</code>：显示授权协议</p>
-</li>
-<li><p><code>-h，-？，-help，--help[arg]</code>:显示帮助，一个附加选项可以指定帮助显示的模式，如果没有参数，则是基本选项(没有特别声明)说明被显示，下面是参数定义</p>
-<ul>
-<li><code>long</code>：在基本选项说明基础上增加高级选项说明</li>
-<li><code>full</code>：输出完整的选项列表，包括编(解)码器，分离器混合器以及滤镜等等的共享和私有选项</li>
-<li><code>decoder=decoder_name</code>：输出指定解码器名的详细信息。可以使用<code>-decoders</code>来获取当前支持的所有解码器名</li>
-<li><code>encoder=encoder_name</code>：输出指定编码器名的详细信息。可以使用<code>-encoders</code>来获取当前支持的所有编码器名</li>
-<li><code>demuxer=demuxer_name</code>：输出指定分离器名详细信息。可以使用<code>-formats</code>来获取当前支持的所有分离器和混合器</li>
-<li><code>muxer=muxer_name</code>：输出指定混合器名详细信息。可以使用<code>-formats</code>来获取当前支持的所有分离器和混合器</li>
-<li><code>filter=filter_name</code>：输出指定滤镜名的详细信息。可以使用<code>-filters</code>来获取当前支持的所有滤镜</li>
-</ul>
-</li>
-<li><p><code>-version</code>：显示版</p>
-</li>
-<li><p><code>-buildconf</code> : 显示构建选项</p>
-</li>
-<li><p><code>-formats</code>：显示所有有效的格式(包括设备)</p>
-</li>
-<li><p><code>-devices</code>：显示有效设备</p>
-</li>
-<li><p><code>-codecs</code>：显示所有已支持的编码(libavcodec中的)</p>
-</li>
-<li><p><code>-decoders</code>：显示所有有效解码器</p>
-</li>
-<li><p><code>-encoders</code>：显示所有有效的编码器</p>
-</li>
-<li><p><code>-bsfs</code>：显示有效的数据流(bitstream)滤镜</p>
-</li>
-<li><p><code>-protocols</code>：显示支持的协议</p>
-</li>
-<li><p><code>-filters</code>：显示libavfilter中的滤镜</p>
-</li>
-<li><p><code>-pix_fmts</code>：显示有效的像素(pixel)格式</p>
-</li>
-<li><p><code>-sample_fmts</code>：显示有效的实例格式</p>
-</li>
-<li><p><code>-layouts</code>：显示信道名字和信道布局</p>
-</li>
-<li><p><code>-colors</code>：显示注册的颜色名</p>
-</li>
-<li><p><code>-sources device[,opt1=val1[,opt2=val]...]</code>：显示自动识别的输入设备源。一些设备可能需要提供一些系统指派的源名字而不能自动识别。返回的列表不能认为一定是完整的(即有可能还有设备没有列出来)</p>
-<p><code>ffmpeg -sources pulse,server=192.168.0.4</code></p>
-</li>
-<li><p><code>-sinks device[,opt1=val1[,opt2=val]...]</code>:显示自动识别的输出设备。一些设备可能需要提供一些系统指派的源名字而不能自动识别。返回的列表不能认为一定是完整的(即有可能还有设备没有列出来)</p>
-<p><code>ffmpeg -sinks pulse,server=192.168.0.4</code></p>
-</li>
-<li><p><code>-loglevel [repeat+]loglevel 或者 -v [repeat+]loglevel</code>：设置日志层次。如果附加有<code>repeat+</code>则表示从第一条非压缩行到达到最后消息n次之间的行将被忽略。<code>&quot;repeat&quot;</code>也可以一直使用，如果没有现有日志层级设置，则采用默认日志层级。如果有多个日志层级参数被获取，使用<code>&quot;repeat&quot;</code>不改变当前日志层级。日志层级是一个字符串或数值，有以下可能值：</p>
-<ul>
-<li><p><code>quiet,-8</code>，什么都不输出，是无声的</p>
-</li>
-<li><p><code>panic,0</code>，仅显示造成进程失败的致命错误，它当前不能使用</p>
-</li>
-<li><p><code>fatal,8</code>仅仅显示致命错误，这些错误使得处理不能继续</p>
-</li>
-<li><p><code>error,16</code>显示所有的错误，包括可以回收的错误(进程还可以继续的)</p>
-</li>
-<li><p><code>warning,24</code>显示所有警告和错误，任何错误或者意外事件相关信息均被显示</p>
-</li>
-<li><p><code>info,32</code>显示过程中的信息，还包括警告和错误，则是默认值</p>
-</li>
-<li><p><code>verbose,40</code>类似<code>info</code>，但更冗长</p>
-</li>
-<li><p><code>debug,48</code>显示所有，包括调试信息</p>
-</li>
-<li><p><code>trace,56</code></p>
-<p>默认的日志输出是stderr设备，如果在控制台支持颜色，则错误和警告标记的颜色将被显示处理，默认日志的颜色设置可以由环境变量的<code>AV_LOG_FORCE_NOCOLOR</code>或者<code>NO_COLOR</code>或者环境变量<code>AV_LOG_RORCE_COLOR</code>覆盖。环境变量<code>NO_COLOR</code>不推荐使用，因为其已经不被新版本支持。</p>
-</li>
-</ul>
-</li>
-<li><p><code>-report</code>：复制所有命令行和控制台输出到当前目录下名为<code>program-YYYMMDD-HHMMSS.log</code>文件中。这常用于报告bug，所以一般会同时设置<code>-loglevel verbose</code></p>
-<p>设置环境变量<code>FFREPORT</code>可以起到相同的效果。如果值是一个以<code>：</code>分隔的关键值对，则将影响到报告效果。值中的特殊符号或者分隔符<code>：</code>必须被转义(参考ffmepg-utils手册中”引用逃逸”(“Quoting and escaping”)章节)。以下是选项值范围：</p>
-<ul>
-<li><p>file：设置报告文件名字，<code>%p</code>被扩展为程序名字，<code>%t</code>是时间码，<code>%%</code>表示一个字符<code>%</code></p>
-</li>
-<li><p>level：用数字设定日志信息详略程度(参考<code>-longlevel</code>)</p>
-<p>例如：</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">`FFREPORT=file=ffreport.log:level=32 ffmpeg -i input output`</span><br></pre></td></tr></table></figure>
-<p>会把日志信息输出到环境变量定义的文件中， 内容包括简要过程信息，警告和错误。</p>
-</li>
-</ul>
-</li>
-<li><p><code>-hide_banner</code>：禁止打印输出banner。所有FFmpeg工具使用中常规都会在前面显示一些版权通知、编译选项和库版本等，这个选项可以禁止这部分的显示。</p>
-</li>
-<li><p><code>cpuflags flags(global)</code>：允许设置或者清除cpu标志性和。当前这个选项主要还是测试特性，不要使用，除非你明确需要：</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -cpuflags -sse+mmx ... </span><br><span class="line">ffmpeg -cpuflags mmx ... </span><br><span class="line">ffmpeg -cpuflags 0 ...</span><br></pre></td></tr></table></figure>
-<p>可能的选项参数有：</p>
-<ul>
-<li><p>x86</p>
-<ul>
-<li>mmx</li>
-<li>mmxext</li>
-<li>sse</li>
-<li>sse2</li>
-<li>sse2slow</li>
-<li>sse3</li>
-<li>atom</li>
-<li>sse4.1</li>
-<li>sse4.2</li>
-<li>avx</li>
-<li>avx2</li>
-<li>xop</li>
-<li>fma3</li>
-<li>fma4</li>
-<li>3dnow</li>
-<li>3dnowext</li>
-<li>bmi1</li>
-<li>bmi2</li>
-<li>cmov</li>
-</ul>
-</li>
-<li><p>ARM</p>
-<ul>
-<li>armv5te</li>
-<li>armv6</li>
-<li>armv6t2</li>
-<li>vfp</li>
-<li>vfpv3</li>
-<li>neon</li>
-<li>setend</li>
-</ul>
-</li>
-<li><p>AArch64</p>
-<ul>
-<li>armv8</li>
-<li>vfp</li>
-<li>neon</li>
-</ul>
-</li>
-<li><p>PowerPC</p>
-<ul>
-<li>altivec</li>
-</ul>
-</li>
-<li><p>Specific Processors</p>
-<ul>
-<li>pentium2</li>
-<li>pentium3</li>
-<li>pentium4</li>
-<li>k6</li>
-<li>athlon</li>
-<li>athlonxp</li>
-<li>k8</li>
-</ul>
-</li>
-</ul>
-</li>
-<li><p><code>-opencl_bench</code>：输出所有效OpenCL设备的基准测试情况。当前选项仅在编译FFmepg中打开了<code>--enable-opencl</code>才有效。</p>
-<p>当FFmpeg指定了<code>--enable-opencl</code>编译后，这个选项还可以通过全局参数<code>-opencl_options</code>进行设定，参考OpenCL选项，在ffmpeg-utils手册中对于选项的支持情况，这包括在特定的平台设备上支持OpenCL的能力。默认，FFmpeg会运行在首选平台的首选设备上，通过设置全局的OpenCL则可以实现在选定的OpenCL设备上运行，这样就可以在更快的OpenCL设备上运行(平时节点，需要时才选用性能高但耗电的设备)</p>
-<p>这个选项有助于帮助用户了解信息以进行有效配置。它将在每个设备上运行基准测试，并以性能排序所有设备，用户可以在随后调用<code>ffmpeg</code>时使用<code>-opencl_options</code>配置合适的OpenCL加速特性。</p>
-<p>一般以下面的步骤使用这个参数：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -opencl_bench        </span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><strong>注意</strong>输出中第一行的平台ID(<em>pidx</em>)和设备ID(<em>didx</em>)，然后在选择平台和设备用于命令行：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -opencl_options platform_idx=pidx:device_idx=didx ...</span><br></pre></td></tr></table></figure>
-</blockquote>
-</li>
-<li><p><code>opencl_options options(global)</code>:设置OpenCL环境选项，这个选项仅仅在FFmpeg编译选项中打开了<code>--enable-opencl</code>才有效。</p>
-<p><em>options</em>必须是一个由<code>:</code>分隔的<code>key=value</code>键值对列表。参考OpenCL选项，在ffmpeg-utils手册中对于选项的支持情况</p>
-</li>
-</ul>
-<h4 id="AV选项"><a href="#AV选项" class="headerlink" title="AV选项"></a>AV选项</h4><p>这些选项由特定的库提供(如libavformat，libavdevice以及libavcodec)。为了更多的了解AV选项，使用<code>-help</code>进行进一步了解。它们可以指定下面2个分类：</p>
-<ul>
-<li>generic(常规)：这类选项可以用于设置容器、设备、编码器、解码器等。通用选项对列在<code>AVFormatContext</code>中的容器/设备以及<code>AVCodecContext</code>中的编码有效。</li>
-<li>private(私有)：这类仅对特定的容器、设备或者编码有效。私有选项由相应的 容器/设备/编码 指定(确定)。</li>
-</ul>
-<p>例如要在一个默认为ID3v2.4为头的MP3文件中写入ID3v2.3头，需要使用id3v2_version 私有选项来对MP3混流：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i input.flac -id3v2_version 3 out.mp3</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p>所有编码AV选项是针对单独流的，所以必须详细指定。</p>
-<p><strong>注意</strong></p>
-<ol>
-<li><code>-nooption</code>语法不能被用于AV选项中的布尔值项目，而必须使用<code>-option 0/-option 1</code></li>
-<li>以往使用<code>v/a/s</code>命名指定每个流的AV选项语法已经不建议使用，它们很快就会失效移除。</li>
-</ol>
-<h4 id="主要选项"><a href="#主要选项" class="headerlink" title="主要选项"></a>主要选项</h4><ul>
-<li><p><code>-f fmt (input/output)</code> :指定输入或者输出文件格式。常规可省略而使用依据扩展名的自动指定，但一些选项需要强制明确设定。</p>
-</li>
-<li><p><code>-i filename (input)</code>：指定输入文件</p>
-</li>
-<li><p><code>-y (global)</code>：默认自动覆盖输出文件，而不再询问确认。</p>
-</li>
-<li><p><code>-n (global)</code>:不覆盖输出文件，如果输出文件已经存在则立即退出</p>
-</li>
-<li><p>-<code>c[:stream_specifier] codec (input/output,per-stream)</code></p>
-</li>
-<li><p><code>-codec[:stream_specifier] codec (input/output,per-stream)</code> 为特定的文件选择编/解码模式，对于输出文件就是编码器，对于输入或者某个流就是解码器。选项参数中<code>codec</code>是编解码器的名字，或者是<code>copy</code>(仅对输出文件)则意味着流数据直接复制而不再编码。例如： </p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i INPUT -map 0 -c:v libx264 -c:a copy OUTPUT</span><br></pre></td></tr></table></figure>
-<p>是使用libx264编码所有的视频流，然后复制所有的音频流。</p>
-<p>再如除了特殊设置外所有的流都由<code>c</code>匹配指定： </p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i INPUT -map 0 -c copy -c:v:1 libx264 -c:a:137 libvorbis OUTPUT</span><br></pre></td></tr></table></figure>
-<p>这将在输出文件中第2视频流按libx264编码，第138音频流按libvorbis编码，其余都直接复制输出。</p>
-</li>
-<li><p><code>-t duration (input/output)</code>:限制输入/输出的时间。如果是在<code>-i</code>前面，就是限定从输入中读取多少时间的数据；如果是用于限定输出文件，则表示写入多少时间数据后就停止。<code>duration</code>可以是以秒为单位的数值或者 <code>hh:mm:ss[.xxx]</code>格式的时间值。 <strong>注意</strong><code>-to</code>和<code>-t</code>是互斥的，<code>-t</code>有更高优先级。</p>
-</li>
-<li><p><code>-to position (output)</code>:只写入<code>position</code>时间后就停止，<code>position</code>可以是以秒为单位的数值或者 <code>hh:mm:ss[.xxx]</code>格式的时间值。 <strong>注意</strong><code>-to</code>和<code>-t</code>是互斥的，<code>-t</code>有更高优先级。</p>
-</li>
-<li><p><code>-fs limit_size (output)</code>:设置输出文件大小限制，单位是字节(bytes)。</p>
-</li>
-<li><p><code>-ss position (input/output)</code>:</p>
-<ul>
-<li>当在<code>-i</code>前，表示定位输入文件到<code>position</code>指定的位置。<strong>注意</strong>可能一些格式是不支持精确定位的，所以<code>ffmpeg</code>可能是定位到最接近<code>position</code>(在之前)的可定位点。当有转码发生且<code>-accurate_seek</code>被设置为启用(默认)，则实际定位点到<code>position</code>间的数据被解码出来但丢弃掉。如果是复制模式或者<code>-noaccurate_seek</code>被使用，则这之间的数据会被保留。</li>
-<li>当用于输出文件时，会解码丢弃<code>position</code>对应时间码前的输入文件数据。</li>
-<li><code>position</code>可以是以秒为单位的数值或者 <code>hh:mm:ss[.xxx]</code>格式的时间值</li>
-</ul>
-</li>
-<li><p><code>-itsoffset offset (input)</code>:设置输入文件的时间偏移。<code>offset</code>必须采用时间持续的方式指定，即可以有<code>-</code>号的时间值(以秒为单位的数值或者 <code>hh:mm:ss[.xxx]</code>格式的时间值)。偏移会附加到输入文件的时间码上，意味着所指定的流会以时间码+偏移量作为最终输出时间码。</p>
-</li>
-<li><p><code>-timestamp date (output)</code>:设置在容器中记录时间戳。</p>
-<p>date 必须是一个时间持续描述格式，即</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">[(YYYY-MM-DD|YYYYMMDD)[T|t| ]]((HH:MM:SS[.m...]]])|(HHMMSS[.m...]]]))[Z]</span><br><span class="line">或者为</span><br><span class="line">now</span><br></pre></td></tr></table></figure>
-</li>
-<li><p><code>-metadata[:metadata_specifier] key=value (output,per-metadata)</code>：指定元数据中的键值对。</p>
-<p>流或者章的<code>metadata_specifier</code>可能值是可以参考文档中<code>-map_metadata</code>部分了解。</p>
-<p>简单的覆盖<code>-map_metadata</code>可以通过一个为空的选项实现，例如：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i in.avi -metadata title=&quot;my title&quot; out.flv</span><br></pre></td></tr></table></figure>
-<p>设置第1声道语言:</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i INPUT -metadata:s:a:0 language=eng OUTPUT</span><br></pre></td></tr></table></figure>
-</blockquote>
-</li>
-<li><p><code>-taget type (output)</code>：指定目标文件类型(vcd,svcd,dvd,dv,dv50)，类型还可以前缀一个<code>pal-</code>,<code>ntsc-</code>或者<code>film-</code>来设定更具体的标准。所有的格式选项(码率、编码、缓冲尺寸)都会自动设置，而你仅仅只需要设置目标类型：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i myfile.avi -taget vcd /tmp/vcd.mpg</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p>当然，你也可以指定一些额外的选项，只要你知道这些不会与标准冲突，如：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i myfile.avi -target vcd -bf 2 /tmp/vcd.mpg</span><br></pre></td></tr></table></figure>
-</blockquote>
-</li>
-<li><p><code>-dframes number (output)</code>:设定指定<code>number</code>数据帧到输出文件，这是<code>-frames:d</code>的别名。</p>
-</li>
-<li><p><code>frames[:stream_specifier] framecount (output,per-stream)</code>:在指定计数帧后停止写入数据。</p>
-</li>
-<li><p><code>-q[:stream_specifier] q (output,per-stream)</code></p>
-</li>
-<li><p><code>-qscale[:stream_specifier] q (output,per-stream)</code></p>
-<p>使用固定的质量品质(VBR)。用于指定<code>q|qscale</code>编码依赖。如果<code>qscale</code>没有跟<code>stream_specifier</code>则只适用于视频。其中值<code>q</code>取值在0.01-255,越小质量越好。</p>
-</li>
-<li><p><code>-filter[:stream_specifier] filtergraph (output,per-stream)</code>:创建一个由<code>filtergraph</code>指定的滤镜，并应用于指定流。</p>
-<p><code>filtergraph</code>是应用于流的滤镜链图，它必须有一个输入和输出，而且流的类型需要相同。在滤镜链图中，从<code>in</code>标签指定出输入，从<code>out</code>标签出输出。要了解更多语法，请参考<code>ffmpeg－filters</code>手册。</p>
-<p>参考<code>－filter_complex</code>选项以了解如何建立多个输入／输出的滤镜链图。</p>
-</li>
-<li><p><code>－filter_script［：stream_specifier］ filename (output，per－stream)</code>：这个选项类似于<code>－filter</code>，只是这里的参数是一个文件名，它的内容将被读取用于构建滤镜链图。</p>
-</li>
-<li><p><code>－pre［：stream_specifier］ preset_name (output，per－stream)</code>：指定预设名字的流(单个或者多个)。</p>
-</li>
-<li><p><code>－stats (global)</code>：输出编码过程／统计，这是系统默认值，如果你想禁止，则需要采用<code>－nostats</code>。</p>
-</li>
-<li><p><code>－progress url (global)</code>：发送友好的处理过程信息到<code>url</code>。处理过程信息是一种键值对(key=value)序列信息，它每秒都输出，或者在一次编码结束时输出。信息中最后的一个键值对表明了当前处理进度。</p>
-</li>
-<li><p><code>-stdin</code>:允许标准输入作为交互。在默认情况下除非标准输入作为真正的输入。要禁用标准输入交互，则你需要显式的使用<code>-nostdin</code>进行设置。禁用标准输入作为交互作用是有用的，例如FFmpeg是后台进程组，它需要一些相同的从shell开始的调用(<code>ffmpeg ... &lt;/dev/null</code>)。</p>
-</li>
-<li><p><code>-debug_ts (global)</code>：打印时间码信息，默认是禁止的。这个选项对于测试或者调试是非常有用的特性，或者用于从一种格式切换到另外的格式(包括特性)的时间成本分析，所以不用于脚本处理中。还可以参考<code>-fdebug ts</code>选项。</p>
-</li>
-<li><p><code>-attach filename (output)</code>：把一个文件附加到输出文件中。这里只有很少文件类型能被支持，例如使用Matroska技术为了渲染字幕的字体文件。附件作为一种特殊的流类型，所以这个选项会添加一个流到文件中，然后你就可以像操作其他流一样使用每种流选项。在应用本选项时，附件流须作为最后一个流(例如根据<code>-map</code>映射流或者自动映射时需要注意)。<strong>注意</strong>对于<code>Matroska</code>你也可以在元数据标签中进行类型设定： &gt; ffmpeg -i INPUT -attach DejaVuSans.ttf -metadata:s:2 mimetype=application/x-truetype-font out.mkv</p>
-</li>
-</ul>
-<p>(这时要访问到附件流，则就是访问输出文件中的第3个流)</p>
-<ul>
-<li><p><code>-dump_attachment[:stream_specifier] filename (input,per-stream)</code>：从输入文件中解出指定的附件流到文件filename： &gt; ffmpeg -dump_attachment:t:0 out.ttf -i INPUT</p>
-<p>如果想一次性把所有附件都解出来，则 &gt; ffmpeg -dump_attachment:t “” -i INPUT</p>
-<p>技术说明：附件流是作为编码扩展数据来工作的，所以其他流数据也能展开，而不仅仅是这个附件属性。</p>
-</li>
-<li><p><code>-noautorotate</code>：禁止自动依据文件元数据旋转视频。</p>
-</li>
-</ul>
-<h4 id="视频-video-选项"><a href="#视频-video-选项" class="headerlink" title="视频(video)选项"></a>视频(video)选项</h4><ul>
-<li><p><code>-vframes number (output)</code>：设置输出文件的帧数，是<code>-frames:v</code>的别名。</p>
-</li>
-<li><p><code>-r[:stream_specifier] fps (input/output,per-stream)</code>：设置帧率(一种Hz值，缩写或者分数值)。</p>
-<p>在作为输入选项时，会忽略文件中存储的时间戳和时间戳而产生的假设恒定帧率<code>fps</code>，即强制按设定帧率处理视频产生(快进/减缓效果)。这不像<code>-framerate</code>选项是用来让一些输入文件格式如image2或者v412(兼容旧版本的FFmpeg)等，要注意这一点区别，而不要造成混淆。</p>
-<p>作为输出选项时，会复制或者丢弃输入中个别的帧以满足设定达到<code>fps</code>要求的帧率。</p>
-</li>
-<li><p><code>-s[:stream_specifier] size (input/output,per-stream)</code>：设置帧的尺寸。</p>
-<p>当作为输入选项时，是私有选项<code>video_size</code>的缩写，一些文件没有把帧尺寸进行存储，或者设备对帧尺寸是可以设置的，例如一些采集卡或者raw视频数据。</p>
-<p>当作为输出选项是，则相当于<code>scale</code>滤镜作用在滤镜链图的最后。请使用<code>scale</code>滤镜插入到开始或者其他地方。</p>
-<p>数据的格式是<code>wxh</code>，即<code>宽度值X高度值</code>，例如<code>320x240</code>，(默认同源尺寸)</p>
-</li>
-<li><p><code>aspect[:stream_specifier] aspect (output,per-stream)</code>：指定视频的纵横比(长宽显示比例)。<code>aspect</code>是一个浮点数字符串或者<code>num:den</code>格式字符串(其值就是num/den)，例如”4:3”,”16:9”,”1.3333”以及”1.7777”都是常用参数值。</p>
-<p>如果还同时使用了<code>-vcodec copy</code>选项，它将只影响容器级的长宽比，而不是存储在编码中的帧纵横比。</p>
-</li>
-<li><p><code>-vn (output)</code>：禁止输出视频</p>
-</li>
-<li><p><code>-vcodec codec (output)</code>：设置视频编码器，这是<code>-codec:v</code>的一个别名。</p>
-</li>
-<li><p><code>-pass[:stream_specifier] n (output,per-stream)</code>:选择当前编码数(1或者2)，它通常用于2次视频编码的场景。第一次编码通常把分析统计数据记录到1个日志文件中(参考<code>-passlogfile</code>选项)，然后在第二次编码时读取分析以精确要求码率。在第一次编码时通常可以禁止音频，并且把输出文件设置为<code>null</code>，在windows和类unix分别是:</p>
-<blockquote>
-<p>ffmpeg -i foo.mov -c:v libxvid -pass 1 -an -f rawvideo -y NUL ffmpeg -i foo.mov -c:v libxvid -pass 1 -an -f rawvideo -y /dev/null</p>
-</blockquote>
-</li>
-<li><p><code>-passlogfile[:stream_specifier] prefix (output,per-stream)</code>：设置2次编码模式下日志文件存储文件前导，默认是”ffmepg2pass”，则完整的文件名就是”PREFIX-N.log”，其中的N是指定的输出流序号(对多流输出情况)</p>
-</li>
-<li><p><code>-vf filtergraph (output)</code>：创建一个<code>filtergraph</code>的滤镜链并作用在流上。它实为<code>-filter:v</code>的别名，详细参考<code>-filter</code>选项。</p>
-</li>
-</ul>
-<h4 id="高级视频选项"><a href="#高级视频选项" class="headerlink" title="高级视频选项"></a>高级视频选项</h4><ul>
-<li><p><code>-pix_fmt[:stream_specifier] format (input/output,per-stream)</code>：设置像素格式。使用<code>-pix_fmts</code>可以显示所有支持的像素格式。如果设置的像素格式不能被选中(启用)，则ffmpeg会输出一个警告和并选择这个编码最好(兼容)的像素格式。如果<code>pix_fmt</code>前面前导了一个<code>+</code>字符，ffmepg会在要求的像素格式不被支持时退出，这也意味着滤镜中的自动转换也会被禁止。如果<code>pix_fmt</code>是单独的<code>+</code>，则ffmpeg选择和输入(或者滤镜通道)一样的像素格式作为输出，这时自动转换也会被禁止。</p>
-</li>
-<li><p><code>-sws_flags flags (input/output)</code>:选择<code>SwScaler</code>放缩标志量。</p>
-</li>
-<li><p><code>-vdt n</code>：丢弃的门限设置。</p>
-</li>
-<li><p><code>-rc_override[:stream_specifier] override (output,per-stream)</code>:在特定时间范围内的间隔覆盖率，<code>override</code>的格式是”int\int\int”。其中前两个数字是开始帧和结束帧，最后一个数字如果为正则是量化模式，如果为负则是品质因素。</p>
-</li>
-<li><p><code>-ilme</code>：支持交错编码(仅MPEG-2和MPEG-4)。如果你的输入是交错的，而且你想保持交错格式，又想减少质量损失，则选此项。另一种方法是采用<code>-deinterlace</code>对输入流进行分离，但会引入更多的质量损失。</p>
-</li>
-<li><p><code>-psnr</code>：计算压缩帧的<code>PSNR</code></p>
-</li>
-<li><p><code>-vstats</code>：复制视频编码统计分析到日志文件<code>vstats_HHMMSS.log</code></p>
-</li>
-<li><p><code>-vstats_file file</code>:复制视频编码统计分析到<code>file</code>所指的日志文件中。</p>
-</li>
-<li><p><code>-top[:stream_specifier] n (output,per-stream)</code>: 指明视频帧数据描述的起点。<code>顶部=1/底部=0/自动=-1</code>(以往CRT电视扫描线模式)</p>
-</li>
-<li><p><code>-dc precision</code>：Intra_dc_precision值。</p>
-</li>
-<li><p><code>-vtag fourcc/tag (output)</code>:是<code>-tag:v</code>的别名，强制指定视频标签/fourCC (FourCC全称Four-Character Codes，代表四字符代码 (four character code), 它是一个32位的标示符，其实就是typedef unsigned int FOURCC;是一种独立标示视频数据流格式的四字符代码。)</p>
-</li>
-<li><p><code>-qphist (global)</code>：显示<code>QP</code>直方图。</p>
-</li>
-<li><p><code>-vbsf bitstream_filter</code>：参考<code>-bsf</code>以进一步了解。</p>
-</li>
-<li><p><code>-force_key_frames[:stream_specifier] time[,time...] (output,per-stream)</code> ：(见下)</p>
-</li>
-<li><p><code>-force_key_frames[:stream_specifier] expr:expr (output,per-stream)</code>：强制时间戳位置帧为关键帧，更确切说是从第一帧起每设置时间都是关键帧(即强制关键帧率)。</p>
-<p>如果参数值是以<code>expr:</code>前导的，则字符串<code>expr</code>为一个表达式用于计算关键帧间隔数。关键帧间隔值必须是一个非零数值。</p>
-<p>如果一个时间值是”<code>chapters</code> [delta]”则表示文件中从<code>delta</code>章开始的所有章节点计算以秒为单位的时间，并把该时间所指帧强制为关键帧。这个选项常用于确保输出文件中所有章标记点或者其他点所指帧都是关键帧(这样可以方便定位)。例如下面的选项代码就可以使“第5分钟以及章节chapters-0.1开始的所有标记点都成为关键帧”：</p>
-<blockquote>
-<p>-force_key_frames 0:05:00,chapters-0.1</p>
-</blockquote>
-<p>其中表达式<code>expr</code>接受如下的内容：</p>
-<ul>
-<li><p><code>n</code>：当前帧序数，从0开始计数</p>
-</li>
-<li><p><code>n_forced</code>：强制关键帧数</p>
-</li>
-<li><p><code>prev_forced_n</code>：之前强制关键帧数，如果之前还没有强制关键帧，则其值为<code>NAN</code></p>
-</li>
-<li><p><code>prev_forced_t</code>：之前强制关键帧时间，如果之前还没有强制关键帧则为<code>NAN</code></p>
-</li>
-<li><p><code>t</code>：当前处理到的帧对应时间。</p>
-<p>例如要强制每5秒一个关键帧：</p>
-<blockquote>
-<p>-force_key_frames expr:gte(t,n_forced*5)</p>
-</blockquote>
-<p>从13秒后每5秒一个关键帧：</p>
-<blockquote>
-<p>-force_key_frames expr:if(isnan(prev_forced_t),gte(t,13),gte(t,prev_forced_t+5))</p>
-</blockquote>
-<p><strong>注意</strong>设置太多强制关键帧会损害编码器前瞻算法效率，采用固定<code>GOP</code>选项或采用一些近似设置可能更高效。</p>
-</li>
-</ul>
-</li>
-<li><p><code>-copyinkf[:stream_specifier] (output,per-stream)</code>:流复制时同时复制非关键帧。</p>
-</li>
-<li><p><code>-hwaccel[:stream_specifier] hwaccel (input,per-stream)</code>：使用硬件加速解码匹配的流。允许的<code>hwaccel</code>值为：</p>
-<ul>
-<li><p><code>none</code>：没有硬件加速(默认值)</p>
-</li>
-<li><p><code>auto</code>：自动选择硬件加速</p>
-</li>
-<li><p><code>vda</code>：使用Apple的VDA硬件加速</p>
-</li>
-<li><p><code>vdpau</code>：使用VDPAU(Video Decode and Presentation API for Unix，类unix下的技术标准)硬件加速</p>
-</li>
-<li><p><code>dxva2</code>：使用DXVA2 (DirectX Video Acceleration，windows下的技术标准) 硬件加速。</p>
-<p>这个选项可能并不能起效果(它依赖于硬件设备支持和选择的解码器支持)</p>
-<p><strong>注意</strong>：很多加速方法(设备)现在并不比现代CPU快了，而且额外的<code>ffmpeg</code>需要拷贝解码的帧(从GPU内存到系统内存)完成后续处理(例如写入文件)，从而造成进一步的性能损失。所以当前这个选项更多的用于测试。</p>
-</li>
-</ul>
-</li>
-<li><p><code>-hwaccel_device:[:stream_specifier] hwaccel_device (input,per-stream)</code>：选择一个设备用于硬件解码加速。这个选项必须同时指定了<code>-hwaccel</code>才可能生效。它也依赖于指定的设备对于特定编码的解码加速支持性能。</p>
-<ul>
-<li><code>vdpau</code>：对应于<code>VDPAU</code>，在<code>X11</code>(类Unix)显示/屏幕 上的，如果这个选项值没有选中，则必须在<code>DISPLAY</code>环境变量中有设置。</li>
-<li><code>dxva2</code>：对应于<code>DXVA2</code>，这个是显示硬件(卡)的设备号，如果没有指明，则采用默认设备(对于多个卡时)。</li>
-</ul>
-</li>
-</ul>
-<h4 id="音频选项"><a href="#音频选项" class="headerlink" title="音频选项"></a>音频选项</h4><ul>
-<li><code>-aframes number (output)</code>：设置<code>number</code>音频帧输出，是<code>-frames:a</code>的别名</li>
-<li><code>-ar[:stream_specifier] freq (input/output,per-stream)</code>:设置音频采样率。默认是输出同于输入。对于输入进行设置，仅仅通道是真实的设备或者raw数据分离出并映射的通道才有效。对于输出则可以强制设置音频量化的采用率。</li>
-<li><code>-aq q (output)</code>：设置音频品质(编码指定为VBR)，它是<code>-q:a</code>的别名。</li>
-<li><code>-ac[:stream_specifier] channels (input/output,per-stream)</code>：设置音频通道数。默认输出会有输入相同的音频通道。对于输入进行设置，仅仅通道是真实的设备或者raw数据分离出并映射的通道才有效。</li>
-<li><code>-an (output)</code>：禁止输出音频</li>
-<li><code>-acode codec (input/output)</code>：设置音频解码/编码的编/解码器，是<code>-codec:a</code>的别名</li>
-<li><code>-sample_fmt[:stream_specifier] sample_fmt (output,per-stream)</code>:设置音频样例格式。使用<code>-sample_fmts</code>可以获取所有支持的样例格式。</li>
-<li><code>-af filtergraph (output)</code>：对音频使用<code>filtergraph</code>滤镜效果，其是<code>-filter:a</code>的别名，参考<code>-filter</code>选项。</li>
-</ul>
-<h4 id="高级音频选项"><a href="#高级音频选项" class="headerlink" title="高级音频选项"></a>高级音频选项</h4><ul>
-<li><code>-atag fourcc/tag (output)</code>：强制音频标签/fourcc。这个是<code>-tag:a</code>的别名。</li>
-<li><code>-absf bitstream_filter</code>：要深入了解参考<code>-bsf</code></li>
-<li><code>-guess_layout_max channels (input,per-stream)</code>:如果音频输入通道的布局不确定，则尝试猜测选择一个能包括所有指定通道的布局。例如：通道数是2，则<code>ffmpeg</code>可以认为是2个单声道，或者1个立体声声道而不会认为是6通道或者5.1通道模式。默认值是总是试图猜测一个包含所有通道的布局，用0来禁用。</li>
-</ul>
-<h4 id="字幕选项"><a href="#字幕选项" class="headerlink" title="字幕选项"></a>字幕选项</h4><ul>
-<li><code>-scodec codec (input/output)</code>：设置字幕解码器，是<code>-codec:s</code>的别名。</li>
-<li><code>-sn (output)</code>：禁止输出字幕</li>
-<li><code>-sbsf bitstream_filter</code>：深入了解请参考<code>-bsf</code></li>
-</ul>
-<h4 id="高级字幕选项"><a href="#高级字幕选项" class="headerlink" title="高级字幕选项"></a>高级字幕选项</h4><ul>
-<li><p><code>-fix_sub_duration</code>：修正字幕持续时间。对每个字幕根据接下来的数据包调整字幕流的时间常数以防止相互覆盖(第一个没有完下一个就出来了)。这对很多字幕解码来说是必须的，特别是DVB字幕，因为它在原始数据包中只记录了一个粗略的估计值，最后还以一个空的字幕帧结束。</p>
-<p>这个选项可能失败，或者出现夸张的持续时间或者合成失败，这是因为数据中有非单调递增的时间戳。</p>
-<p><strong>注意</strong>此选项将导致所有数据延迟输出到字幕解码器，它会增加内存消耗，并引起大量延迟。</p>
-</li>
-<li><p><code>-canvas_size size</code>：设置字幕渲染区域的尺寸(位置)</p>
-</li>
-</ul>
-<h4 id="高级选项"><a href="#高级选项" class="headerlink" title="高级选项"></a>高级选项</h4><ul>
-<li><p><code>-map [-]input_file_id[:stream_specifier][,sync_file_id[:stream_specifier]] | [linklabel] (output)</code>：设定一个或者多个输入流作为输出流的源。每个输入流是以<code>input_file_id</code>序数标记的输入文件和<code>input_stream_id</code>标记的流序号共同作用指明，它们都以0起始计数。如果设置了<code>sync_file_id:stream_specifier</code>，则把这个输入流作为同步信号参考。</p>
-<p>命令行中的第一个<code>-map</code>选项指定了输出文件中第一个流的映射规则(编号为0的流，0号流)，第二个则指定1号流的，以此类推。</p>
-<p>如果在流限定符前面有一个<code>-</code>标记则表明创建一个“负”映射，这意味着禁止该流输出，及排除该流。</p>
-<p>一种替代的形式是在复合滤镜中利用<code>[linklabel]</code>来进行映射(参看<code>-filter_complex</code>选项)。其中的<code>linklabel</code>必须是输出滤镜链图中已命名的标签。</p>
-<p>例子：映射第一个输入文件的所有流到输出文件：</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i INPUT -map 0 output</span><br></pre></td></tr></table></figure>
-<p>又如，如果在输入文件中有两路音频流，则这些流的标签就是”0:0”和”0:1”，你可以使用<code>-map</code>来选择某个输出，例如： &gt; ffmpeg -i INPUT -map 0:1 out.wav</p>
-<p>这将只把输入文件中流标签为”0:1”的音频流单独输出到out.wav中。</p>
-<p>再如，从文件a.mov中选择序号为2的流(流标签0:2)，以及从b.mov中选择序号为6的流(流标签1:6)，然后共同复制输出到out.mov需要如下写: </p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i a.mov -i b.mov -c copy -map 0:2 -map 1:6 out.mov</span><br><span class="line">选择所有的视频和第三个音频流则是:</span><br><span class="line">ffmpeg -i INPUT -map 0:v -map:a:2 OUTPUT</span><br><span class="line">选择所有的流除了第二音频流外的流进行输出是：</span><br><span class="line">ffmpeg -i INPUT -map 0 -map -0:a:1 OUTPUT</span><br><span class="line">选择输出英语音频流:</span><br><span class="line">ffmpeg -i INPUT -map 0:m:language:eng OUTPUT</span><br></pre></td></tr></table></figure>
-<p><strong>注意</strong>应用了该选项将自动禁用默认的映射。</p>
-</li>
-<li><p><code>-ignore_unknown</code>：如果流的类型未知则忽略，而不进行复制。</p>
-</li>
-<li><p><code>-copy_unknown</code>：复制类型未知的流。</p>
-</li>
-<li><p><code>-map_channel [input_file_id.stream_specifier.channel_id|-1][:output_file_id.stream_specifier]</code>:从输入文件中指定映射一个通道的音频到输出文件指定流。如果<code>output_file_id.stream_specifier</code>没有设置，则音频通道将映射到输出文件的所有音频流中。</p>
-<p>使用<code>-1</code>插入到<code>input_file_id.stream_specifier.chnnel_id</code>会映射一个静音通道</p>
-<p>例如<code>INPUT</code>是一个立体声音频文件，你可以分别选择两个音频通道(下面实际上对于输入是交换了2个音频通道顺序进行输出)： &gt; ffmpeg -i INPUT -map_channel 0.0.1 -map_channel 0.0.0 OUTPUT</p>
-<p>如果你想静音第一个通道，而只保留第二通道，则可使用: &gt; ffmpeg -i INPUT -map_channel -1 -map_channel 0.0.1 OUTPUT</p>
-<p>以<code>-map_channel</code>选项指定的顺序在输出文件中输出音频流通道布局，即第一个<code>-map_channel</code>对应输出中第一个音频流通道，第二个对应第二个音频流通道，以此类推(只有一个则是单声道，2个是立体声)。联合使用<code>-ac</code>与<code>-map_channel</code>，而且在输入的<code>-map_channel</code>与<code>-ac</code>不匹配(例如只有2个<code>-map_channel</code>，又设置了<code>-ac 6</code>)时将使指定音频流通道提高增益。</p>
-<p>你可以详细的对每个输入通道指派输出以分离整个输入文件，例如下面就把有<code>INPUT</code>文件中的两个音频分别输出到两个输出文件中(OUTPUT_CH0 和 OUTPUT_CH1 )： &gt; ffmpeg -i INPUT -map_channel 0.0.0 OUTPUT_CH0 -map_channel 0.0.1 OUTPUT_CH1</p>
-<p>下面的例子则把一个立体声音频的两个音频通道分离输出到两个相互独立的流(相当于两个单声道了)中(但还是放置在同一个输出文件中): &gt; ffmpeg -i stereo.wav -map 0:0 -map 0:0 -map_channel 0.0.0:0.0 -map_channel 0.0.1:0.1 -y out.ogg</p>
-<p><strong>注意</strong>当前一个输出流仅能与一个输入通道连接，既你不能实现利用<code>-map_channel</code>把多个输入的音频通道整合到不同的流中(从同一个文件或者不同文件)或者是混合它们成为单独的流，例如整合2个单声道形成立体声是不可能的。但是分离一个立体声成为2个独立的单声道是可行的。</p>
-<p>如果你需要类似的应用，你需要使用<code>amerge</code>滤镜，例如你需要整合一个媒体(这里是input.mkv)中的2个单声道成为一个立体声通道(保持视频流不变)，你需要采用下面的命令: &gt; ffmpeg -i input.mkv -filter_complex “[0:1] [0:2] amerge” -c:a pcm_s16le -c:v copy output.mkv</p>
-</li>
-<li><p><code>-map_metadata[:metadata_spec_out] infile[:metadata_spec_in] (output,per-metadata)</code>：在下一个输出文件中从<code>infile</code>读取输出元数据信息。<strong>注意</strong>这里的文件索引也是以0开始计数的，而不是文件名。参数<code>metadata_spec_in/out</code>指定的元数据将被复制，一个元数据描述可以有如下的信息块:</p>
-<ul>
-<li><p><code>g</code>:全局元数据，这些元数据将作用于整个文件</p>
-</li>
-<li><p><code>s[:stream_spec]</code>:每个流的元数据，<code>steam_spec</code>的介绍在<code>流指定</code>章节。如果是描述输入流，则第一个被匹配的流相关内容被复制，如果是输出元数据指定，则所有匹配的流相关信息被复制到该处。</p>
-</li>
-<li><p><code>c:chapter_index</code>:每个章节的元数据，<code>chapter_index</code>也是以0开始的章节索引。</p>
-</li>
-<li><p><code>p:program_index</code>：每个节目元数据，<code>program_index</code>是以0开始的节目索引</p>
-<p>如果元数据指定被省略，则默认是全局的。</p>
-<p>默认全局元数据会从第一个输入文件每个流每个章节依次复制(流/章节)，这种默认映射会因为显式创建了任意的映射而失效。一个负的文件索引就可以禁用默认的自动复制。</p>
-<p>例如从输入文件的第一个流复制一些元数据作为输出的全局元数据 &gt; ffmpeg -i in.ogg -map_metadata 0:s:0 out.mp3</p>
-<p>与上相反的操作，例如复制全局元数据给所有的音频流 &gt; ffmpeg -i in.mkv -map_metadata:s:a 0:g out.mkv</p>
-<p><strong>注意</strong>这里简单的<code>0</code>在这里能正常工作是因为全局元数据是默认访问的。</p>
-</li>
-</ul>
-</li>
-<li><p><code>-map_chapters input_file_index (output)</code>:从输入文件中复制由<code>input_file_index</code>指定的章节的内容到输出。如果没有匹配的章节，则复制第一个输入文件至少一章内容(第一章)。使用负数索引则禁用所有的复制。</p>
-</li>
-<li><p><code>-benchmark (global)</code>：在编码结束后显示基准信息。则包括CPU使用时间和最大内存消耗，最大内存消耗是不一定在所有的系统中被支持，它通常以显示为0表示不支持。</p>
-</li>
-<li><p><code>-benchmark_all (global)</code>:在编码过程中持续显示基准信息，则包括CPU使用时间(音频/视频 的 编/解码)</p>
-</li>
-<li><p><code>-timelimit duration (global)</code>:ffmpeg在编码处理了<code>duration</code>秒后退出。</p>
-</li>
-<li><p><code>-dump (global)</code>：复制每个输入包到标准输出设备</p>
-</li>
-<li><p><code>-hex (global)</code>:复制包时也复制荷载信息</p>
-</li>
-<li><p><code>-re (input)</code>：以指定帧率读取输入。通常用于模拟一个硬件设备，例如在直播输入流(这时是读取一个文件)。不应该在实际设备或者在直播输入中使用(因为这将导致数据包的丢弃)。默认<code>ffmpeg</code>会尽量以最高可能的帧率读取。这个选项可以降低从输入读取的帧率，这常用于实时输出(例如直播流)。</p>
-</li>
-<li><p><code>-loop_input</code>：循环输入流。当前它仅作用于图片流。这个选项主要用于FFserver自动化测试。这个选项现在过时了，应该使用<code>-loop 1</code>。</p>
-</li>
-<li><p><code>-loop_output number_of_times</code>：重复播放<code>number_of_times</code>次。这是对于GIF类型的动画(0表示持续重复而不停止)。这是一个过时的选项，用<code>-loop</code>替代。</p>
-</li>
-<li><p><code>-vsync parameter</code>：视频同步方式。为了兼容旧，常被设置为一个数字值。也可以接受字符串来作为描述参数值，其中可能的值是:</p>
-<ul>
-<li><p><code>0,passthrough</code>:每个帧都通过时间戳来同步(从解复用到混合)。</p>
-</li>
-<li><p><code>1，cfr</code>：帧将复制或者降速以精准达到所要求的恒定帧速率。</p>
-</li>
-<li><p><code>2，vfr</code>：个别帧通过他们的时间戳或者降速以防止2帧具有相同的时间戳</p>
-</li>
-<li><p><code>drop</code>：直接丢弃所有的时间戳，而是在混合器中基于设定的帧率产生新的时间戳。</p>
-</li>
-<li><p><code>-1，auto</code>：根据混合器功能在1或者2中选择，这是默认值。</p>
-<p><strong>注意</strong>时间戳可以通过混合器进一步修改。例如<code>avoid_negative_ts</code>被设置时。</p>
-<p>利用<code>-map</code>你可以选择一个流的时间戳作为凭据，它可以对任何视频或者音频 不改变或者重新同步持续流到这个凭据。</p>
-</li>
-</ul>
-</li>
-<li><p><code>-frame_drop_threshold parameter</code>：丢帧的阀值，它指定后面多少帧内可能有丢帧。在帧率计数时1.0是1帧，默认值是1.1。一个可能的用例是避免在混杂的时间戳或者需要增加精准时间戳的情况下确立丢帧率。</p>
-</li>
-<li><p><code>-async samples_per_second</code>：音频同步方式。”拉伸/压缩”音频以匹配时间戳。参数是每秒最大可能的音频改变样本。<code>-async 1</code>是一种特殊情况指只有开始时校正，后续不再校正。</p>
-<p><strong>注意</strong>时间戳还可以进一步被混合器修改。例如<code>avoid_negative_ts</code>选项被指定时</p>
-<p>已不推荐这个选项，而是用<code>aresample</code>音频滤波器代替。</p>
-</li>
-<li><p><code>-copyts</code>：不处理输入的时间戳，保持它们而不是尝试审核。特别是不会消除启动时间偏移值。</p>
-<p><strong>注意</strong>根据<code>vsync</code>同步选项或者特定的混合器处理流程(例如格式选项<code>avoid_negative_ts</code>被设置)输出时间戳会忽略匹配输入时间戳(即使这个选项被设置)</p>
-</li>
-<li><p><code>-start_at_zero</code>：当使用<code>-copyts</code>,位移输入时间戳作为开始时间0.这意味着使用该选项，同时又设置了<code>-ss</code>，例如<code>-ss 50</code>则输出中会从50秒开始加入输入文件时间戳。</p>
-</li>
-<li><p>```<br>-copytb mode</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">：指定当流复制时如何设置编码时间基准。</span><br><span class="line"></span><br></pre></td></tr></table></figure>
-<p>mode</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">  参数是一个整数值，可以有如下可能：</span><br><span class="line"></span><br><span class="line">  - `1`表示使用分离器时间基准，从分离器中复制时间戳到编码中。复制可变帧率视频流时需要避免非单调递增的时间戳。</span><br><span class="line">  - `0`表示使用解码器时间基准，使用解码器中获取的时间戳作为输出编码基准。</span><br><span class="line">  - `-1`尝试自动选择，只要能产生一个正常的输出，这是默认值。</span><br><span class="line"></span><br><span class="line">- `-shortest (output)`：完成编码时最短输入端。</span><br><span class="line"></span><br><span class="line">- `-dts_delta_threshold`：时间不连续增量阀值。</span><br><span class="line"></span><br><span class="line">- `-muxdelay seconds (input)`：设置最大 解复用-解码 延迟。参数是秒数值。</span><br><span class="line"></span><br><span class="line">- `-maxpreload seconds (input)`：设置初始的 解复用-解码延迟，参数是秒数值。</span><br><span class="line"></span><br><span class="line">- `-streamid output-stream-index:new-value (output)`:强制把输出文件中序号为output-stream-id的流命名为new-value的值。这对应于这样的场景：在存在了多输出文件时需要把一个流分配给不同的值。例如设置0号流为33号流，1号流为36号流到一个mpegts格式输出文件中(这相当于对流建立链接/别名)：</span><br><span class="line">  </span><br><span class="line">  &gt; ffmpeg -i infile -streamid 0:33 -streamid 1:36 out.ts</span><br><span class="line"></span><br><span class="line">- `-bsf[:stream_specifier] bitstream_filters (output,per-stream)`：为每个匹配流设置bit流滤镜。`bitstream_filters`是一个逗号分隔的bit流滤镜列表。可以使用`-bsfs`来获得当前可用的bit流滤镜。</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -i h264.mp4 -c:v copy -bsf:v h264_mp4toannexb -an out.h264 ffmpeg -i file.mov -an -vn -bsf:s mov2textsub -c:s copy -f rawvideo sub.txt</span><br><span class="line"></span><br><span class="line">- `-tag[:stream_specifier codec_tag (input/output,per-stream`：为匹配的流设置标签/fourcc。</span><br><span class="line"></span><br><span class="line">- `-timecode hh:mm:ssSEDff`:指定时间码，这里`SEP`如果是`:`则不减少时间码，如果是`;`或者`.`则可减少。</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -i input.mpg -timecode 01:02:03.04 -r 30000/1001 -s ntsc output.mpg</span><br><span class="line"></span><br><span class="line">- `-filter_complex filtergraph (global)`：定义一个复合滤镜，可以有任意数量的输入/输出。最简单的滤镜链图至少有一个输入和一个输出，且需要相同类型。参考`-filter`以获取更多信息(更有价值)。`filtergraph`用来指定一个滤镜链图。关于`滤镜链图的语法`可以参考`ffmpeg-filters`相关章节。</span><br><span class="line"></span><br><span class="line">  其中输入链标签必须对应于一个输入流。filtergraph的具体描述可以使用`file_index:stream_specifier`语法(事实上这同于`-map`)。如果`stream_specifier`匹配到了一个多输出流，则第一个被使用。滤镜链图中一个未命名输入将匹配链接到的输入中第一个未使用且类型匹配的流。</span><br><span class="line"></span><br><span class="line">  使用`-map`来把输出链接到指定位置上。未标记的输出会添加到第一个输出文件。</span><br><span class="line"></span><br><span class="line">  **注意**这个选项参数在用于`-lavfi`源时不是普通的输入文件。 &gt; ffmpeg -i video.mkv -i image.png -filter_complex &#x27;[0:v][1:v]overlay[out]&#x27; -map &#x27;[out]&#x27; out.mkv</span><br><span class="line"></span><br><span class="line">  这里`[0:v]`是第一个输入文件的第一个视频流，它作为滤镜的第一个(主要的)输入，同样，第二个输入文件的第一个视频流作为滤镜的第二个输入。</span><br><span class="line"></span><br><span class="line">  假如每个输入文件只有一个视频流，则我们可以省略流选择标签，所以上面的内容在这时等价于:</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -i video.mkv -i image.png -filter_complex &#x27;overlay[out]&#x27; -map &#x27;[out]&#x27; out.mkv</span><br><span class="line"></span><br><span class="line">  此外，在滤镜是单输出时我们还可以进一步省略输出标签，它会自动添加到输出文件，所以进一步简写为:</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -i video.mkv -i image.png -filter_complex &#x27;overlay&#x27; out.mkv</span><br><span class="line"></span><br><span class="line">  利用`lavfi`生成5秒的 红`color`(色块):</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -filter_complex &#x27;color=c=red&#x27; -t 5 out.mkv</span><br><span class="line"></span><br><span class="line">- `-lavfi filtergraph (global)`：定义一个复合滤镜，至少有一个输入和/或输出，等效于`-filter_complex`。</span><br><span class="line"></span><br><span class="line">- `-filter_complex_script filename (global)`：这个选项类似于`-filter_complex`，唯一不同就是它的参数是文件名，会从这个文件中读取复合滤镜的定义。</span><br><span class="line"></span><br><span class="line">- `-accurate_seek (input)`：这个选项会启用/禁止输入文件的精确定位(配合`-ss`)，它默认是启用的，即可以精确定位。需要时可以使用`-noaccurate_seek`来禁用，例如在复制一些流而转码另一些的场景下。</span><br><span class="line"></span><br><span class="line">- `-seek_timestamp (input)`：这个选项配合`-ss`参数可以在输入文件上启用或者禁止利用时间戳的定位。默认是禁止的，如果启用，则认为`-ss`选项参数是正式的时间戳，而不是由文件开始计算出来的偏移。这一般用于具有不是从0开始时间戳的文件，例如一些传输流(直播下)。</span><br><span class="line"></span><br><span class="line">- `-thread_queue_size size (input)`：这个选项设置可以从文件或者设备读取的最大排队数据包数量。对于低延迟高速率的直播流，如果不能及时读取，则出现丢包，所以提高这个值可以避免出现大量丢包现象。</span><br><span class="line"></span><br><span class="line">- `-override_ffserver (global)`:对`ffserver`的输入进行指定。使用这个选项`ffmpeg`可以把任意输入映射给`ffserver`并且同时控制很多编码可能。如果没有这个选项，则`ffmpeg`仅能根据`ffserver`所要求的数据进行传输。</span><br><span class="line"></span><br><span class="line">  这个选项应用场景是`ffserver`需要一些特性，但文件/设备不提供，这时可以利用`ffmpeg`作为中间处理环节控制后输出到`ffserver`到达所需要求。</span><br><span class="line"></span><br><span class="line">- `-sdp_file file (global)`：输出`sdp`信息到文件`file`。它会在至少一个输出不是`rtp`流时同时输出`sdp`信息。</span><br><span class="line"></span><br><span class="line">- ```</span><br><span class="line">  -discard (input)</span><br></pre></td></tr></table></figure>
-<p>：允许丢弃特定的流或者分离出的流上的部分帧，但不是所有的分离器都支持这个特性。</p>
-<ul>
-<li><code>none</code>：不丢帧</li>
-<li><code>default</code>：丢弃无效帧</li>
-<li><code>noref</code>：丢弃所有非参考帧</li>
-<li><code>bidir</code>：丢弃所有双向帧</li>
-<li><code>nokey</code>：丢弃所有非关键帧</li>
-<li><code>all</code>：丢弃所有帧</li>
-</ul>
-</li>
-<li><p><code>-xerror (global)</code>:在出错时停止并退出</p>
-</li>
-</ul>
-<p>作为一个特殊的例外，你可以把一个位图字幕(bitmap subtitle)流作为输入，它将转换作为同于文件最大尺寸的视频(如果没有视频则是720x576分辨率)。<strong>注意</strong>这仅仅是一个特殊的例外的临时解决方案，如果在<code>libavfilter</code>中字幕处理方案成熟后这样的处理方案将被移除。</p>
-<p>例如需要为一个储存在DVB-T上的MPEG-TS格式硬编码字幕，而且字幕延迟1秒： &gt; ffmpeg -i input.ts -filter_complex \ ‘[#0x2ef] setpts=PTS+1/TB [sub] ; [#0x2d0] [sub] overlay’ \ -sn -map ‘#0x2dc’ output.mkv</p>
-<p>(0x2d0, 0x2dc 以及 0x2ef 是MPEG-TS 的PIDs，分别指向视频、音频和字幕流，一般作为MPEG-TS中的0:0,0:3和0：7是实际流标签)</p>
-<h4 id="预设文件"><a href="#预设文件" class="headerlink" title="预设文件"></a>预设文件</h4><p>一个预设文件是选项/值对的序列(option=value)，每行都是一个选项/值对， 用于指定一系列的选项，而这些一般很难在命令行中指定(限于命令行的一些限制，例如长度限制)。以<code>#</code>开始的行是注释，会被忽略。一般<code>ffmpeg</code>会在目录树中检查<code>presets</code>子目录以获取预设文件。</p>
-<p>有两种类型的预设文件:ffpreset 和 avpreset。</p>
-<h5 id="ffpreset类型预设文件"><a href="#ffpreset类型预设文件" class="headerlink" title="ffpreset类型预设文件"></a>ffpreset类型预设文件</h5><p>采用<code>ffpreset</code>类型预设文件主要包含<code>vpre</code>、<code>apre</code>、<code>spre</code>和<code>fpre</code>选项。其中<code>fpre</code>选项的参数可以代替预设的名称作为输入预设文件名，以用于任何一种编码格式。对于<code>vpre</code>、<code>apre</code>和<code>spre</code>选项参数会指定一个预设定文件用于当前编码格式以替代(作为)同类项的预订选项。</p>
-<p>选用预设文件传递<code>vpre</code>、<code>apre</code>和<code>spre</code>的参数<code>arg</code>有下面一些搜索应用规则：</p>
-<ul>
-<li>将在目录<code>$FFMPEG_DATADIR</code>(如果设置了)和<code>$HOME/.ffmpeg</code>目录和配置文件中定义的数据目录(一般是<code>PREFIX/share/ffmpeg</code>)，以及<code>ffpresets</code>所在的执行文件目录下ffmpeg搜索对应的预定义文件<code>arg.ffpreset</code>，例如参数是<code>libvpx-1080p</code>,则对应于文件<code>libvpx-1080p.ffpreset</code></li>
-<li>如果没有该文件，则进一步在前述目录下搜索<code>codec_name-arg.ffpreset</code>文件，如果找到即应用。例如选择了视频编码器<code>-vcodec libvpx</code>和<code>-vpre 1080p</code>则对应的预设文件名是<code>libvpx-1080p.ffpreset</code></li>
+      </footer>
+  </article>
+  
+  
+  
+
+      
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h2 class="post-title" itemprop="name headline">
+          
+            <a href="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/" class="post-title-link" itemprop="url">YOLOv6 A Single-Stage Object Detection Framework for Industrial  Applications</a>
+        </h2>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2023-06-18 17:03:19 / 修改时间：17:04:07" itemprop="dateCreated datePublished" datetime="2023-06-18T17:03:19+08:00">2023-06-18</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+          <h1 id="YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications"><a href="#YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications" class="headerlink" title="YOLOv6: A Single-Stage Object Detection Framework for Industrial  Applications"></a>YOLOv6: A Single-Stage Object Detection Framework for Industrial  Applications</h1><h2 id="YOLOv6发现以往的模型存在以下问题："><a href="#YOLOv6发现以往的模型存在以下问题：" class="headerlink" title="YOLOv6发现以往的模型存在以下问题："></a>YOLOv6发现以往的模型存在以下问题：</h2><ul>
+<li>来自RepVGG的重参数化是一种尚未在检测中得到很好利用的优越技术。我们还注意到，对于RepVGG块，简单的模型缩放变得不切实际，因此我们认为小型和大型网络之间的网络设计的优雅一致性是不必要的。对于小型网络，简单的单路径架构是更好的选择，但对于大型模型，单路径架构的参数和计算成本的指数增长使其不可行</li>
+<li>基于重参数化的检测器的量化也需要细致的处理，否则在训练和推理过程中由于其异构配置而导致的性能下降将难以处理。</li>
+<li>以前的工作往往不太关注部署，其延迟通常在V100等高成本机器上进行比较。当涉及到真正的服务环境时，存在硬件差距。通常，像Tesla T4这样的低功耗gpu成本更低，并且提供相当好的推理性能。</li>
+<li>考虑到架构差异，标签分配和损失函数设计等高级领域特定策略需要进一步验证;</li>
+<li>对于部署，我们可以容忍训练策略的调整，以提高精度性能，但不增加推理成本，例如知识蒸馏。</li>
 </ul>
-<h5 id="avpreset类型预设文件"><a href="#avpreset类型预设文件" class="headerlink" title="avpreset类型预设文件"></a>avpreset类型预设文件</h5><p><code>avprest</code>类型预设文件以<code>pre</code>选项引入。他们工作方式类似于<code>ffpreset</code>类型预设文件(即也是选项值对序列)，但只对于特定编码器选项，因此一些 选项值 对于不适合的编码器是无效的。根据<code>pre</code>的参数<code>arg</code>查找预设文件基于如下规则：</p>
-<ul>
-<li>首先搜索<code>$AVCONV_DATADIR</code>所指目录(如果定义了)，其次搜索<code>$HOME/.avconv</code>目录，然后搜索执行文件所在目录(通常是<code>PREFIX/share/ffmpeg</code>)，在其下查找<code>arg.avpreset</code>文件。第一个匹配的文件被应用。</li>
-<li>如果查找不到，如果还同步还指定了编码(如<code>-vcodec libvpx</code>)再以前面目录顺序，以<code>codec_name-arg.avpreset</code>再次查找文件。例如对于有选项<code>-vcodec libvpx</code>和<code>-pre 1080p</code>将搜索<code>libvpx-1080p.avpreset</code></li>
-<li>如果还没有找到，将在当前目录下搜索<code>arg.avpreset</code>文件</li>
+<h2 id="本文的主要工作"><a href="#本文的主要工作" class="headerlink" title="本文的主要工作"></a>本文的主要工作</h2><ul>
+<li>我们重新设计了一系列不同规模的网络，为不同场景的工业应用量身定制。</li>
+<li>不同规模的架构不同，以实现最佳的速度和精度权衡，其中小模型具有简单的单路径主干，而大模型构建在高效的多分支块上。</li>
+<li>我们为YOLOv6注入了一种自蒸馏策略，同时执行分类任务和回归任务。同时，我们动态调整来自老师和标签的知识，帮助学生模型在所有训练阶段更有效地学习知识。</li>
+<li>我们广泛验证了标签分配、损失函数和数据增强技术的先进检测技术，并有选择地采用它们来进一步提高性能。</li>
+<li>我们在RepOptimizer和通道式蒸馏的帮助下，对检测的量化方案进行了改革，这导致了一个永远快速和准确的检测器，在batchsize大小为32时，具有43.3%的COCO AP和869 FPS的吞吐量。</li>
 </ul>
-<h3 id="例子"><a href="#例子" class="headerlink" title="例子"></a>例子</h3><h4 id="视频和音频抓取"><a href="#视频和音频抓取" class="headerlink" title="视频和音频抓取"></a>视频和音频抓取</h4><p>如果你指定了输入格式和设备，ffmpeg可以直接抓取视频和音频：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -f oss -i /dev/dsp -f video4linux2 -i /dev/video0 /tmp/out.mpg</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p>或者采用ALSA音频源(单声道，卡的id是1)替代OSS:</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -f alsa -ac 1 -i hw:1 -f video4linux2 -i /dev/video0 /tmp/out.mpg</span><br></pre></td></tr></table></figure>
-</blockquote>
-<p><strong>注意</strong>对于不同的视频采集卡，你必须正确激活视频源和通道，例如Gerd Knorr的<code>xawtv</code>。你还需要设置正确的音频记录层次和混合模式。只有这样你才能采集到想要的视音频。</p>
-<h4 id="X11显示的抓取"><a href="#X11显示的抓取" class="headerlink" title="X11显示的抓取"></a>X11显示的抓取</h4><p>可以通过ffmpeg直接抓取X11显示内容：</p>
-<blockquote>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -f x11grab -video_size cif -framerate 25 -i :0.0+10，20 /tmp/out.mpg</span><br></pre></td></tr></table></figure>
-<p><code>0.0</code>是X11服务的显示屏幕号(display.screen)，定义于<code>DISPLAY</code>环境变量。10是水平偏移，20是垂直偏移</p>
-</blockquote>
-<h4 id="视频和音频文件格式转换"><a href="#视频和音频文件格式转换" class="headerlink" title="视频和音频文件格式转换"></a>视频和音频文件格式转换</h4><p>任何支持的文件格式或者协议都可以作为ffmpeg输入。例如：</p>
-<ul>
-<li><p>你可以使用YUV文件作为输入</p>
-<blockquote>
-<p>ffmpeg -i /tmp/test%d.Y /tmp/out.mpg</p>
-</blockquote>
-<p>这里可能是这样一些文件</p>
-<blockquote>
-<p>/tmp/test0.Y, /tmp/test0.U, /tmp/test1.V, /tmp/test1.Y, /tmp/test1.U, /tmp/test1.V, etc…</p>
-</blockquote>
-<p>这里Y还有对应分辨率的2个关联文件U和V。这是一种raw数据文件而没有文件头，它可以被所有的视频解码器生成。你必须利用<code>-s</code>对它指定一个尺寸而不是让ffmpeg去猜测。</p>
-</li>
-<li><p>你可以把raw YUV420P文件作为输入：</p>
-<blockquote>
-<p>ffmpeg -i /tmp/test/yuv /tmp/out.avi</p>
-</blockquote>
-<p>test.yuv 是一个包含raw YUV通道数据的文件。每个帧先是Y数据，然后是U和V数据。</p>
-</li>
-<li><p>也可以输出YUV420P类型的文件</p>
-<blockquote>
-<p>ffmpeg -i mydivx.avi hugefile.yuv</p>
-</blockquote>
-</li>
-<li><p>可以设置一些输入文件和输出文件</p>
-<blockquote>
-<p>ffmpeg -i /tmp/a.wav -s 640x480 -i /tmp/a.yuv /tmp/a.mpg</p>
-</blockquote>
-<p>这将转换一个音频和raw的YUV视频到一个MPEG文件中</p>
-</li>
-<li><p>你也可以同时对音频或者视频进行转换</p>
-<blockquote>
-<p>ffmpeg -i /tmp/a.wav -ar 22050 /tmp/a.mp2</p>
-</blockquote>
-<p>这里把a.wav转换为MPEG音频，同时转换了采样率为22050HZ</p>
-</li>
-<li><p>你也可以利用映射同时编码多个格式作为输入或者输出：</p>
-<blockquote>
-<p>ffmpeg -i /tmp/a.wav -map 0:a -b:a 64k /tmp/a.mp2 -map 0:a -b:a 128k /tmp/b.mp2</p>
-</blockquote>
-<p>这将同时把a.wav以64k码率输出到a.mp2，以128k码率输出到b.mp2。 “-map file:index”指定了对于每个输出是连接到那个输入流的。</p>
-</li>
-<li><p>还可以转换解码VOBs：</p>
-<blockquote>
-<p>ffmpeg -i snatch_1.vob -f avi -c:v mpeg4 -b:v 800k -g 300 -bf 2 -c:a libmp3lame -b:a 128k snatch.avi</p>
-</blockquote>
-<p>这是一个典型的DVD抓取例子。这里的输入是一个VOB文件，输出是MPEG-4编码视频以及MP3编码音频的AVI文件。<strong>注意</strong>在这个命令行里使用了B-frames（B帧）是兼容DivX5的，GOP设置为300则意味着有一个内帧是适合29.97fps的输入视频。此外，音频流采用MP3编码需要运行LAME支持，它需要通过在编译是设置<code>--enable-libmp3lame</code>。这种转换设置在多语言DVD抓取转换出所需的语言音频时特别有用。</p>
-<p><strong>注意</strong>要了解支持那些格式，可以采用<code>ffmpeg -formats</code></p>
-</li>
-<li><p>可以从一个视频扩展生成图片（序列），或者从一些图片生成视频：</p>
+<h2 id="使用的方法-amp-模型的具体结构"><a href="#使用的方法-amp-模型的具体结构" class="headerlink" title="使用的方法&amp;模型的具体结构"></a>使用的方法&amp;模型的具体结构</h2><p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/b55cad01c6aa466c8df35624466f1a49.png" alt="img"></p>
 <ul>
-<li><p>导出图片</p>
-<blockquote>
-<p>ffmpeg -i foo.avi -r 1 -s WxH -f image2 foo-%03d.jpeg</p>
-</blockquote>
-<p>这将每秒依据foo.avi生成一个图片命名为foo-001.jpeg ,foo-002.jpeg以此类推,图片尺寸是WxH定义的值。</p>
-<p>如果你想只生成有限数量的视频帧，你可以进一步结合<code>-vframes</code>或者<code>-t</code>或者<code>-ss</code>选项实现。</p>
-</li>
-<li><p>从图片生成视频</p>
-<blockquote>
-<p>ffmpeg -f image2 -framerate 12 -i foo-%03d.jpeg -s WxH foo.avi</p>
-</blockquote>
-<p>这里的语法<code>foo-%03d.jpeg</code>指明使用3位数字来补充完整文件名，不足3位以0补齐。这类似于C语言的printf函数中的格式，但只接受常规整数作为部分。</p>
-<p>当导入一个图片序列时，<code>-i</code>也支持shell的通配符模式(内置的)，这需要同时选择image2的特性选项<code>-pattern_type glob</code>：例如下面就利用了所有匹配<code>foo-*.jpeg</code>的图片序列创建一个视频：</p>
-<blockquote>
-<p>ffmpeg -f image2 -pattern_type glob -framerate 12 -i ‘foo-*.jpeg’ -s WxH foo.avi</p>
-</blockquote>
-</li>
+<li><strong>网络设计</strong>:<ul>
+<li><strong>backbone</strong>:与其他主流架构相比，我们发现在相似的推理速度下，RepVGG骨干网在<strong>小型网络</strong>中具有更强的特征表示能力，但由于参数和计算成本的爆炸式增长，它难以扩展以获得更大的模型。在这方面，我们将RepBlock作为我们小型网络的构建块。对于<strong>大型模型</strong>，我们修改了一个更有效的CSP块，命名为CSPStackRep块。</li>
+<li><strong>neck</strong>:YOLOv6的颈部在YOLOv4和YOLOv5之后采用PAN拓扑。我们用RepBlocks或CSPStackRep Blocks增强颈部以获得RepPAN。</li>
+<li><strong>head</strong>:我们简化了解耦头，使其更高效，称为高效解耦头。</li>
 </ul>
 </li>
-<li><p>你可以把很多相同类型的流一起放到一个输出中：</p>
-<blockquote>
-<p>ffmpeg -i test1.avi -i test2.avi -map 1:1 -map 1:0 -map 0:1 -map 0:0 -c copy -y test12.nut</p>
-</blockquote>
-<p>这里最后输出文件test12.nut包括了4个流，其中流的顺序完全根据前面<code>-map</code>的指定顺序。</p>
-</li>
-<li><p>强制为固定码率编码(CBR)输出视频：</p>
-<blockquote>
-<p>ffmpeg -i myfile.avi -b 4000k -minrate 4000k -maxrate 4000k -bufsize 1835k out.m2v</p>
-</blockquote>
-</li>
-<li><p>使用<code>lambda</code>工具的4个选项<code>lmin</code>，<code>lmax</code>，<code>mblmin</code>以及<code>mblmax</code>使你能更简单的从<code>q</code>转换到<code>QP2LAMBDA</code>:</p>
-<blockquote>
-<p>ffmpeg -i src.ext -lmax 21*QP2LAMBDA dst.ext</p>
-</blockquote>
-</li>
+<li><strong>标签分配</strong>:我们通过大量实验评估了标签分配策略的最新进展，结果表明<strong>TAL</strong>更有效，更适合训练。</li>
+<li><strong>损失函数</strong>:主流无锚目标检测器的损失函数包含分类损失，anchor回归损失和对象损失。对于每一种损失，我们系统地用所有可用的技术进行实验，最终选择<strong>VariFocal loss</strong>作为我们的分类损失，<strong>SIoU/GIoU loss</strong>作为我们的回归损失</li>
+<li><strong>行业便利的改进</strong>:我们引入了额外的常见做法和技巧来提高性能，包括<strong>自蒸馏</strong>和<strong>更多的训练epoch</strong>。分类和anchor回归分别由教师模型监督。由于DFL，anchor回归的精馏成为可能。此外，通过余弦衰减动态衰减软、硬标签信息的比例，帮助学员在训练过程中有选择地获取不同阶段的知识。此外，我们在评估中遇到了没有增加额外灰色边界的性能受损问题，对此我们提供了一些补救措施。</li>
+<li><strong>量化和部署</strong>:为了解决基于再参数化的量化模型的性能下降问题，我们使用<strong>RepOptimizer</strong>训练YOLOv6，以获得ptq友好的权重。我们进一步采用QAT与通道智能蒸馏和图优化来追求极致的性能。</li>
 </ul>
+<h2 id="Network-Design"><a href="#Network-Design" class="headerlink" title="Network Design"></a>Network Design</h2><p>​    单阶段物体探测器通常由以下几个部分组成：主干、颈部和头部。主干网主要决定了特征表示能力，而其设计由于计算成本较大，对推理效率的影响很大。颈部用于将低级的物理特征与高级的语义特征进行聚合，然后在所有层次上建立金字塔形特征映射。头部由几个卷积层组成，并根据颈部组装的多层次特征来预测动态检测结果。从结构的角度来看，它可以分为基于锚头和无锚头，或者是参数耦合头和参数解耦头。 </p>
+<p>​    在YOLOv6中，基于硬件友好的网络设计的原则，我们提出了两个缩放的可再参数化的骨干和颈，以适应不同大小的模型，以及一个有效的解耦与混合通道策略的头。YOLOv6的整体架构如图所示。</p>
+<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/b55cad01c6aa466c8df35624466f1a49-16867300125633.png" alt="img"></p>
+<h3 id="Backbone"><a href="#Backbone" class="headerlink" title="Backbone"></a><strong>Backbone</strong></h3><p>​    多分支网络通常比单路径网络具有更好的分类性能，但它往往伴随着并行性的降低，并导致推理延迟的增加。相反，像VGG这样的普通单路网络具有高并行性和更少的内存占用的优点，从而获得了更高的推理效率。最近在RepVGG中，提出了一种结构重参数化方法，将训练时间的多分支拓扑与推理时间的平面架构解耦，以实现更好的速度精度权衡。</p>
+<p>​     <strong>受上述工作的启发，我们设计了一个高效的可重新参数化的骨干，称为EffificientRep。对于小模型，训练阶段骨干的主要成分是RepBlock</strong>，如下图所示在推理阶段，每个RepBlock转换为3×3卷积层（表示为RepConv），具有ReLU激活函数，3×3卷积在主流gpu和cpu上得到了高度优化，并且它具有更高的计算密度。因此，高效的代表骨干网充分利用了硬件的计算能力，从而显著降低了推理延迟，同时提高了表示能力。</p>
+<p>​    然而，<strong>随着模型容量的进一步扩大，单路网络中的计算成本和参数数量呈指数级增长。</strong>为了更好地实现计算负担和准确性之间的权衡，我们修改了CSPStackRep块来构建中大型网络的主干。如图所示，<strong>CSPStackRepBlock</strong>由三个1×1卷积层和一堆由两个RepVGGBlock或RepConv（分别在训练或推理时）组成，具有残差连接。此外，采用跨阶段部分（CSP）连接，在不增加计算成本的情况下提高性能。</p>
+<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/17095d3e9d894251b1542f04500d7653.png" alt="img"></p>
+<h3 id="Neck"><a href="#Neck" class="headerlink" title="Neck"></a><strong>Neck</strong></h3><p>​    <strong>采用YOLO v4和YOLO v5的PAN结构，将RepBlock（用于小型模型）或CSPStackRep块替换为YOLOv5中使用的CSPBlock)，</strong>并相应地调整宽度和深度。YOLOv6的颈部被表示为Rep-PAN。 </p>
+<h3 id="Head"><a href="#Head" class="headerlink" title="Head"></a><strong>Head</strong></h3><p>​    <strong>Effificient decoupled head：</strong> YOLOv5的检测头是一个耦合头，分类和定位分支共享参数，而FCOS和YOLOX的检测头将两个分支解耦，并在每个分支中额外引入两个3×3卷积层来提高性能。在YOLOv6中，我们采用了一种混合信道策略来构建一个更有效的解耦头。具体来说，我们将中间的3个3×3卷积层的数量减少到只有一个。头部的宽度由主干和颈部的宽度乘数共同缩放。这些修改进一步降低了计算成本，以实现更低的推理延迟。 </p>
+<p>​    <strong>Achor-free：</strong> Achor-free检测头因其更好的泛化能力和解码预测结果的简单性而脱颖而出。其后处理的时间成本大大降低了。无锚点探测器有两种类型的无锚点检测器：基于锚点的和基于关键点的。<strong>在YOLOv6中，我们采用了基于锚点的范式，其框回归分支实际上预测了从锚点到边界框四边的距离。</strong></p>
+<h3 id="Label-Assignment"><a href="#Label-Assignment" class="headerlink" title="Label Assignment"></a>Label Assignment</h3><p>​    标签分配负责在训练阶段为预定义的锚点分配标签。先前的工作提出了各种标签分配策略，从简单的基于iou的策略和内部地面真值方法到其他更复杂的方案。</p>
+<p>​    <strong>SimOTA</strong> OTA认为目标检测中的标签分配是一个最优的传输问题。它从全局的角度为每个地面真实对象定义了正/负的训练样本。SimOTA是OTA的一个简化版本，它减少了额外的超参数并保持了性能。在YOLOv6的早期版本中，使用了SimOTA作为标签分配方法。然而，在实践中，<strong>我们发现引入SimOTA会减慢培训过程。而且经常陷入不稳定的训练。因此，我们希望有一个替代SimOTA。</strong> </p>
+<p>​    <strong>Task alignment learning</strong> 任务对齐学习（TAL）首次在TOOD中提出，其中设计了一个统一的分类分数和预测框质量的统一度量。用此度量替换IoU以分配对象标签。在一定程度上，缓解了任务（分类和预测框回归）的错位问题。TOOD的另一个主要贡献是关于任务状头（T-head）。T-head堆栈卷积层来构建交互式特性，在此之上使用了任务对齐预测器（TAP）。PP-YOLOE用轻量级ESE注意取代T-head的层注意，形成ET-head。<strong>然而，我们发现ET-head会恶化我们模型的推理速度，它没有精度增益。因此，我们保留了我们的高效解耦头的设计。</strong></p>
+<p>​    <strong>此外，我们观察到TAL比SimOTA带来更多的性能改善，稳定训练。因此，我们在YOLOv6中采用TAL作为默认的标签分配策略。</strong></p>
+<h3 id="Loss-Functions"><a href="#Loss-Functions" class="headerlink" title="Loss Functions"></a>Loss Functions</h3><p>​    对象检测包含两个子任务：分类和定位，对应于两个损失函数：分类损失和预测框回归损失。对于每个子任务，近年来都有各种不同的损失函数。在本节中，我们将介绍这些损失函数，并描述我们如何为YOLOv6选择最佳的损失函数。 </p>
+<h4 id="Classifification-Loss"><a href="#Classifification-Loss" class="headerlink" title="Classifification Loss"></a><strong>Classifification Loss</strong></h4><p>​     提高分类器的性能是优化检测器的关键部分。Focal Loss改进了传统的交叉熵损失，解决了正负样本或硬易样本之间的类不平衡问题。为了解决训练和推理之间质量估计和分类使用不一致的问题，Quality Focal Loss（QFL）进一步扩展了Focal Loss，并将分类评分和定位质量联合表示出来进行分类监督。<strong>而VariFocal Loss (VFL)来源于Focal Loss，但它不对称地处理正样本和负样本。通过考虑不同重要程度的正样本和负样本，它平衡了来自两个样本的学习信号。Poly Loss将常用的分类损失分解为一系列加权多项式基。它在不同的任务和数据集上调整多项式系数，通过实验证明了其优于交叉熵损失和焦点损失。</strong></p>
+<p>​    我们评估了YOLOv6上的所有这些高级分类损失，并最终采用了VFL 。</p>
+<h4 id="Box-Regression-Loss"><a href="#Box-Regression-Loss" class="headerlink" title="Box Regression Loss"></a>Box Regression Loss</h4><p>​    预测框回归损失提供了重要的学习信号精确的定位边界框。L1损失是早期工作中原始的预测框回归损失。逐渐地，各种设计良好的预测框回归损失已经出现，如iou系列损失和概率损失。</p>
+<p>​    <strong>IoU-series Loss</strong> IoU损失回归了一个预测框作为一个整体单位的四个边界。由于它与评价度量的一致性，它已被证明是有效的。IoU有许多变体，如GIoU、DIoU、CIoU、α-IoU和SIoU等，形成了相关的损失函数。我们用GIoU、CIoU和SIoU进行了实验。而SIOU应用于YOLOv6-N和YOLOv6-T，而其他的则使用GIoU。</p>
+<p>​    <strong>Probability Loss</strong>  Distribution Focal Loss<strong>（DFL）将预测框位置的基本连续分布简化为一个离散的概率分布。</strong>它在不引入任何其他强先验的情况下考虑数据中的模糊性和不确定性，有助于提高<strong>预测框</strong>的定位精度，特别是在地面-真值盒的边界模糊的情况下。在DFL的基础上，DFLv2 开发了一个轻量级的子网络，以利用分布统计数据与真实定位质量之间的密切相关性，进一步提高了检测性能。<strong>然而，DFL通常比一般的预测框回归多输出17×的回归值，这导致了大量的开销。额外的计算成本明显地阻碍了对小模型的训练。而DFLv2则由于额外的子网络而进一步增加了计算负担。</strong>在我们的实验中，DFLv2在我们的模型上带来了与DFL相似的性能增益。因此，我们只在YOLOv6-M/L中采用DFL。实验细节见第3.3.3节。</p>
+<h4 id="Object-Loss"><a href="#Object-Loss" class="headerlink" title="Object Loss"></a><strong>Object Loss</strong></h4><p>​    Object loss首先是在FCOS中提出的，以降低低质量的边界框的得分，以便在后处理中可以过滤掉它们。它也被用于YOLOX来加速收敛和提高网络精度。作为像FCOS和YOLOX这样的无锚框架，我们尝试在YOLOv6中使用ObjectLoss。不幸的是，它并没有带来许多积极的影响。</p>
+<h3 id="Industry-handy-improvements"><a href="#Industry-handy-improvements" class="headerlink" title="Industry-handy improvements"></a>Industry-handy improvements</h3><h4 id="More-training-epochs"><a href="#More-training-epochs" class="headerlink" title="More training epochs"></a><strong>More training epochs</strong></h4><p>​    实验结果表明，训练时间越长，探测器就具有进步的性能。<strong>我们将训练从300个epochs延长到400个epochs，以达到更好的收敛性。</strong></p>
+<h4 id="Self-distillation"><a href="#Self-distillation" class="headerlink" title="Self-distillation"></a><strong>Self-distillation</strong></h4><p>​    为了进一步提高模型的准确性，同时不引入太多额外的计算成本，<strong>我们采用经典的知识蒸馏技术来最小化教师模型和学生模型之间预测的KL散度。</strong>我们限制教师模型是预先训练的学生模型，因此我们称之为自我蒸馏。请注意，kl-散度通常用于度量数据分布之间的差异。然而，在目标检测中有两个子任务，其中只有分类任务可以直接利用基于kl-散度的知识精馏。由于DFL损失[20]，我们也可以在预测框回归上执行它。知识蒸馏损失可以表述为： </p>
+<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/9ef8cfa56b40480e94f5ce1b36eb5875.png" alt="img"></p>
+<p>​    其中<img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/70e48551855e4598af43ca460c462046.png" alt="img">和<img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/956c6028740d47c398f7ef336d6e5ffb.png" alt="img">分别为教师模型和学生模型的类别预测，因此<img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/2421a4e7d6da4247af9d11f7fefe46dc.png" alt="img">和<img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/7628f443735a4c1e9c0a75518ea107e7.png" alt="img">为预测框回归预测。总体损失函数现在可以表述为： </p>
+<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/1879de4162f44bb080647818d6350ce4.png" alt="img"></p>
+<p>​    其中，Ldet是用预测和标签计算出的检测损失。引入超参数α来平衡两个损失。在训练的早期阶段，从教师模型那里得到的软标签更容易学习。随着训练的继续，学生模型的表现将与教师模型相匹配，这样硬标签将对学生更有帮助。在此基础上，我们将余弦权值衰减应用于α，以动态调整来自教师的硬标签和软标签的信息。</p>
+<h4 id="Gray-border-of-images"><a href="#Gray-border-of-images" class="headerlink" title="Gray border of images"></a><strong>Gray border of images</strong></h4><p>​    我们注意到，<strong>在评估YOLOv5 和YOLOv7 实现中的模型性能时，在每个图像周围都设置了一个半步幅的灰色边界。</strong>虽然没有添加任何有用的信息，但它有助于检测图像边缘附近的物体。这个技巧也适用于YOLOv6。 <strong>然而，额外的灰度像素明显降低了推理速度。如果没有灰色边框，YOLOv6的性能就会恶化</strong>。我们假设该问题与Mosaic augmentation中的灰色边界填充有关。实验在关闭mosaic增强在最后的epochs进行验证。在这方面，我们改变了灰度边界的面积，并将具有灰度边界的图像的大小直接调整为目标图像的大小。结合这两种策略，我们的模型可以保持甚至提高性能，而不降低推理速度。</p>
+<h3 id="Quantization-and-Deployment"><a href="#Quantization-and-Deployment" class="headerlink" title="Quantization and Deployment"></a><strong>Quantization and Deployment</strong></h3><p>​    对于工业部署，通常的做法是采用量化以进一步加快运行时，而不会影响太多性能。训练后量化（PTQ）直接用一个小的校准集对模型进行量化。而量化感知训练（QAT）进一步提高了对训练集的访问的性能，这通常与蒸馏联合使用。<strong>然而，由于在YOLOv6中大量使用重新参数化块，以前的PTQ技术不能产生高性能，而在训练和推理过程中匹配假量化器时，很难合并QAT。</strong>我们在这里展示了在部署期间的陷阱和我们的解决方法。 </p>
+<h4 id="Reparameterizing-Optimizer"><a href="#Reparameterizing-Optimizer" class="headerlink" title="Reparameterizing Optimizer"></a><strong>Reparameterizing Optimizer</strong></h4><p>​    RepOptimizer<strong>在每个优化步骤中提出梯度重新参数化。</strong>该技术也能很好地解决了基于再参数化的模型的量化问题。因此，我们以这种方式重建了YOLOv6的重新参数化块，并使用重新优化器对其进行训练，以获得对PTQ友好的权值。特征图的分布很窄，这大大有利于量化过程。 </p>
+<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/408b78b8e84d40c590319c35205855c0.png" alt="img"></p>
+<h4 id="Sensitivity-Analysis"><a href="#Sensitivity-Analysis" class="headerlink" title="Sensitivity Analysis"></a><strong>Sensitivity Analysis</strong></h4><p>​    我们通过将量化敏感操作部分转换为浮点计算，进一步提高了PTQ的性能。为了获得灵敏度分布，我们常用了几个指标，即均方误差（MSE）、信噪比（SNR）和余弦相似度。通常，为了进行比较，可以选择输出特征映射（在激活某一层之后）来计算有量化和没有量化的这些度量。作为一种替代方法，它也可以通过开关特定层的量化来计算验证AP。</p>
+<p>​    我们在使用重新优化器训练的YOLOv6-S模型上计算所有这些指标，并选择前6个敏感层，以浮动形式运行。敏感性分析的完整图表见B.2。</p>
+<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/88873d7d91d945c79f54014e725fbe13.png" alt="img"> </p>
+<h4 id="Quantization-aware-Training-with-Channel-wise-Distillation"><a href="#Quantization-aware-Training-with-Channel-wise-Distillation" class="headerlink" title="Quantization-aware Training with Channel-wise Distillation"></a><strong>Quantization-aware Training with Channel-wise</strong> <strong>Distillation</strong></h4><p>​    <strong>在PTQ不足的情况下，我们建议涉及量化感知训练（QAT）来提高量化性能。为了解决在训练和推理过程中假量化器的不一致性问题，有必要在重新优化器上建立QAT。</strong>此外，在YOLOv6框架内采用了通道蒸馏（后来称为CW蒸馏），如图5所示。这也是一种自蒸馏的方法，其中教师网络是在fp32精度上的学生模型。参见第3.5.1节中的实验。 </p>
+<p><img src="/2023/06/18/YOLOv6-A-Single-Stage-Object-Detection-Framework-for-Industrial-Applications/cda38d2ac2884096b174b6dc66edbb6e-168707903752712.png" alt="cda38d2ac2884096b174b6dc66edbb6e"></p>
 
       
     </div>
@@ -1910,7 +985,7 @@ <h4 id="视频和音频文件格式转换"><a href="#视频和音频文件格式
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/03/21/RK3588%E3%80%81ros%E3%80%81fastdeploy%E8%81%94%E5%90%88%E7%8E%AF%E5%A2%83%E8%AE%BE%E7%BD%AE/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -1924,7 +999,7 @@ <h4 id="视频和音频文件格式转换"><a href="#视频和音频文件格式
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/03/21/RK3588%E3%80%81ros%E3%80%81fastdeploy%E8%81%94%E5%90%88%E7%8E%AF%E5%A2%83%E8%AE%BE%E7%BD%AE/" class="post-title-link" itemprop="url">RK3588、ros、fastdeploy联合环境设置</a>
+            <a href="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/" class="post-title-link" itemprop="url">RepVGG Making VGG-style ConvNets Great Again</a>
         </h2>
 
         <div class="post-meta">
@@ -1935,7 +1010,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-03-21 21:00:27 / 修改时间：22:16:15" itemprop="dateCreated datePublished" datetime="2023-03-21T21:00:27+08:00">2023-03-21</time>
+              <time title="创建时间：2023-06-18 17:02:39 / 修改时间：17:02:54" itemprop="dateCreated datePublished" datetime="2023-06-18T17:02:39+08:00">2023-06-18</time>
             </span>
 
           
@@ -1949,72 +1024,49 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="基础环境设置"><a href="#基础环境设置" class="headerlink" title="基础环境设置"></a>基础环境设置</h2><h3 id="ROS环境设置"><a href="#ROS环境设置" class="headerlink" title="ROS环境设置"></a>ROS环境设置</h3><p>ros与ubuntu系统紧密相连，要求在固定版本的Ubuntu系统上安装对应版本的ros系统，对应版本如下：</p>
-<div class="table-container">
-<table>
-<thead>
-<tr>
-<th>Ubuntu版本</th>
-<th>ros版本</th>
-</tr>
-</thead>
-<tbody>
-<tr>
-<td>ubuntu16.04</td>
-<td>ros-kinetic</td>
-</tr>
-<tr>
-<td>ubuntu18.04</td>
-<td>ros-melodic</td>
-</tr>
-<tr>
-<td>ubuntu20.04</td>
-<td>ros-noetic</td>
-</tr>
-<tr>
-<td>Ubuntu22.04</td>
-<td>ros-humble（ros2）</td>
-</tr>
-</tbody>
-</table>
-</div>
-<p>以在rk3588上安装ros为例，rk3588上系统环境为ubuntu20.04，即需要安装的ros版本为ros-noetic。</p>
-<p>安装类比于<a target="_blank" rel="noopener" href="https://blog.csdn.net/KIK9973/article/details/118755045">Ubuntu18.04安装Ros</a>进行ubuntu20.04下的ros安装，注意将其中的ros-melodic替换为ros-noetic。</p>
-<p>核心命令为</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line">#设置中科大源</span><br><span class="line">sudo sh -c &#x27;. /etc/lsb-release &amp;&amp; <span class="built_in">echo</span> &quot;deb http://mirrors.ustc.edu.cn/ros/ubuntu/ `lsb_release -cs` main&quot; &gt; /etc/apt/sources.list.d/ros-latest.list&#x27;</span><br><span class="line">#设置公钥</span><br><span class="line">sudo apt-key adv --keyserver &#x27;hkp://keyserver.ubuntu.com:<span class="number">80</span>&#x27; --recv-key C1CF6E31E6BADE8868B172B4F42ED6FBAB17C654</span><br><span class="line">#更新软件包列表</span><br><span class="line">sudo apt update</span><br><span class="line">#安装ros（需要替换网址中的melodic为noetic）</span><br><span class="line">sudo apt install ros-noetic-desktop-full</span><br><span class="line">#设置环境变量</span><br><span class="line"><span class="built_in">echo</span> &quot;source /opt/ros/melodic/setup.bash&quot; &gt;&gt; ~/.bashrc</span><br><span class="line">source ~/.bashrc</span><br></pre></td></tr></table></figure>
-<h3 id="FFMPEG源码编译"><a href="#FFMPEG源码编译" class="headerlink" title="FFMPEG源码编译"></a>FFMPEG源码编译</h3><p>在官方github中下载FFMPEG源码，例如版本4.2.7</p>
-<p>安装依赖库</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">sudo apt install libx264-dev </span><br><span class="line">sudo apt install libdrm-dev  </span><br></pre></td></tr></table></figure>
-<p>根据需求配置configure，配置makefile</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">./configure --enable-shared --enable-gpl --enable-libx264 --enable-rkmpp --enable-version3 --enable-libdrm</span><br></pre></td></tr></table></figure>
-<p>make直接编译</p>
-<h3 id="OPENCV源码编译"><a href="#OPENCV源码编译" class="headerlink" title="OPENCV源码编译"></a>OPENCV源码编译</h3><p>在官方github中下载OpenCV源码，例如版本4.5.5</p>
-<ul>
-<li>安装依赖库</li>
+          <h2 id="RepVGG-Making-VGG-style-ConvNets-Great-Again"><a href="#RepVGG-Making-VGG-style-ConvNets-Great-Again" class="headerlink" title="RepVGG: Making VGG-style ConvNets Great Again"></a>RepVGG: Making VGG-style ConvNets Great Again</h2><p>主要贡献：提出了一种简单但功能强大的卷积神经网络结构，其网络结构，在推理时只具有3x3卷积和ReLU，在训练时具有多分支拓扑结构，通过结构重参数化技术实现训练时间和推理时间的解耦，并命名为RepVGG。</p>
+<h3 id="对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下："><a href="#对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下：" class="headerlink" title="对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下："></a>对于较为复杂的网络（ResNet的残差块以及Inception的分支连接），其精度往往较好，但其本身存在的问题如下：</h3><ul>
+<li>会降低模型的推理速度并且减少内存利用率</li>
+<li>有些节点及算子会增加内存消耗并且对别的设备不友好。</li>
 </ul>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">sudo apt install libgtk-dev</span><br><span class="line">sudo apt install libgail-dev</span><br></pre></td></tr></table></figure>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="built_in">mkdir</span> build &amp;&amp; <span class="built_in">cd</span> build </span><br><span class="line">cmake ..</span><br></pre></td></tr></table></figure>
-<h2 id="环境依赖兼容问题"><a href="#环境依赖兼容问题" class="headerlink" title="环境依赖兼容问题"></a>环境依赖兼容问题</h2><p>ros、fastdeploy、opencv版本问题</p>
-<p>解决方法：</p>
-<ul>
-<li><p>针对fastdeploy，自定义opencv版本进行fastdeploy的编译</p>
-<ul>
-<li><p>需要修改的文件路径如下所示：</p>
-<ul>
-<li><p><strong>/FastDeploy/CmakeLists.txt</strong></p>
+<p>论文中提到，大部分学者提到FLOPs（浮点运算的数量）会影响推理速度，但是论文中作者做了实验发现FLOPs对模型的速度并不是强相关。</p>
+<p>作者提出的RepVGG，其具有以下优点：</p>
 <ul>
-<li><pre><code class="lang-txt">#修改opencv_dir
-set(OPENCV_DIRECTORY &quot;/usr/local/lib/cmake/opencv4&quot; CACHR PATH &quot;User can specify the installed opencv directory.&quot;)
-</code></pre>
-<p>这个地方修改之后会在后续引入opencv.cmake的时候将该参数传入，并在opencv.cmake中进行cmakelist中头文件的包含，动态链接库的链接等操作</p>
-</li>
-</ul>
-</li>
-</ul>
-</li>
+<li>该模型具有类似VGG的拓扑结构，没有任何分支，这意味着每一层都将其唯一前一层的输出作为输入，并将输出馈送到其唯一的后一层。</li>
+<li>该模型的主体部分仅使用3 × 3的conv和ReLU。</li>
+<li>模型的具体架构(包括具体的深度和层宽度)的实例化没有模型结构的自动搜索，手工细化，复合缩放，也没有其他代价较大的设计。</li>
 </ul>
-</li>
+<h3 id="作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。"><a href="#作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。" class="headerlink" title="作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。"></a>作者认为，多分支架构可以看作为许多较浅模型的隐式集成，并且具有较好的性能水平。</h3><p>针对多分支架构的优点集中于训练上，而不希望用于推理上，故提出重参数化的方法来解耦训练时的多分支结构和推理时的简单架构，即意味着通过转换其参数将架构从一个转换到另一个。</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/4H7{5]]_TNU%XI%5PPH9KA9.png" alt="img"></p>
+<p>如上图中(b)和(c)所示，即为转换之后的RepVGG和转换之前的RepVGG。其将分支看作退化的1x1卷积，进一步看作退化的3x3卷积。从而可以从(b)中的模型架构转变为(c)中的模型架构，可以用3x3卷积、BN、1x1卷积等模块进行原模型的等效替换。从而提升计算速度。</p>
+<h3 id="本文的核心贡献点如下："><a href="#本文的核心贡献点如下：" class="headerlink" title="本文的核心贡献点如下："></a>本文的核心贡献点如下：</h3><ul>
+<li>我们提出了RepVGG，这是一种简单的架构，与最先进的技术相比，具有良好的速度-精度权衡。</li>
+<li>我们建议使用结构重参数化将训练时间的多分支拓扑与推理时间的平面结构解耦。</li>
+<li>我们展示了RepVGG在图像分类和语义分割方面的有效性，以及实现的效率和易用性。</li>
 </ul>
+<h3 id="如何实现结构重参数化："><a href="#如何实现结构重参数化：" class="headerlink" title="如何实现结构重参数化："></a>如何实现结构重参数化：</h3><p>在上述提到，RepVGG在训练时每一层都有三个分支，分别是identify，1x1，3x3，模型训练时，输出$ y=x+g(x)+f(x) $，每一层就需要3个参数块，对于n层网络，就需要$3*n$个参数块。所以我们需要重参数化，会使得推理时模型参数量小。</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/aa1ad31949b54e76b0a282fab915478f.png" alt="img"></p>
+<p>上图中的过程即为将训练好的多分支模型转换为单分支模型，从而达到推理时的高性能</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">对于重参数化的实现主要存在两个问题：</span><br><span class="line">第一个问题，在每个卷积后都接上一个BN，怎么将卷积和BN融合。</span><br><span class="line">第二个问题，存在不同大小的卷积，怎么将几个不同大小的卷积融合在一起。</span><br></pre></td></tr></table></figure>
+<p>对于第一个问题，在每个卷积后都接上一个BN，怎么将卷积和BN融合。</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-84cdab58644fcbcafb3c690c1669b879_1440w.webp" alt="v2-84cdab58644fcbcafb3c690c1669b879_1440w"></p>
+<p>这其实就是一个卷积层，只不过权重考虑了BN的参数 我们令：</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-b438e3a2ee316a6054a4e4c45443fef3_1440w.webp" alt="img"></p>
+<p>最终的融合结果即为：</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-cd0d2de067e4850fe4fafce70f58acf1_1440w.webp" alt="img"></p>
+<h3 id="2-2-2-conv-3x3和conv-1x1合并"><a href="#2-2-2-conv-3x3和conv-1x1合并" class="headerlink" title="2.2.2. conv_3x3和conv_1x1合并"></a>2.2.2. conv_3x3和conv_1x1合并</h3><p> 这里为了详细说明下，假设输入特征图特征图尺寸为(1, 2, 3, 3)，输出特征图尺寸与输入特征图尺寸相同，且stride=1，下面展示是conv_3x3的卷积过程：</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-89854f076457c9c03b733a389db96993_1440w.webp" alt="img"></p>
+<p> conv_3x3卷积过程大家都很熟悉，看上图一目了然，首先将特征图进行pad=kernel_size//2，然后从左上角开始(上图中红色位置)做卷积运算，最终得到右边output输出。下面是conv_1x1卷积过程：</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-88962d2f0fc8f1371d0d521c04c2a57d_1440w.webp" alt="img"></p>
+<p> 同理，conv_1x1跟conv_3x3卷积过程一样，从上图中左边input中红色位置开始进行卷积，得到右边的输出，观察conv_1x1和conv_3x3的卷积过程，可以发现他们都是从input中红色起点位置开始，走过相同的路径，因此，将conv_3x3和conv_1x1进行融合，只需要将conv_1x1卷积核padding成conv_3x3的形式，然后于conv_3x3相加，再与特征图做卷积(这里依据卷积的可加性原理)即可，也就是conv_1x1的卷积过程变成如下形式：</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-b7409c315f10a158331bf90fcf32efd6_1440w.webp" alt="img"></p>
+<h3 id="2-2-3-identity-等效为特殊权重的卷积层"><a href="#2-2-3-identity-等效为特殊权重的卷积层" class="headerlink" title="2.2.3. identity 等效为特殊权重的卷积层"></a>2.2.3. identity 等效为特殊权重的卷积层</h3><p> identity层就是输入直接等于输出，也即input中每个通道每个元素直接输出到output中对应的通道，用一个什么样的卷积层来等效这个操作呢，我们知道，卷积操作必须涉及要将每个通道加起来然后输出的，然后又要保证input中的每个通道每个元素等于output中，从这一点，我们可以从PWconv想到，只要令当前通道的卷积核参数为1，其余的卷积核参数为0，就可以做到；从DWconv中可以想到，用conv_1x1卷积且卷积核权重为1，就能保证每次卷积不改变输入，因此，identity可以等效成如下的conv_1x1的卷积形式：</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-b05e6fa96bd642c1da2d36d39a543d7a_1440w.webp" alt="img"></p>
+<p>从上面的分析，我们进一步可以将indentity -&gt; conv_1x1 -&gt; conv_3x3的形式，如下所示：</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-bc97e575d5007645901830109828a36f_1440w.webp" alt="img"></p>
+<p> 上述过程就是对应论文中所属的下述从step1到step2的变换过程，涉及conv于BN层融合，conv_1x1与identity转化为等价的conv_3x3的形式：</p>
+<p><img src="/2023/06/18/RepVGG-Making-VGG-style-ConvNets-Great-Again/v2-f5ce0b89a10aa36223275dccd6327cbe_1440w.webp" alt="img"></p>
+<p> 结构重参数化的最后一步也就是上图中step2 -&gt; step3， 这一步就是利用卷积可加性原理，将三个分支的卷积层和bias对应相加组成最终一个conv<em>3x3的形式即可。</em><br>这里，大家可能既然把BN，identity，conv_1x1和conv_3x3都融合在一起了，为什么不干脆把ReLU也融合进去呢？其实也是可以将ReLU层进行融合的，<strong>但是需要进行量化</strong>，<strong>conv输出tensor的值域直接使用relu输出的值阈（同时对应计算Ｓ和Z），就可以完成conv和relu合并。无量化动作的优化是无法完成conv+relu的合并*</strong>。这里的知识请大家参考论文：<em><br><em>*<a href="https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1712.05877">Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference</a>。</em></em></p>
 
       
     </div>
@@ -2034,7 +1086,7 @@ <h2 id="环境依赖兼容问题"><a href="#环境依赖兼容问题" class="hea
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -2048,7 +1100,7 @@ <h2 id="环境依赖兼容问题"><a href="#环境依赖兼容问题" class="hea
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/" class="post-title-link" itemprop="url">RK3588s部署相关</a>
+            <a href="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/" class="post-title-link" itemprop="url">A New Baseline for Single-/Cross-Modality Re-ID</a>
         </h2>
 
         <div class="post-meta">
@@ -2059,7 +1111,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2023-03-04 15:28:29 / 修改时间：15:35:38" itemprop="dateCreated datePublished" datetime="2023-03-04T15:28:29+08:00">2023-03-04</time>
+              <time title="创建时间：2023-04-23 20:46:36 / 修改时间：21:04:48" itemprop="dateCreated datePublished" datetime="2023-04-23T20:46:36+08:00">2023-04-23</time>
             </span>
 
           
@@ -2073,167 +1125,21 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h1 id="RK3588s部署相关"><a href="#RK3588s部署相关" class="headerlink" title="RK3588s部署相关"></a>RK3588s部署相关</h1><p>目前无人机上开发板为ROC-RK3588S-PC，为在其上进行深度学习模型的推理，需要对板载的NPU进行配置使用。为使用该NPU，需要下载<a target="_blank" rel="noopener" href="https://wiki.t-firefly.com/zh_CN/ROC-RK3588S-PC/usage_npu.html">RKNN SDK</a>，RKNN SDK为RK3588s提供编程接口，帮助用户部署使用通过RKNN-Toolkit2导出的RKNN模型。</p>
-<p>下列代码输出的是rk3588机载npu的使用率，从而可以验证板载npu是否被使用</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">cat /sys/kernel/debug/rknpu/load</span><br></pre></td></tr></table></figure>
-<p>目前3588的部署方式大致有两种，一为利用RKNN官方支持的方式进行部署，另一为利用FastDeploy，其在RKNN官方的基础上加了一层进行后续部署。</p>
-<h2 id="基本组件及功能介绍"><a href="#基本组件及功能介绍" class="headerlink" title="基本组件及功能介绍"></a>基本组件及功能介绍</h2><h3 id="RKNN-Toolkit2与RKNN-Toolkit-Lite2套件介绍"><a href="#RKNN-Toolkit2与RKNN-Toolkit-Lite2套件介绍" class="headerlink" title="RKNN-Toolkit2与RKNN Toolkit Lite2套件介绍"></a><strong>RKNN-Toolkit2与RKNN Toolkit Lite2套件介绍</strong></h3><h4 id="RKNN-Toolkit2"><a href="#RKNN-Toolkit2" class="headerlink" title="RKNN-Toolkit2"></a>RKNN-Toolkit2</h4><p>RKNN-Toolkit2是为用户提供在PC平台上进行Rockchip芯片NPU模型转换、推理和性能评估的开发套件。用户通过该工具提供的Python 接口可以便捷地完成以下功能：</p>
-<ol>
-<li>模型转换：支持Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet、PyTorch 等模型转为RKNN 模型，并支持RKNN 模型导入导出，RKNN 模型能够在Rockchip NPU 平台上加载使用。</li>
-<li>量化功能：支持将浮点模型量化为定点模型，目前支持的量化方法为非对称量化（ asymmetric_quantized-8 及asymmetric_quantized-16 ） ， 并支持混合量化功能。</li>
-<li>模型推理：能够在PC 上模拟Rockchip NPU 运行RKNN 模型并获取推理结果；或将RKNN模型分发到指定的NPU 设备上进行推理并获取推理结果。</li>
-<li>性能和内存评估：将RKNN 模型分发到指定NPU 设备上运行，以评估模型在实际设备上运行时的性能和内存占用情况。</li>
-<li>量化精度分析：该功能将给出模型量化前后每一层推理结果与浮点模型推理结果的余弦距离，以便于分析量化误差是如何出现的，为提高量化模型的精度提供思路。</li>
-</ol>
-<p><strong>即，该部分需要在linux-ubuntu的电脑上进行安装，从而完成模型的转换和模型的量化等功能</strong></p>
-<h4 id="RKNN-Toolkit-Lite2"><a href="#RKNN-Toolkit-Lite2" class="headerlink" title="RKNN -Toolkit-Lite2"></a>RKNN -Toolkit-Lite2</h4><p>RKNN -Toolkit-Lite2为RKNN-Toolkit-lite2的一部分，为带有瑞芯NPU平台提供Python编程接口，帮助用户部署使用RKNN-Toolkit2导出的RKNN模型。</p>
-<h4 id="rknpu2"><a href="#rknpu2" class="headerlink" title="rknpu2"></a>rknpu2</h4><p>rknpu2为带有瑞芯NPU平台提供c语言编程接口，帮助用户部署使用 RKNN-Toolkit2 导出的 RKNN 模型。</p>
-<p><strong>即RKNN -Toolkit-Lite2和rknpu2分别为板载上使用python或c++调用npu的接口，需要在板子上进行安装从而完成对应的npu的调用</strong></p>
-<h4 id="FastDeploy"><a href="#FastDeploy" class="headerlink" title="FastDeploy"></a>FastDeploy</h4><p>FastDeploy是百度推出的一款AI算法推理部署的工具。其为在RKNN官方的库的基础上进行二次开发及封装，从而实现更方便的一种算法部署方式。但是其由于目前依旧为develop阶段，很多接口尚未完全开发完毕。</p>
-<p><strong>即FastDeploy需要在ubuntu服务器端和板载端均进行安装，目前正在快速开发中，交流群内较为活跃，遇到问题好解决</strong></p>
-<h2 id="使用RKNN官方例程"><a href="#使用RKNN官方例程" class="headerlink" title="使用RKNN官方例程"></a>使用RKNN官方例程</h2><h3 id="环境准备"><a href="#环境准备" class="headerlink" title="环境准备"></a>环境准备</h3><h4 id="服务器端环境"><a href="#服务器端环境" class="headerlink" title="服务器端环境"></a>服务器端环境</h4><p>首先在<a target="_blank" rel="noopener" href="https://wiki.t-firefly.com/zh_CN/ROC-RK3588S-PC/usage_npu.html">firefly官网中的RK3588S中的NPU使用</a>中或者<a href="wget https://bj.bcebos.com/fastdeploy/third_libs/rknpu2_device_install_1.4.0.zip">百度提供的下载链接</a>下载RKNN SDK，然后由于目前RKNN ToolKit2只支持python3.6或者python3.8，所以在linux-ubuntu的电脑运行如下代码，安装对应代码</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line"># 创建python3.<span class="number">8</span>环境</span><br><span class="line">conda create -n rknn2 python=<span class="number">3</span>.<span class="number">8</span></span><br><span class="line">conda activate rknn2</span><br><span class="line"></span><br><span class="line"># 安装 rknn-toolkit2</span><br><span class="line">pip install numpy==<span class="number">1</span>.<span class="number">16</span>.<span class="number">6</span></span><br><span class="line">sudo apt-get install libxslt1-dev zlib1g zlib1g-dev libglib2.<span class="number">0</span>-<span class="number">0</span> libsm6 libgl1-mesa-glx libprotobuf-dev gcc g++</span><br><span class="line">pip install rknn-toolkit2/packages/rknn_toolkit2-<span class="number">1</span>.<span class="number">3</span>.<span class="number">0</span>_11912b58-cp38-cp38-linux_x86_64.whl</span><br><span class="line"></span><br><span class="line"># 安装yaml</span><br><span class="line">pip install pyyaml</span><br></pre></td></tr></table></figure>
-<h4 id="板端环境"><a href="#板端环境" class="headerlink" title="板端环境"></a>板端环境</h4><p>首先将板子从原生的安卓刷系统为ubuntu系统，然后在<a target="_blank" rel="noopener" href="https://wiki.t-firefly.com/zh_CN/ROC-RK3588S-PC/usage_npu.html">firefly官网中的RK3588S中的NPU使用</a>中下载RKNN SDK，由于目前的rknn_toolkit2_lite2只支持python3.7或者python3.9，所以输入下列代码安装rknn_toolkit2_lite2</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="built_in">cd</span> rknpu2_device_install</span><br><span class="line"># RK3588运行以下代码</span><br><span class="line">sudo rknn_install_rk3588.sh</span><br></pre></td></tr></table></figure>
-<h3 id="模型转换步骤"><a href="#模型转换步骤" class="headerlink" title="模型转换步骤"></a>模型转换步骤</h3><ul>
-<li><p>首先通过任务的不同需求训练出神经网络</p>
-</li>
-<li><p>通过各类转换工具将模型转换为onnx</p>
-</li>
-<li><p>将onnx模型通过PKNN-Toolkit2转换为RKNN格式</p>
-<ul>
-<li><p>利用RKNN-Toolkit2的Python API接口导出RKNN格式的模型。操作流程如下</p>
-<p>1、 创建RKNN对象，初始化RKNN SDK环境。</p>
-<p>2、 调用config接口设置模型预处理参数。</p>
-<p>3、 调用对应加载第3方框架接口，加载TensorFlow、Pytorch、ONNX模型。</p>
-<p>4、 调用build接口构建RKNN模型。</p>
-<p>5、 调用export_rknn接口导出RKNN模型</p>
-</li>
-</ul>
-<p>对应文档查看下载包内的<strong>Rockchip_User_Guide_RKNN_Toolkit2_CN</strong></p>
-</li>
-</ul>
-<h3 id="默认转换好的模型在RK3588s上的使用（RKNPU2）"><a href="#默认转换好的模型在RK3588s上的使用（RKNPU2）" class="headerlink" title="默认转换好的模型在RK3588s上的使用（RKNPU2）"></a>默认转换好的模型在RK3588s上的使用（RKNPU2）</h3><ul>
-<li>首先针对于自身平台下载gcc交叉编译器 gcc-9.3.0-x86_64_arrch64-linux-gnu</li>
-<li>然后进入/rknpu2_1.3.0/examples 文件夹</li>
-<li>假定想要测试转换好了的yolov5，则进入对应的rknn_yolov5_demo文件夹</li>
-<li>使用./build-linux_RK3588.sh进行编译</li>
-<li>进入./install/rknn_yolov5_demo_linux 文件夹使用./rknn_yolov5_demo ./model/RK3588/yolov5s-640-640.rknn ./model/bus.jpg 进行测试</li>
-</ul>
-<h3 id="默认转换好的模型在RK3588s上的使用（RKNN-ToolKit2-lite）"><a href="#默认转换好的模型在RK3588s上的使用（RKNN-ToolKit2-lite）" class="headerlink" title="默认转换好的模型在RK3588s上的使用（RKNN-ToolKit2-lite）"></a>默认转换好的模型在RK3588s上的使用（RKNN-ToolKit2-lite）</h3><ul>
-<li>利用conda 创建py36或者py38的环境</li>
-<li>进入rknn-toolkit2-1.3.0/rknn_toolkit_lite2文件夹，进入package文件夹安装对应的whl</li>
-<li>进入examples/inference_with_lite文件夹，使用python test.py进行测试</li>
-</ul>
-<h2 id="使用百度-Fast-Deploy相关工具进行部署"><a href="#使用百度-Fast-Deploy相关工具进行部署" class="headerlink" title="使用百度 Fast Deploy相关工具进行部署"></a>使用百度 Fast Deploy相关工具进行部署</h2><p>官方视频例程大都是老版本的配置，其在现有的工程下的使用比较落后。故大致步骤可和<a target="_blank" rel="noopener" href="https://aistudio.baidu.com/aistudio/education/preview/3610910">官方视频</a>内相同，但具体节点的使用方式有所差异。</p>
-<h3 id="环境配置"><a href="#环境配置" class="headerlink" title="环境配置"></a>环境配置</h3><p>对应部署的环境配置分为板载RK3588s上的环境配置和个人PC上的环境配置，对应需要配置的环境如下所示</p>
-<p><img src="/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/image-20230221221155971.png" alt="image-20230221221155971"></p>
-<p>RKNN官方例程中的服务器端环境和板端环境均需要进行配置，然后针对于FastDeploy进行环境配置。</p>
-<p>FastDeploy在板端的安装（c++）</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br></pre></td><td class="code"><pre><span class="line">git clone https://github.com/PaddlePaddle/FastDeploy.git</span><br><span class="line"><span class="built_in">cd</span> FastDeploy</span><br><span class="line"><span class="built_in">mkdir</span> build &amp;&amp; <span class="built_in">cd</span> build</span><br><span class="line"></span><br><span class="line"># Only a few key configurations are introduced here, see README.<span class="built_in">md</span> <span class="keyword">for</span> details.</span><br><span class="line"># -DENABLE_ORT_BACKEND:     Whether to enable ONNX model, default OFF</span><br><span class="line"># -DENABLE_RKNPU2_BACKEND:  Whether to enable RKNPU model, default OFF</span><br><span class="line"># -RKNN2_TARGET_SOC:        Compile the SDK board model. Enter RK356X or RK3588 with case sensitive required.</span><br><span class="line">cmake ..  -DENABLE_ORT_BACKEND=ON \</span><br><span class="line">	      -DENABLE_RKNPU2_BACKEND=ON \</span><br><span class="line">	      -DENABLE_VISION=ON \</span><br><span class="line">	      -DRKNN2_TARGET_SOC=RK3588 \</span><br><span class="line">          -DCMAKE_INSTALL_PREFIX=$&#123;PWD&#125;/fastdeploy-<span class="number">0</span>.<span class="number">0</span>.<span class="number">3</span></span><br><span class="line">make -j8</span><br><span class="line">make install</span><br></pre></td></tr></table></figure>
-<p>FastDeploy在板端的安装（python）</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br></pre></td><td class="code"><pre><span class="line">git clone https://github.com/PaddlePaddle/FastDeploy.git</span><br><span class="line"><span class="built_in">cd</span> FastDeploy</span><br><span class="line"><span class="built_in">cd</span> python</span><br><span class="line"></span><br><span class="line">export ENABLE_ORT_BACKEND=ON</span><br><span class="line">export ENABLE_RKNPU2_BACKEND=ON</span><br><span class="line">export ENABLE_VISION=ON</span><br><span class="line">export RKNN2_TARGET_SOC=RK3588</span><br><span class="line">python3 setup.py build</span><br><span class="line">python3 setup.py bdist_wheel</span><br><span class="line"></span><br><span class="line"><span class="built_in">cd</span> dist</span><br><span class="line"></span><br><span class="line">pip3 install fastdeploy_python-<span class="number">0</span>.<span class="number">0</span>.<span class="number">0</span>-cp39-cp39-linux_aarch64.whl</span><br></pre></td></tr></table></figure>
-<p>个人PC环境配置及模型转换</p>
-<p>本次尝试在对应远程服务器上进行环境部署，该服务器主要负责对应模型的训练，模型的转换，目前要求为linux-64bit环境。</p>
-<ul>
-<li><p>假定使用的是paddleDetection训练得到想要的模型，首先使用PaddleDetection中的/tools/export_model.py对训练得出的模型进行导出，将Paddle动态图转换为静态图，对应转换模型代码为</p>
-<ul>
-<li>```cmd<br>python ./tools/export_model.py —config configs/picodet/picodet_s_416_visdrone.yml<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">- 转换后的模型会存放于</span><br><span class="line"></span><br><span class="line">- ```cmd</span><br><span class="line">  ./output_inference/picodet_s_416_visdrone</span><br></pre></td></tr></table></figure>
-</li>
-</ul>
-</li>
-<li><p>进一步将模型从静态的paddle模型转化到onnx模型，需要使用Paddle2ONNX库，该库的安装命令使用</p>
-<ul>
-<li><p>```cmd<br>pip install paddle2onnx    </p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">- 对应的模型的转换，从静态paddle模型转换为onnx格式，使用命令，对应[官网](https://github.com/PaddlePaddle/Paddle2ONNX)，（在Paddle2ONNX文件夹内使用）</span><br><span class="line"></span><br><span class="line">- ```cmd</span><br><span class="line">  #静态图转onnx模型</span><br><span class="line">  paddle2onnx --model_dir picodet_s_416_coco_lcnet --model_filename model.pdmodel --params_filename model.pdiparams --save_file  picodet_s_416_coco_lcnet/picodet_s_416_coco_lcnet.onnx --enable_dev_version True</span><br><span class="line">  #固定模型输入形状，改为静态shape</span><br><span class="line">  python -m paddle2onnx.optimize \--input_modelpicodet_s_416_coco_lcnet/picodet_s_416_coco_lcnet.onnx \--output_modelpicodet_s_416_coco_lcnet/picodet_s_416_coco_lcnet.onnx \--input_shape_dict&quot;&#123;&#x27;image&#x27;:[1,3,416,416]&#125;&quot;</span><br></pre></td></tr></table></figure>
-</li>
-<li><p>注意，若ONNX不支持对应的算子，如自适应池化层，需要对得到的模型进行输入的固定，即改为静态shape。对应的查看方式为转换为onnx格式文件之后，使用[onnx结构查询——netron][<a target="_blank" rel="noopener" href="https://netron.app/]对onnx模型结构进行查看。">https://netron.app/]对onnx模型结构进行查看。</a></p>
-</li>
-</ul>
-</li>
-<li><p>然后将得到的onnx模型转换为对应的rknn模型，需要书写转换用到的yaml文件</p>
-<ul>
-<li><p>转换的yaml书写要点可见<a target="_blank" rel="noopener" href="https://www.github.com/PaddlePaddle/FastDeploy/blob/develop/docs/cn/faq/rknpu2/export.md">官网</a></p>
-<ul>
-<li><p>大体上如下所示</p>
-</li>
-<li><p>```cmd<br>mean:<br>  -</p>
-<pre><code>- 128.5
-- 128.5
-- 128.5
-</code></pre><p>std:<br>  -</p>
-<pre><code>- 128.5
-- 128.5
-- 128.5
-</code></pre><p>model_path: “./scrfd_500m_bnkps_shape640x640.onnx”<br>outputs_nodes:<br>do_quantization: True<br>dataset: “./datasets.txt”<br>output_folder: “./“</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">- 转换用的语句为</span><br><span class="line"></span><br><span class="line">  - ```cmd</span><br><span class="line">    python tools/rknpu2/export.py --config_path tools/rknpu2/config/RK3588/picodet_s_416_coco_lcnet.yaml</span><br></pre></td></tr></table></figure>
-</li>
-<li><p>对应使用的为fastdeploy内的对rknpu2的export函数，得到对应的rknn模型</p>
-</li>
-</ul>
-</li>
-</ul>
-</li>
-</ul>
-<h3 id="RK3588s环境配置及实机程序运行"><a href="#RK3588s环境配置及实机程序运行" class="headerlink" title="RK3588s环境配置及实机程序运行"></a>RK3588s环境配置及实机程序运行</h3><ul>
-<li><p>将对应的rknn模型和cfg，对应图像拷贝到RK3588板子上，并运行<a target="_blank" rel="noopener" href="https://github.com/PaddlePaddle/FastDeploy/tree/develop/examples/vision/detection/paddledetection/rknpu2/python">官网</a>提供的infer代码进行推理检测</p>
+          <h1 id="AGW-A-New-Baseline-for-Single-Cross-Modality-Re-ID"><a href="#AGW-A-New-Baseline-for-Single-Cross-Modality-Re-ID" class="headerlink" title="AGW: A New Baseline for Single-/Cross-Modality Re-ID"></a>AGW: A New Baseline for Single-/Cross-Modality Re-ID</h1><p>其为综述Deep Learning for Person Re-identification:A Survey and Outlook 中提出的方法</p>
+<p> AGW是在BagTricks的基础之上进行设计研究的，其主要包括以下三个主要的提升组件：</p>
 <ul>
-<li>```python<br>import fastdeploy as fd<br>import cv2<br>import os</li>
-</ul>
-</li>
+<li>Non-local Attention (Att) Block</li>
+<li>Generalized-mean (GeM) Pooling.</li>
+<li>Weighted Regularization Triplet (WRT) loss</li>
 </ul>
-<pre><code>def parse_arguments():
-    import argparse
-    import ast
-    parser = argparse.ArgumentParser()
-    parser.add_argument(
-        &quot;--model_file&quot;,
-        default=&quot;./picodet_s_416_coco_lcnet/picodet_s_416_coco_lcnet_rk3588_unquantized.rknn&quot;,
-        help=&quot;Path of rknn model.&quot;)
-    parser.add_argument(
-        &quot;--config_file&quot;,
-        default=&quot;./picodet_s_416_coco_lcnet/infer_cfg.yml&quot;,
-        help=&quot;Path of config.&quot;)
-    parser.add_argument(
-        &quot;--image&quot;,
-        type=str,
-        default=&quot;./000000014439.jpg&quot;,
-        help=&quot;Path of test image file.&quot;)
-    return parser.parse_args()
-
-
-if __name__ == &quot;__main__&quot;:
-    args = parse_arguments()
-
-    model_file = args.model_file
-    params_file = &quot;&quot;
-    config_file = args.config_file
-
-    # 配置runtime，加载模型
-    runtime_option = fd.RuntimeOption()
-    runtime_option.use_rknpu2()
-
-    model = fd.vision.detection.PPYOLOE(
-        model_file,
-        params_file,
-        config_file,
-        runtime_option=runtime_option,
-        model_format=fd.ModelFormat.RKNN)
-    model.preprocessor.disable_normalize()
-    model.preprocessor.disable_permute()
-    model.postprocessor.apply_decode_and_nms()
-
-    # 预测图片分割结果
-    im = cv2.imread(args.image)
-    result = model.predict(im)
-    print(result)
-
-    # 可视化结果
-    vis_im = fd.vision.vis_detection(im, result, score_threshold=0.5)
-    cv2.imwrite(&quot;visualized_result.jpg&quot;, vis_im)
-    print(&quot;Visualized result save in ./visualized_result.jpg&quot;)
-```
-</code></pre>
+<h2 id="Non-local-Attention-Att-Block"><a href="#Non-local-Attention-Att-Block" class="headerlink" title="Non-local Attention (Att) Block"></a>Non-local Attention (Att) Block</h2><p> 注意力的概念在ReID的学习中起到至关重要的作用，使用强大的非局部注意力块来获得各个位置特征的加权和。公式如下：$z_i = W_z ∗ φ(x_i) + x_i $，其中$W_z$是需要学习的权重矩阵，$φ()$表示非局部的操作，$+x_i$构建了一个残差策略。详情参见《Non-local neural networks》</p>
+<h2 id="Generalized-mean-GeM-Pooling"><a href="#Generalized-mean-GeM-Pooling" class="headerlink" title="Generalized-mean (GeM) Pooling."></a>Generalized-mean (GeM) Pooling.</h2><p>ReID任务可视为细粒度的实例检索，广泛使用的max-pooling或average-pooling无法捕获领域特定的鉴别特征。所以针对该问题采用可学习的池化层，称为Generalized-mean (GeM) Pooling，公式如下:</p>
+<p><img src="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/image-20230418144447925.png" alt="image-20230418144447925"></p>
+<p>$p_k$是一个池化超参数，可以在反向传播过程中学习，$p_k→∞$时近似最大池化，在$p_k = 1$时近似平均池化。详情参见《Fine-tuning cnn image retrieval with no human annotation》。可视为在最低维度上，对每个元素的p次方求均值再开p次方。</p>
+<h2 id="Weighted-Regularization-Triplet-WRT-loss"><a href="#Weighted-Regularization-Triplet-WRT-loss" class="headerlink" title="Weighted Regularization Triplet (WRT) loss"></a>Weighted Regularization Triplet (WRT) loss</h2><p>除了使用基于softmax的交叉熵之外，还使用了另一个加权正则化三元组损失。<br><img src="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/20201026220254980.png" alt="在这里插入图片描述"><br>避免引入了margin参数，类似于《Multi-similarity loss with general pair weighting for deep metric learning》</p>
+<h2 id="完整流程如下所示"><a href="#完整流程如下所示" class="headerlink" title="完整流程如下所示"></a>完整流程如下所示</h2><p><img src="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMxMjUzNTcz,size_16,color_FFFFFF,t_70#pic_center.png" alt="watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMxMjUzNTcz,size_16,color_FFFFFF,t_70"></p>
+<p><strong>AGW在跨模态行人重识别中的效果：</strong><br><img src="/2023/04/23/AGW%20A%20New%20Baseline%20for%20Single-Cross-Modality%20Re-ID/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMxMjUzNTcz,size_16,color_FFFFFF,t_70#pic_center-16818009779205.png" alt="watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzMxMjUzNTcz,size_16,color_FFFFFF,t_70"></p>
+
       
     </div>
 
@@ -2251,7 +1157,7 @@ <h3 id="RK3588s环境配置及实机程序运行"><a href="#RK3588s环境配置
 
   
   <nav class="pagination">
-    <span class="page-number current">1</span><a class="page-number" href="/page/2/">2</a><a class="page-number" href="/page/3/">3</a><a class="extend next" rel="next" href="/page/2/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
+    <span class="page-number current">1</span><a class="page-number" href="/page/2/">2</a><span class="space">&hellip;</span><a class="page-number" href="/page/4/">4</a><a class="extend next" rel="next" href="/page/2/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
   </nav>
 
 
@@ -2317,7 +1223,7 @@ <h3 id="RK3588s环境配置及实机程序运行"><a href="#RK3588s环境配置
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/page/2/index.html b/page/2/index.html
index 3b0b7d6..2117c01 100644
--- a/page/2/index.html
+++ b/page/2/index.html
@@ -148,7 +148,7 @@ <h1 class="site-title">凯_kaiii</h1>
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -162,7 +162,7 @@ <h1 class="site-title">凯_kaiii</h1>
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/" class="post-title-link" itemprop="url">Towards Data-Efficient Detection Transformer</a>
+            <a href="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/" class="post-title-link" itemprop="url">Bag of Tricks and A Strong Baseline for Deep Person Re-identification</a>
         </h2>
 
         <div class="post-meta">
@@ -173,7 +173,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2022-08-22 21:01:24 / 修改时间：21:34:28" itemprop="dateCreated datePublished" datetime="2022-08-22T21:01:24+08:00">2022-08-22</time>
+              <time title="创建时间：2023-04-23 20:45:36 / 修改时间：21:03:55" itemprop="dateCreated datePublished" datetime="2023-04-23T20:45:36+08:00">2023-04-23</time>
             </span>
 
           
@@ -187,171 +187,73 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="Towards-Data-Efficient-Detection-Transformers"><a href="#Towards-Data-Efficient-Detection-Transformers" class="headerlink" title="Towards Data-Efficient Detection Transformers"></a>Towards Data-Efficient Detection Transformers</h2><h3 id="摘要"><a href="#摘要" class="headerlink" title="摘要"></a>摘要</h3><p>DETR在足量样本的COCO数据集上表现出了有竞争性的效果。然而我们发现许多DETR类的方法在内容数量较少的数据集上（如Cityscapes）会有明显的性能的下降。换而言之，DETR通常需要大量的数据。为了处理这个问题。我们逐步的将数据效率高的RCNN变换为代表性的DETR，分析了影响数据效率（data efficiency）的因素。试验结果表明从局部图片进行稀疏特征采样是影响的关键。基于这个观察，本文通过简单的交替 key 和 value序列在cross attention中的构造方式，用对原始模型最少的改变的方式缓解了现存DETR方法对数据需求量巨大的问题。另外，我们介绍了一个简单但有效的数据增强的方法，从而提供更丰富的监督并提高了数据效率。实验证明，我们的方法可以被很容易的应用到不同的DETR变种上去，并在较小和较大的数据集上均可提升检测效果。</p>
-<h3 id="简介"><a href="#简介" class="headerlink" title="简介"></a>简介</h3><p>目标检测是在计算机视觉领域里面的长盛不衰的话题。最近一种新型的目标检测算法，名叫detection transformer，因为其的简单和尚可的检测效果吸引了许多的注意力。这个类别的先驱工作是DETR，其将目标检测的任务看作是直接的集合预测问题，并利用transformer直接将目标查询转换为目标对象。其实现了相对于开创性的Faster RCNN在常用的COCO数据集上更好的效果，但其具有收敛速度显著慢于基于CNN系列检测器的缺点。因为这个原因，许多随后的工作都是致力于提高DETR的收敛速度。</p>
+          <h1 id="Bag-of-Tricks-and-A-Strong-Baseline-for-Deep-Person-Re-identification"><a href="#Bag-of-Tricks-and-A-Strong-Baseline-for-Deep-Person-Re-identification" class="headerlink" title="Bag of Tricks and A Strong Baseline for Deep Person Re-identification"></a>Bag of Tricks and A Strong Baseline for Deep Person Re-identification</h1><p>针对的问题：目前先进的基于深度神经网络的人员重识别技术设计了复杂的网络结构和串联多分支特征。</p>
+<p>本文收集并评估了一些有效的训练技巧，通过对技巧的结合，模型仅使用全局特征即达到在Market1501上95.4％的rank-1。</p>
+<p>作者认为，一个算法的baseline是十分重要的，对发表在顶会上的算法的baseline进行调查之后发现，顶级会议文章所选用的baseline效果大都较差。因此，作者使用一些训练策略更改了baseline。</p>
+<p>本文的研究目的总结如下：</p>
 <ul>
-<li>Deformable DETR：通过efficient attention mechanism机制</li>
-<li>Swin transformer：通过conditional spatial query机制</li>
-<li>（SMCA）Fast convergence of detr with spatially modulated co-attention：通过regression-aware co-attention机制</li>
+<li>调查了许多发表在顶级会议上的作品，发现其中大多数都是在糟糕的baseline上扩展的</li>
+<li>对于学术界，我们希望为研究人员提供一个强有力的基线，以实现更高的准确性。</li>
+<li>对于社区，我们希望给评论者一些参考，什么技巧会影响ReID模型的性能。我们建议，在比较不同方法的性能时，评审人员需要考虑这些技巧。</li>
+<li>对于行业来说，我们希望提供一些有效的技巧，在不消耗太多额外的情况下获得更好的模型</li>
 </ul>
-<p>这些上述的方法都可以在COCO数据集上以相似的训练代价，实现相对于Faster RCNN而言更好的检测效果，证明了DETR类方法的优越性。</p>
-<p>现有的工作大都认为DETR类的方法在简单性和模型效果上均优于基于CNN的目标检测器。然而本文发现，DETR只有在充足的训练数据的情况下（例如COCO2017,有118K训练数据）才能展现出其优越的性能，然而在训练数据量不是非常充足的时候，其的效果会出现明显的下降。以自动驾驶领域常用的数据集Cityscapes（约3k训练数据）为例，大部分的DETR类的方法的AP小于Faster RCNN的AP的一半。且不同的DETR类的检测器，其性能的差距在COCO数据集上是小于3AP的，但在数量较小的Cityscapes数据集上，其会存在一个明显的差距，其性能差距约有15AP。如下图所示：</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220811161935395.png" alt="image-20220811161935395"></p>
-<p>这些发现证明了DETR类的目标检测相较于CNN类的目标检测器而言，更需要大量的数量进行训练。然而带有标签的数据的获取是需要大量的时间和人力的。</p>
-<p>总而言之，为了迎合目前现存的DETR对训练数据的需求，需要大量的人力和计算资源。为了应对这个问题，本文首先从实验上，通过逐步的将数据高效的Sparse RCNN转换为DETR，分析了影响DETR中影响数据效率的关键性因素。我们的发现和分析表明：</p>
+<p>本文研究了六个技巧，使准确率在Market1501上达到了94.5％的rank1和85.9％的mAP，本文的主要贡献如下：</p>
 <ul>
-<li>稀疏的局部特征采样是影响数据效率的关键，<ul>
-<li>其缓解了学习注意到特定物体的困难</li>
-<li>其避免了图像像素两倍的计算复杂度</li>
-<li>令利用多尺度的特征成为可能，多尺度的特征已经被证明在目标检测任务中是关键的</li>
-</ul>
+<li><p>收集了一些有效的训练技巧并设计了一种新型颈结构，命名为BNNeck。且两个广泛使用的数据集上评估了每个技巧的改进。</p>
 </li>
-</ul>
-<p>基于上述的观察，我们通过简单的交替 key 和 value序列在cross attention中的构造方式，提升了现存的DETR类的目标检测算法的数据效率。具体来说，我们在前一个解码器层预测的边界框的指导下，对发送到交叉注意力层的键和值特征执行稀疏采样特征，这样对原始模型的修改最少，并且没有任何专门的模块。另外，本文通过提供给DETR丰富的监督信号来缓解对数据的需求。为达到这个目的，本文提出了一种标签加强的方式，通过在标签分配的过程中重复前景物体的label去高效并简单的执行。这个方法可以被应用在不同的DETR类的方法从而提升其的数据效率。有趣的是，其依旧带来了在训练数据充足的COCO数据集上的性能提升。</p>
-<p>本文的贡献如下总结所示：</p>
-<ul>
-<li>本文确定了DETR的数据效率的问题。虽然DETR实现了在COCO数据集上的优秀效果，其一般会在小规模的数据集上遭受到明显的性能下降。</li>
-<li>本文通过从 Sparse RCNN 到 DETR 的逐步模型转换，通过实验分析了影响检测转换器数据效率的关键因素，并发现局部区域的稀疏特征采样是数据效率的关键。</li>
-<li>本文通过简单的交替在cross-attention模块中key和value序列的构造方式，明显的提升了现存的DETR方法的数据效率</li>
-<li>本文提出了一种简单但有效的标签增强策略，从而提供更丰富的监督信号并提升了数据效率。其可以与不同的方法融合，从而实现在不同数据集上的性能增益。</li>
-</ul>
-<h3 id="相关工作"><a href="#相关工作" class="headerlink" title="相关工作"></a>相关工作</h3><h4 id="目标检测"><a href="#目标检测" class="headerlink" title="目标检测"></a>目标检测</h4><p>目标检测在许多现实生活中是非常必要的，例如自动驾驶，缺陷检测和遥感。最具有代表性的目标检测的工作可以被粗略的分为两类，两阶段的Faster RCNN和一阶段的YOLO和RetinaNet。虽然上述方法有效，但上述方法一般而言是需要以来与许多人工设计（启发式算法）的先验，例如anchor generation和rule based 标签分配方式。</p>
-<p>最近DETR提供了一种简单并且干净的目标检测的计算流程。其将目标检测看作是集合预测的任务，并应用transformer将稀疏的目标候选转换为目标物体。DETR的成功引爆了最近井喷的DETR类的方法，并且许多最近的工作都致力于缓解DETR的收敛速度慢的问题。</p>
-<ul>
-<li>DeformDETR 提出了可学习的稀疏特征采样的可变形注意力机制并聚合多尺度特征以加速模型收敛并提高模型性能。</li>
-<li>CondDETR 提出从解码器嵌入中学习条件空间查询，这有助于模型快速学习定位四个末端以进行检测</li>
-</ul>
-<p>这些工作实现了在COCO 2017数据集上用相似的训练代价得到Faster RCNN更好的性能。这似乎表明DETR类的方法已经在简单性和性能上压制了Faster RCNN。但本文发现DETR通常需要更多的数据，并在小规模的数据集上表现比Faster RCNN要差。</p>
-<h4 id="目标检测中的标签分配"><a href="#目标检测中的标签分配" class="headerlink" title="目标检测中的标签分配"></a>目标检测中的标签分配</h4><p>在目标检测中，标签分配是一个十分重要的组件。其将一个物体的ground truth与从模型中的一个预测相匹配，从而为训练提供监督信号。在DETR之前，许多的目标检测器采用的是一对多的匹配策略，其将每个ground trurh基于局部空间关系分类给多个预测框。而DETR相反，其是采用的一对一的匹配策略，将ground truth与预测框之间通过最小化全局匹配损失来进行匹配。这个标签分配方式被许多的后续的DETR方法所采用。尽管这样的分配方式具有避免了重复移除的过程的优点，但只有少量的候选目标在每次迭代的过程中被目标标签所监督。这样就会导致模型必须从大量的数据中获得足够的监督信号或需要更多论次的训练。为了解决这个问题，本文提出了一种标签增强的方式去提供更丰富的监督信号。</p>
-<h4 id="视觉transformer（ViT）中的数据效率"><a href="#视觉transformer（ViT）中的数据效率" class="headerlink" title="视觉transformer（ViT）中的数据效率"></a>视觉transformer（ViT）中的数据效率</h4><p>视觉transformer正在成为特征提取器和视觉识别的CNN的替代品。尽管其具有优秀的性能表现，但其一般而言需要比CNN需要更多的数据，并依赖于大量的数据和更多轮次的训练。</p>
-<ul>
-<li>DeiT 通过从预训练的CNN上进行知识蒸馏，配合上更好的训练配方，从而提高了数据效率</li>
-<li>Liu等人提出了一个密集的相对定位损失去提高ViT类算法的数据效率（Efficient training of visual transformers with small datasets）</li>
-</ul>
-<p>与之前专注于transformer主干在图像分类任务上的数据效率问题不同，本文在目标检测任务上处理DETR数据效率的问题</p>
-<h3 id="RCNN类算法与DETR类算法的不同之处分析"><a href="#RCNN类算法与DETR类算法的不同之处分析" class="headerlink" title="RCNN类算法与DETR类算法的不同之处分析"></a>RCNN类算法与DETR类算法的不同之处分析</h3><p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812084137035.png" alt="image-20220812084137035"></p>
-<p>上图为从SRCN（Sparse RCNN）逐渐转化为DETR的过程中，在Ciytscapes数据集上，分别在训练50 epoch和300 epoch的情况下的AP情况。</p>
-<p>对上图进行分析可得，DETR一般而言相比与RCNN需要更多的数据。为了寻找影响数据效率的关键性因素，本文将数据效率高的RCNN逐步的转变为数据效率较低的DETR，从而消融不同设计的影响。相同的实验方法在ATSS和Visformer中被使用，但实验目的不同。</p>
-<h4 id="检测器的选择"><a href="#检测器的选择" class="headerlink" title="检测器的选择"></a>检测器的选择</h4><p>为了从模型的转换中获得有效的结果，需要选择适当的检测器去参与实验。为了达到这个目的，本文选择Sparse RCNN和DETR作为实验模型，原因如下所示：</p>
-<ul>
-<li>两个模型都是在各自的领域里（RCNN类和DETR类）具有代表性的模型。所以由这两者的转换得出的结论可以推广到其他的探测器中去。</li>
-<li>这两个模型在数据效率方面有巨大的差异</li>
-<li>其在标签分配（label assignment）、损失函数设计（loss design），优化器选择（optimization）上具有许多的相似之处。这些相似之处可以在我们专注于核心部件的不同的时候消除没有那么重要的部件的影响。</li>
-</ul>
-<h4 id="Sparse-RCNN到DETR的转换"><a href="#Sparse-RCNN到DETR的转换" class="headerlink" title="Sparse RCNN到DETR的转换"></a>Sparse RCNN到DETR的转换</h4><ul>
-<li>交替训练方式<ul>
-<li>虽然Sparse RCNN和DETR有许多的相似之处，但其在训练策略（训练方式）上依旧有所不同。如分类损失、object query的数量，学习率和梯度剪切。本文首先通过将Sparse RCNN的训练策略用DETR的训练策略替代，我们发现Sparse RCNN用DETR的训练策略进行训练时，其在50 epoch时表现稍好，但在300epoch时表现较差。消除训练策略的差异可以帮助我们关注与影响数据效率的更核心的因素。</li>
-</ul>
+<li><p>我们提供了强大的ReID基线。值得一提的是，该结果是利用ResNet50骨干网提供的全局特征获得的。据我们所知，这是全局特性在亲自ReID中获得的最佳性能。</p>
 </li>
-<li>移除FPN：<ul>
-<li>多尺度特征融合已经被证明对目标检测是有效的。当CNN类的FPN neck可以实现在较小的计算代价的情况下完成多尺度特征融合，注意力机制有输入图像尺寸的平方的计算复杂度，使在DETR中对多尺度特征融合代价昂贵。因此DETR只采用了原图像经过32倍下采样的单尺度特征进行预测。在这个阶段，我们移除了FPN neck部分，并只将经过32倍下采样的特征传入检测头。模型在50epoch的情况下性能明显的下降了7.3AP</li>
-</ul>
+<li><p>作为补充，我们评估了图像大小和批量大小的数量对ReID模型性能的影响。</p>
 </li>
-<li>引入transformer encoder：<ul>
-<li>在DETR中，transformer encoder可以被认为是检测器的neck部分，其被用来处理被backbone提取出的特征。在移除了FPN neck之后，我们加入transformer encoder作为网络的neck。与在DETR中相似，backbone提取出的特征投影和位置编码同样被引入。试验结果表明AP在50epoch的时候有所下降，在300eopch的时候有所上升。我们推测其与ViT中相似，注意力机制因为其平方项的复杂度和缺少先验知识，其需要更长的训练epoch去收敛和发展其的优势。</li>
 </ul>
+<h2 id="标准-Re-ID-baseline"><a href="#标准-Re-ID-baseline" class="headerlink" title="标准 Re-ID baseline"></a>标准 Re-ID baseline</h2><ol>
+<li><p>在ImageNet上使用预训练的参数初始化ResNet50，并将全连接层的维数更改为N。N表示训练数据集中的身份数。</p>
 </li>
-<li>使用cross-attention替代dynamic convolutions<ul>
-<li>在Sparse RCNN中的dynamic convolutions（动态卷积）和DETR中的cross-attention（互注意力）的作用相似。它们都基于图像特征的相似性自适应地将上下文聚合到候选对象。在这个步骤中，我们将dynamic convolutions替换为带有可学习的query positional embedding，其结果反直觉的表示：大量可学习的参数不一定会让模型需要更多的数据。事实上，动态卷积的70M的参数可以展现出相较于cross-attention而言更好的数据效率。</li>
-</ul>
+<li><p>我们随机抽取每个人的P个身份和K张图像，构成一个训练批次。最后批大小为B = P×K。在本文中，我们设P = 16, K = 4。</p>
 </li>
-<li>对齐解码器中的dropout设置<ul>
-<li>在Sparse RCNN和DETR中的decoder是非常相似的。在将dynamic convolution 用cross-attention替代之后，其可以被认为是transformer decoder。在其之间有一个轻微的不同是dropout layer在self-attention和FFN之间的使用。我们消除了这个影响。</li>
-</ul>
+<li><p>我们将每张图像调整为256 × 128像素，并将调整后的图像填充为10个零值像素。然后随机裁剪成256 × 128的矩形图像。</p>
 </li>
-<li>移除级联边缘框细化<ul>
-<li>Sparse RCNN遵循了Cascade RCNN中的级联边缘框回归，其中每个decoder层都迭代的细化前一层做的边缘框预测。本文移除了这个步骤，模型性能有所下降。虽然级联边缘框细化没有被大多数的DETR类的检测器所使用，但其可以自然的被级联解码器所包含。</li>
-</ul>
+<li><p>每幅图像以0.5概率水平翻转。</p>
 </li>
-<li>移除ROIAlign<ul>
-<li>Sparse RCNN和其余RCNN类的检测其相同，从感兴趣的局部区域采样特征，然后根据采样的稀疏特征进行预测。而每个DETR中的内容查询直接从全局的特征图中聚合特定于对象的信息。在这个步骤中，我们移除了Sparse RCNN中的ROIAlign，box target transformation也被移除。我们可以发现，模型的性能出现了明显的下降，在50epoch的情况下出现了8.4Ap的下降。我们推测从整个特征图上学习到局部对象区域的代价较大，所以模型需要更多的数据和训练epoch去获取局部属性。</li>
-</ul>
+<li><p>每张图像解码为[0,1]中的32位浮点原始像素值。然后分别减去0.485,0.456,0.406，除以0.229,0.224,0.225，归一化RGB通道。</p>
 </li>
-<li>移除初始的proposals<ul>
-<li>最终，DETR直接预测了目标的bounding box，RCNN类预测使用了一些初始化的先验。在这个步骤中，我们通过移除初始的proposals消除了影响。预料之外的是，这个小改变使模型性能出现了明显的下降。我们人文初始的proposals作为空间上的先验，帮助模型聚焦于局部空间信息，从而减少了从大量训练数据中学习局部性的需要</li>
-</ul>
+<li><p>该模型输出ReID特征f和ID预测logits p。</p>
+</li>
+<li><p>ReID特征f用于计算triplet loss。ID预测logits p用于计算交叉熵损失。triplet loss的边际m设置为0.3。</p>
+</li>
+<li><p>采用Adam方法对模型进行优化。初始学习率设置为0.00035，在第40 epoch和第70 epoch分别降低到初始学习率的0.1。总共有120个训练阶段。</p>
 </li>
-</ul>
-<h4 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h4><p>如上所示，从Sparse RCNN转换为DETR的结果和分析如下所示：</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812084137035.png" alt="image-20220812084137035"></p>
-<p>其在更改之后对AP影响大于5AP的本文认为是影响数据效率的关键因素，如下所示：</p>
-<ol>
-<li>局部稀疏特征采样</li>
-<li>依赖稀疏特征采样的多尺度特征拥有可接受的计算复杂度</li>
-<li>依赖于空间先验的预测</li>
 </ol>
-<p>其中，1和3有助于模型关注局部对象区域，减轻从大量数据中学习局部性的需求，而2有助于更全面地利用和增强图像特征，但它也依赖于稀疏特征。</p>
-<p>DeformDETR是在DETR中特殊的一种，其表现出了与Sparse RCNN相比而言有可比性的数据效率。我们从Sparse RCNN到DETR的变换过程中可以对DeformDETR的数据效率进行解释：multi-scale deformable attention从图像的局部区域采样稀疏特征并利用多尺度特征。 模型的预测是相对于初始参考点的。 因此，DeformDETR 尽管没有专门设计在小型数据集上实现数据高效，但其满足了所有三个关键因素。</p>
-<h3 id="方法"><a href="#方法" class="headerlink" title="方法"></a>方法</h3><p>本节主要利用现有的DETR类方法，在对原始的设计做最小的改变的前提下提升数据效率。</p>
+<h2 id="训练技巧"><a href="#训练技巧" class="headerlink" title="训练技巧"></a>训练技巧</h2><p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417202016054.png" alt="image-20230417202016054"></p>
+<p>使用的训练技巧如下所示：</p>
 <ul>
-<li>本文重新对现有的DETR类算法进行了审视思考</li>
-<li>基于前文的实验和分析，对现有的数据需求量巨大的DETR类模型做最少的改变并显著的提升他们的数据效率。</li>
-<li>提供一种简单但有效的标签增强方法，从而为DETR提供更丰富的监督信号提升数据效率。</li>
+<li><code>Warmup Learning Rate</code>：学习率对模型的性能表现有很大的影响。在实践中，如下所示，使用10个epoch线性增加学习速率，从$3.5\times10^{-5}$到$3.5\times10^{-4}$。在第40 epoch和第70 epoch，学习率分别衰减到$3.5\times10^{-5}$和$3.5\times10^{-6}$。即第t时代的学习率lr(t)计算为:</li>
 </ul>
-<h4 id="对DETR的重新审视"><a href="#对DETR的重新审视" class="headerlink" title="对DETR的重新审视"></a>对DETR的重新审视</h4><h5 id="模型结构"><a href="#模型结构" class="headerlink" title="模型结构"></a>模型结构</h5><p>DETR通常来说，由backbone，transformer encoder，transformer decoder，prediction head构成。</p>
+<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417202745696.png" alt="image-20230417202745696"></p>
+<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417202823803.png" alt="image-20230417202823803"></p>
 <ul>
-<li><p>backbone：backbone首先从输入图片中提取多尺度的特征，被称作$\{f^l\}^L_{l=1}$，其中$f^l \in R^{H ×W ×C}$。最后一个特征曾有着最小的分辨率，将其展平并嵌入以获得$z^L \in R^{S^L \times D}$，其中$S^L =H^L \times W^L$是序列长度，$D$是特征维度。相应的，位置编码嵌入被表示为$p^L \in R^{S^L\times D}$。</p>
+<li><p><code>Random Erasing Augmentation</code>:在ReID任务中，图片中的人常被其他物体遮挡，为解决该问题并提高系统的泛化性，使用随机擦除增强方案。在实际使用中，对于mini-batch中的图片I，其被随机擦除的概率为$p_e$，即保持不变的概率为$1-p_e$，REA在图片$I$中随机选择尺寸大小为$(W_e,H_e)$的矩形区域$I_e$，并将其填充为随机的数值。假设图像I和区域$I_e$的面积分别为$S = W × H$和$S_e = W_e × H_e$，使用$r_e = S_e/S$为擦除矩形区域的面积比。此外，区域$I_e$的纵横比在$r_1$和$r_2$之间随机初始化。REA随机初始化一个点$P=(x_e, y_e)$。如果$x_e + W_e≤W$,$ y_e + H_e≤H$，则设区域$I_e = (x_e, y_e, x_e + W_e, y_e + H_e)$为所选矩形区域。否则，重复上述过程，直到选择合适的$I_e$。对于所选的擦除区域$I_e$, $I_e$​中的每个像素都被赋值为区域I的均值，本文中，设置超参数如下所示：$p = 0.5$, $0.02 &lt;S_e &lt; 0.4$, $r1 = 0.3$, $r2 = 3.33$,</p>
 </li>
-<li><p>transformer encoder：之后单尺度序列特征被transformer编码，并获得$Z^L_e \in R^{S^L \times D}$。</p>
+<li><p><code>Label Smoothing</code>:在标准的ReID任务中，ID Embedding是ReID的一个基础组件，其输出图片的ID预测。标准的交叉熵损失的计算如下所示。</p>
+<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417205337361.png" alt="image-20230417205337361"></p>
+<p>但是由于测试集的人员ID在训练集中未曾出现，所以防止ReID模型过度拟合训练ID较为重要，针对该问题，使用标签平滑（LS）方案，对应公式如下所示：</p>
+<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417205726034.png" alt="image-20230417205726034"></p>
+<p>其中$\epsilon$为一个较小的常数，其使模型在训练集上不那么武断、不那么自信，在本研究中，设置$\epsilon$为0.1。</p>
 </li>
-<li><p>transformer decoder：decoder包含了$L_d$层的decoder layers。 查询内容的嵌入表示被初始化为$q_0\in R^{N\times D}$，其中$N$是查询的数量。每个decoder层 $DecoderLayer_l$采用上一个decoder的输出$q_{l-1}$，查询位置编码$p_l$，图像序列特征$z_l$和其位置嵌入$p_l$作为输入，输出为解码序列特征。即</p>
-<p>$q _l= DecoderLayer_l (q_{l−1} , p_q , z_l, p_l),= 1 . . . L_d $</p>
-<p>在大多数DETR类检测器中，例如DETR和CondDETR，单尺度的图像特征被解码器所利用，因此$z_l=z^L_e$、$p_l=p^L$，其中$l=1…L_d$</p>
+<li><p><code>Last Stride</code>:由于更高的空间分辨率所带来的特征的粒度就越丰富。故增加特征图的大小可以较明显的增强特征表述。假设输入的图片初始尺寸为$256\times128$，经过ResNet50网络进行特征提取之后，输出的特征图尺寸为$8\times4$，如果将其最终一步的stride由2更改为1，对应的输出的特征图尺寸为$16\times8$，从而实现特征更为丰富空间尺寸更大的特征图，并能带来显著的改善。</p>
+</li>
+<li><p><code>BNNeck</code>:前人的许多ReID相关的工作将ID loss和triplet loss相结合，从而联合训练ReID模型。标准的联合训练方式中，ID loss和 triplet loss 约束相同的特征f，但是这两个损失的目标在嵌入空间是不同的。大量前置的研究发现，分类损失其实是在特征空间学习几个超平面，把不同类别的特征分配到不同的子空间里面（类比于SVM分类器中的超平面）。并且从人脸的SphereFace到ReID的SphereReID等工作都显示，把特征归一化到超球面，然后再优化分类损失会更好。triplet loss适合在自由的欧式空间里约束。我们经常观察到，如果把feature归一化到超球面上然后再用triplet loss优化网络的话，通常性能会比不约束的时候要差。我们推断是因为，如果把特征约束到超球面上，特征分布的自由区域会大大减小，triplet loss把正负样本对推开的难度增加。而对于分类超平面，如果把特征约束到超球面上，分类超平面还是比较清晰的。对于标准的Baseline，一个可能发生的现象是，ID loss和triplet loss不会同步收敛。通常会发现一个loss一直收敛下降，另外一个loss在某个阶段会出现先增大再下降的现象。也就是说这两个task在更新的过程中梯度方向可能不一致。<br>针对该问题，希望找个一种方式，使得triplet loss能够在自由的欧式空间里约束feature，而ID loss可以在一个超球面附近约束feature，于是乎就出现了以下的BNNeck。BNNeck的原理也很简单，网络global pooling得到的feature是在欧式空间里的，我们直接连接triplet loss，我们把这个feature记作$f_t$ 。然后这个feature经过一个BN层得到$ f_i$，经过BN层的归一化之后，batch里面$f_i$的各个维度都被拉到差不多，最后近似地在超球面附近分布。<br><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230417210658881.png" alt="image-20230417210658881"><br>最后特征的分布可以大致认为如下分布：从而感性的感受到ID loss和 Triplet loss的区别以及BNNeck的用途。</p>
+<p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230418101628876.png" alt="image-20230418101628876"></p>
+</li>
+<li><p><code>Center Loss</code>:Triplet loss的公式为$L_{Tri} = [d_p − d_n + α]_+$，其中$d_p$为正例之间的距离度量，$d_n$为负例之间的距离度量，$\alpha$为triplet loss的余量，文章中设置为0.3 。然而Triplet loss值考虑了正例与负例之间的差值，但没有考虑正例和负例的绝对值。故引入Center Loss，其学习每个类的深层特征的中心，并惩罚深层特征与对应类中心之间的距离，其表达式为</p>
 <ul>
-<li>prediction head ：DETR的head是使用的单纯的FFN前馈网络加上softmax进行的判断</li>
+<li><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230418110411492.png" alt="image-20230418110411492"></li>
+<li>其中$y_j$为第一个mini-batch中第j个图像的标签，$c_{y_j}$为深层特征的第一级中心，B为batch size。其有效的描述了类内变化，增加了类间的紧凑型。</li>
+<li>最终的Loss表述为：$L=L_{ID}+L_{Triplet}+\beta L_C$，其中$\beta$为center loss的平衡系数，被设置为0.0005.</li>
 </ul>
 </li>
 </ul>
-<h5 id="标签分配"><a href="#标签分配" class="headerlink" title="标签分配"></a>标签分配</h5><p>DETR将目标检测任务视作集合预测的问题，并对每个解码器层的预测执行深度监督。在这个过程中，标签集可以被表示如下：$y=\{y_1,…,y_M,\emptyset,…,\emptyset\}$，其中$M$为前景物体的在图像中的数量，$\emptyset$(no object)被填充到标签集合里，使标签集合的大小为$N$。相应的，每个decoder的输出可以被写作$\hat y = \{\hat y\}_{i=1}$。在标签分配的过程中，DETR搜寻一个最优的$τ \in T_N$，使得下述的匹配损失最小：</p>
-<script type="math/tex; mode=display">
-\hat τ= argmin_{$τ \in T_N}\sum^N_iL_{ match} (y_i , \hat y_{τ (i)})</script><p>其中$L_{ match} (y_i , \hat y_{τ (i)})$为在ground truth和index为$τ (i)$的预测之间的配对损失。</p>
-<h4 id="模型的提升"><a href="#模型的提升" class="headerlink" title="模型的提升"></a>模型的提升</h4><h5 id="系数特征采样"><a href="#系数特征采样" class="headerlink" title="系数特征采样"></a>系数特征采样</h5><p>根据上述RCNN类算法与DETR类算法的不同之处分析，我们分析可得局部特征采样对数据效率是非常关键的。幸运的是，在DETR中，物体位置是在每个decoder layer之后预测得出的，因此，我们可以在上一个decoder预测的bounding box的指导下不需要引入新的参数的采样局部特征。如下图所示：</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/vz2GLTd9Ylg5q.png" alt="img"></p>
-<p>虽然有更复杂的局部特征采样方法可以使用，本文只采用了最常用的RoIAlign。采样操作可以被写成如下形式：</p>
-<p>$z_L = RoIAlign(z^L_e , b_{l-1}),\ \ \ l=2…L_d$</p>
-<p>其中$b_{l-1}$是上一层预测得出的边缘框，$z_l^L\in R^{N\times K^2\times D}$是被采样的特征，$K$是在RoIAlign采样的特征分辨率。注意reshape操作和flatten操作在上式中被省略。类似的，可以得到对应的position embedding  $p^L_l$。</p>
-<p>在DETR中的级联结构使使用逐层边界框细化来提升检测性能很自然。本文在RCNN类算法与DETR类算法的不同之处分析处也验证了迭代细化和对初始空间参考进行预测的有效性。因此，本文如CondDETR一样引进了边缘框细化和在实施过程中的初始参考点。</p>
-<h5 id="结合多尺度特征"><a href="#结合多尺度特征" class="headerlink" title="结合多尺度特征"></a>结合多尺度特征</h5><p>我们的系数特征采样使DETR以较小的计算花销使用多尺度特征变得可能。为了达到这个目的，本文使用backbone从被展平和嵌入之后的高分辨率特征提取特征以得到$\{z^l\}^{L-1}_{l=1} \in \R^{S^l \times D}$，从而进行局部特征采样。然而这些特征不被transformer encoder处理。虽然可以使用更复杂的技术，这些单尺度的被RoIAlign所采样的特征被简单的拼接，从而形成我们的多尺度的特征。这些特征可以被自然的利用cross-attention机制在decoder中被融合。</p>
-<p>$z^{ms}_l=[z^1_l],[z^2_l],…,[z^L_l],l=2…L_d$</p>
-<p>其中$z^{ms}_l \in \R^{N \times LK^2 \times D}$为多尺度特征，$z^l_L=RoIAlign(z^l,b_{l-1}),l-1…L-1$是。对应的位置嵌入$p^{ms}_l$用相似的方式得到。解码过程和原始的DETR是相同的。唯一的区别在于$z_l=z^{ms}_l$以及$p_l=p^{ms}_l$。</p>
-<h4 id="标签增强"><a href="#标签增强" class="headerlink" title="标签增强"></a>标签增强</h4><p>DETR展现出了标签分配的一对一的分配方式。尽管拥有避免重复删除过程的优点，但只有少数检测候选者在每次迭代中都被提供了一个积极的监督信号。这样会导致模型需要更大数量的数据或者更多论次的训练，从而获得足够的监督。</p>
-<p>为了缓解这个问题，本文提出了一种标签增强的策略为DETR提供更丰富的监督信号，即通过在二部图匹配的过程中重复positive labels。如下图所示：</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/kITnuhEstBzQy.png" alt="img"></p>
-<p>我们为每个前景样本$y_i$重复labels $R_i$次，并使label set $N$的总长度不变。</p>
-<p>$y=\{ y^1_1,y^2_1,…,y^{R_1}_1,…y^1_M,y^2_M,…,y^{R_M}_M,…,\emptyset,…,\emptyset    \}$</p>
-<p>label assignment的其余公式与DETR中相同。</p>
-<p>在实际操作的过程中，考虑以下两种重复策略：</p>
-<ul>
-<li>固定重复次数：所有positive的label都被重复相同的次数</li>
-<li>固定positive采样比例：positive的labels被重复采样，从而确保有$r$个positive样本在label set中。</li>
-</ul>
-<p>特别的$F=N\times r$是重复标签后的预期正样本数。 我们首先将每个正标签重复 $F//M$次，然后随机抽取 $F \% M $个正标签而不重复。 默认情况下，我们使用固定重复次数策略，因为它更容易实现并且生成的标签集是确定性的。</p>
-<h3 id="实验"><a href="#实验" class="headerlink" title="实验"></a>实验</h3><h4 id="数据集"><a href="#数据集" class="headerlink" title="数据集"></a>数据集</h4><p>本文重点关注DETR的数据效率。因此，我们的大多数实验都是在 Cityscapes 和下采样 COCO 2017在内的小型数据集上进行的。具体来说，Cityscapes 数据集包含2,975 张用于训练的图像和500 张用于评估的图像。对于下采样的 COCO 2017 数据集，训练图像随机下采样0.1、0.05、0.02 和0.01，而评估集保持不变。此外，我们还验证了我们的方法在具有118K 训练图像的全尺寸 COCO 2017 数据集上的有效性。</p>
-<h4 id="实施细节"><a href="#实施细节" class="headerlink" title="实施细节"></a>实施细节</h4><p>默认情况下，我们的特征采样实现为 RoIAlign，特征分辨率为4。包括三个不同的特征级别用于多尺度特征融合。我们的标签增强采用固定重复次数，并且使用阈值为0.7 的非极大值抑制(NMS)来去除重复。所有模型都训练了50 个 epoch，并且除非另有说明，否则学习率会在40 个 epoch 后衰减。在 ImageNet-1K 上预训练的 ResNet-50用作主干。为了保证足够的训练迭代次数，所有关于 Cityscapes 和下采样 COCO2017 数据集的实验都以8 的batch size进行训练。结果是使用不同的随机种子重复运行五次的平均值。我们的数据高效检测转换器仅对现有方法进行轻微修改。除非另有说明，否则我们遵循相应基线方法的原始实现细节。运行时间在 NVIDIA A100 GPU 上进行评估。</p>
-<h4 id="主要结果"><a href="#主要结果" class="headerlink" title="主要结果"></a>主要结果</h4><h5 id="基于Cityscapes"><a href="#基于Cityscapes" class="headerlink" title="基于Cityscapes"></a>基于Cityscapes</h5><p>在本节中，我们将我们的方法与现有的DETR进行比较。 如下表所示，大多数检测变压器都存在数据效率问题。 尽管如此，通过对 CondDETR 模型进行微小更改，我们的 DE-CondDETR 能够实现与 DeformDETR 相当的数据效率。 此外，通过标签增强提供的更丰富的监督，我们的 DELA-CondDETR 超过了 DeformDETR 2.2 AP。 此外，我们的方法可以与其他检测转换器相结合，以显着提高它们的数据效率，例如，我们训练了 50 个 epoch 的 DE-DETR 和 DELA-DETR 的性能明显优于训练了 500 个 epoch 的 DETR。另外，我们的方法依旧提高了DeformDETR的数据效率。见下</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812145944038.png" alt="image-20220812145944038"></p>
-<p>上表为DETR在Cityscapes上的比较，DE前缀表明使用了本文的data-efficient，LA表明使用了label增强。</p>
-<hr>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812151829137.png" alt="image-20220812151829137"></p>
-<p>上表为DeformDETR使用了LA之后的效果对比。</p>
-<hr>
-<h5 id="基于下采样的COCO2017数据集"><a href="#基于下采样的COCO2017数据集" class="headerlink" title="基于下采样的COCO2017数据集"></a>基于下采样的COCO2017数据集</h5><p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812151508333.png" alt="image-20220812151508333"></p>
-<p>下采样的 COCO 2017 数据集分别包含 11,828 (10%)、5,914 (5%)、2,365 (2%) 和 1,182 (1%) 训练图像。 如上图 所示，我们的方法在很大程度上始终优于基线方法。 特别是，仅用 ∼1K 图像训练的 DELA-DETR 显着优于 DETR 基线，训练数据是训练数据的五倍。 同样，DELA-CondDETR 始终优于使用两倍数据量训练的 CondDETR 基线。</p>
-<hr>
-<h4 id="消融实验"><a href="#消融实验" class="headerlink" title="消融实验"></a>消融实验</h4><p>在本节中，我们进行消融实验以更好地理解我们方法的每个组成部分。 所有消融研究都是在 DELACondDETR 和 Cityscapes 数据集上实施的，而更多基于 DELADETR 的消融研究可以在我们的附录中找到。</p>
-<hr>
-<h5 id="每个模块的有效性"><a href="#每个模块的有效性" class="headerlink" title="每个模块的有效性"></a>每个模块的有效性</h5><p>我们首先消融了我们方法中每个模块的作用，如下表所示。使用局部特征采样和多尺度特征融合将模型的性能分别显着提高了 8.3 和 6.4 AP。 此外，标签增强进一步将性能提高了 2.7 AP。 此外，单独使用标签增强也带来了 2.6 AP 的性能增益。</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812152636147.png" alt="image-20220812152636147"></p>
-<hr>
-<h5 id="RoIAlign-的特征分辨率"><a href="#RoIAlign-的特征分辨率" class="headerlink" title="RoIAlign 的特征分辨率"></a>RoIAlign 的特征分辨率</h5><p>通常，RoIAlign 中较大的样本分辨率可提供更丰富的信息，从而提高检测性能。 然而，采样更大的特征分辨率也更耗时，并且增加了解码过程的计算成本。 如下表所示，当分辨率从 1 增加到 4 时，模型性能显着提高了 5.6 AP。但是，当分辨率进一步增加到 7 时，改进很小，并且增加了 FLOPs 和延迟。 为此，我们将 RoIAlign 的特征分辨率默认设置为 4。</p>
-<h5 id="多尺度特征的数量"><a href="#多尺度特征的数量" class="headerlink" title="多尺度特征的数量"></a>多尺度特征的数量</h5><p>为了结合多尺度特征，我们还从主干中采样了 8 倍和 16 倍的下采样特征来构建3个不同级别的多尺度特征。 从上表可以看出，它显着提高了模型性能 6.4 AP。 然而，当我们进一步为多尺度融合添加 64 倍下采样特征时，性能下降了 0.5 AP。 默认情况下，我们使用 3 个特征级别进行多尺度特征融合。</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812152843982.png" alt="image-20220812152843982"></p>
-<hr>
-<h5 id="标签增强的策略"><a href="#标签增强的策略" class="headerlink" title="标签增强的策略"></a>标签增强的策略</h5><p>在本节中，我们消融了提出的两种标签增强策略，即固定重复时间和固定正样本比率。 如下左表 所示，使用不同的固定重复次数可以持续提高 DE-DETR 基线的性能，但性能增益会随着重复次数的增加而降低。 因此，默认采用固定重复时间 2。 此外，如下右表 所示，虽然使用不同的比率可以提高 AP，但在正负样本比率为 1:3 时性能最佳，有趣的是，这也是Faster RCNN中最常用的正负采样比率。</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812154348539.png" alt="image-20220812154348539"></p>
-<h4 id="泛化到特征丰富的数据集"><a href="#泛化到特征丰富的数据集" class="headerlink" title="泛化到特征丰富的数据集"></a>泛化到特征丰富的数据集</h4><p>虽然上述实验表明，我们的方法可以在只有有限的训练数据可用时提高模型性能，但不能保证我们的方法在训练数据充足的情况下仍然有效。 为此，我们用足够多的数据在 COCO 2017 上评估了我们的方法。 从下表 中可以看出，我们的方法不会降低 COCO 2017 上的模型性能。相反，它提供了改进效果。 具体来说，DELA-DETR 和 DELA-CondDETR 分别将其相应的基线提高了 8.3 和 2.8 AP。</p>
-<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812153538482.png" alt="image-20220812153538482"></p>
-<h3 id="结论"><a href="#结论" class="headerlink" title="结论"></a>结论</h3><p>在本文中，我们确定了DETR的数据效率问题。 通过从 Sparse RCNN 到 DETR 的逐步模型转换，我们发现局部区域的稀疏特征采样是数据效率的关键。基于这些，我们通过在预测的bounding box的指导下通过简单地采样多尺度特征在对原始模型的修改最少的前提下来改进现有的检测转换器。 此外，我们提出了一种简单而有效的标签增强策略，以提供更丰富的监督，从而进一步缓解数据效率问题。 大量实验验证了我们方法的有效性。 随着Transformer在视觉任务中越来越流行，我们希望我们的工作能够激发大家探索Transformer在不同任务中的数据效率。</p>
+<h2 id="试验效果"><a href="#试验效果" class="headerlink" title="试验效果"></a>试验效果</h2><p><img src="/2023/04/23/Bag%20of%20Tricks%20and%20A%20Strong%20Baseline%20for%20Deep%20Person%20Re-identification.md/image-20230418135011856.png" alt="image-20230418135011856"></p>
 
       
     </div>
@@ -371,7 +273,7 @@ <h3 id="结论"><a href="#结论" class="headerlink" title="结论"></a>结论</
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/Deformable%20DETR/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -385,7 +287,7 @@ <h3 id="结论"><a href="#结论" class="headerlink" title="结论"></a>结论</
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/08/22/Deformable%20DETR/" class="post-title-link" itemprop="url">Deformable DETR</a>
+            <a href="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/" class="post-title-link" itemprop="url">目标重识别综述阅读</a>
         </h2>
 
         <div class="post-meta">
@@ -396,7 +298,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2022-08-22 20:56:45 / 修改时间：21:31:44" itemprop="dateCreated datePublished" datetime="2022-08-22T20:56:45+08:00">2022-08-22</time>
+              <time title="创建时间：2023-04-23 19:48:09 / 修改时间：20:57:28" itemprop="dateCreated datePublished" datetime="2023-04-23T19:48:09+08:00">2023-04-23</time>
             </span>
 
           
@@ -410,67 +312,61 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="Deformable-DETR-：-deformable-transformers-for-End-to-End-object-detection"><a href="#Deformable-DETR-：-deformable-transformers-for-End-to-End-object-detection" class="headerlink" title="Deformable DETR ： deformable transformers for End-to-End object detection"></a>Deformable DETR ： deformable transformers for End-to-End object detection</h2><h3 id="DETR的问题"><a href="#DETR的问题" class="headerlink" title="DETR的问题"></a>DETR的问题</h3><p>是针对DETR进行改进的一篇文章，其指出DETR主要存在以下两点问题：</p>
-<ol>
-<li>DETR需要相较于现有的目标检测器更长的训练epoch来收敛。</li>
-<li>DETR在检测小物体时准确率较低。</li>
+          <h1 id="目标重识别论文阅读笔记"><a href="#目标重识别论文阅读笔记" class="headerlink" title="目标重识别论文阅读笔记"></a>目标重识别论文阅读笔记</h1><h2 id="Deep-Learning-for-Person-Re-identification-A-Survey-and-Outlook"><a href="#Deep-Learning-for-Person-Re-identification-A-Survey-and-Outlook" class="headerlink" title="Deep Learning for Person Re-identification: A Survey and Outlook"></a>Deep Learning for Person Re-identification: A Survey and Outlook</h2><h3 id="定义："><a href="#定义：" class="headerlink" title="定义："></a>定义：</h3><p>行人重识别（以下简称reid）问题是在没有重叠场景的摄像机拍摄画面下，对目标行人进行检索。</p>
+<p>现阶段的reid问题主要分为两大类：closed-world和open-world。说人话就是，closed-world重在研究，在各种面向研究的假设的基础上进行研究，主要是从一大堆行人的bounding box图片中去检索目标行人，而open-world重在“落地”，主要是直接从视频中去检索目标行人，或者是偏向无监督、弱监督学习。</p>
+<h3 id="难点"><a href="#难点" class="headerlink" title="难点"></a>难点</h3><p><strong>不同视角、参差不齐的低分辨率图像、光照变化、姿态不同、遮挡情况、异构数据、复杂的相机环境、背景环境、不可靠的边缘框生成</strong>都会对ReID任务造成影响和挑战。实际部署时，摄像头的变化、Gallery十分巨大、数据要求高、对网络的泛化能力要求高、外表特征的变化等也是影响很大的因素。</p>
+<h3 id="步骤"><a href="#步骤" class="headerlink" title="步骤"></a>步骤</h3><ol>
+<li><strong>原始数据收集</strong>：从处于不同环境的不同地方的摄像机获取原始视频数据。这些数据包含大量的背景杂波。</li>
+<li><strong>边界框（Bounding Box）生成</strong>：通过行人检测或跟踪算法从原始视频数据中提取包含行人图像的边界框。在大规模应用中不可能手动裁剪所有行人图像。</li>
+<li><strong>训练数据标注</strong>：对于区分行人任务来说，图像标注必不可少。</li>
+<li><strong>模型构建和训练</strong>：已经开发了广泛运用的模型，重点在于特征表示学习、度量学习或两者结合。</li>
+<li><strong>测试阶段</strong>：给定一个query和一组gallery，使用上一阶段训练完毕的模型进行行人特征提取，计算query图像和gallery图像的相似度进行排序。</li>
 </ol>
-<p>这是由于transformer结构所引入的问题，即是transformer组件处理特征图方面的不足：transformer结构其在初始化时分配给所有特征像素的注意力权重几乎是均等的，这就造成了模型需要长时间去学习关注真正有意义的位置。其次Transformer在计算注意力权重时，伴随着高计算量与空间复杂度。特别是在编码器部分，与特征像素点的数量成平方级关系，因此难以处理高分辨率的特征。</p>
-<p>deformable DETR结合deformable conv的空间稀疏采样的优势和transformer元素间建模的能力。通过添加稀疏的空间位置，避免了上述的问题，因此DETR不采用全局的注意力计算，而是只计算reference point周围一小部分点的注意力。</p>
-<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3><p>Deformable DETR是一种End-to-End的目标检测器，其在DETR和transformer的基础上做了改进，能够更快收敛，同时减少计算量提高精度。其核心部件为Multi-scale Deformable Attention Module（多尺度可变形注意力模块），其为一种处理图像特征图的有效的注意力机制。</p>
-<h3 id="Deformable-Attention-Module"><a href="#Deformable-Attention-Module" class="headerlink" title="Deformable Attention Module"></a>Deformable Attention Module</h3><p>针对于DETR存在的问题，提出Deformable Attention Module ，其不用遍历所有的空间位置，而是与可变形卷积相似，其只注意参考点周围的一小部分关键采样点，而不是特征图的整体。其通过为每个query分配少量固定的键，可以缓解难以收敛和特征空间分辨率所带来的问题。</p>
-<p>示意图如下所示：</p>
-<p><img src="/2022/08/22/Deformable%20DETR/image-20220810091027439.png" alt="image-20220810091027439"></p>
-<p>下面给出MultiheadAttention和DeformableAttention的计算公式</p>
-<script type="math/tex; mode=display">
- MultiHeadAttn(z_q , x) =\sum ^M_{m=1}W_m[\sum_{k∈Ω_k}A_{mqk}\cdot W_m^`x_k]
-\\
- DeformAttn(z_q , p_q , x) =\sum ^M_{m=1}W_m[\sum^K_{k=1}A_{mqk}\cdot W_m^`x(p_q+∆p_{mqk})]
-\\
- MSDeformAttn(z_q , p_q , \{x^l\}^L_{l=1}) =\sum ^M_{m=1}W_m[\sum^L_{l=1}\sum^K_{k=1}A_{mlqk}\cdot W_m^`x^l( \phi_l ( p̂ _q )+∆p_{mlqk})]</script><p>对DeformAttn，输入特征图尺寸为$C<em>H</em>W$，$z_q$为带有内容特征的第q个查询元素，为$p_q$为一个二维参考点，公式中参数如下解释：</p>
-<ul>
-<li>m 表示注意力头（head）。</li>
-<li>k 表示 sampled key（被采样的键）。K 表示 total sampled key number( $K \lt\lt HW$ )。</li>
-<li>$ \Delta p_{mqk} $表示第 m 个注意力头中第 k 个采样点的采样偏移量。</li>
-<li>$ A_{mqk} $表示第 m 个注意力头中第 k 个采样点的注意力权重 V。</li>
-<li><img src="/2022/08/22/Deformable%20DETR/4b4befc3e13742eea81d3b220c04133e.png" alt="img">，Xk表示第k个采样点，Um和Vm是可学习的参数。</li>
-<li>标量注意力权重 $ A_{mqk} $的取值范围为[ 0 , 1]，通过$ \sum^K_{k=1}A_{mqk}=1 $进行归一化。</li>
-<li><img src="/2022/08/22/Deformable%20DETR/fc909ee8a2414a778ba1f82d7120c36a.png" alt="img">是范围不受限制的2-d实数。</li>
-<li>由于$ p_q+\Delta p_{mqk} $是分数阶的，所以在计算$x(p_q+\Delta p_{mqk})$时，采用了《Deformableconvolutional networks (ICCV)》中的双线性插值。</li>
-<li>$\Delta p_{mqk}$和$A_{mqk}$都是通过在查询特征$z_q$上的线性投影获得的。</li>
-<li>在实现中，查询特征$z_q$被送入3MK通道的线性投影算子，其中前2MK通道编码采样偏移量为 ，其余MK通道被送入softmax算子以获得注意力权重 。</li>
-</ul>
-<p>可变形注意力模块是为了将卷积特征图作为 key 要素进行处理而设计的。令 $N_q$ 为 query 元素的个数，当 MK 比较小时，可变形注意力模块的复杂度为$O(2N_q C^2 + min(HW C^2 , N_q KC^2 ))$。当它应用于DETR编码器时，其中 $N_q = HW$，复杂度变为$O(HWC^2)$，与空间大小成线性复杂度。当它被用作DETR解码器中的交叉注意力模块时，其中 $N_q = N$ ( N为对象查询次数)，复杂度变为$O (NKC^2)$，这与空间大小HW无关。</p>
-<h3 id="Multi-scale-Deformable-Attention-Module"><a href="#Multi-scale-Deformable-Attention-Module" class="headerlink" title="Multi-scale Deformable Attention Module"></a>Multi-scale Deformable Attention Module</h3><p>仿照其余目标检测框架中的多尺度特征，提出Multi-scale Deformable Attention Module，将可变形注意力模块扩展为多尺度，其公式依旧如下所示：</p>
-<script type="math/tex; mode=display">
-MultiHeadAttn(z_q , x) =\sum ^M_{m=1}W_m[\sum_{k∈Ω_k}A_{mqk}\cdot W_m^`x_k]
-\\
-DeformAttn(z_q , p_q , x) =\sum ^M_{m=1}W_m[\sum^K_{k=1}A_{mqk}\cdot W_m^`x(p_q+∆p_{mqk})]
-\\
-MSDeformAttn(z_q , p̂ _q , \{x^l\}^L_{l=1}) =\sum ^M_{m=1}W_m[\sum^L_{l=1}\sum^K_{k=1}A_{mlqk}\cdot W_m^`x^l( \phi_l ( p̂ _q )+∆p_{mlqk})]</script><p>对MSDeformAttn，$\{x^l\}^L_{l=1}$为输入的多尺度特征图，其每层的输入特征图尺寸为$C<em>H_l</em>W_l$，$z_q$为带有内容特征的第q个查询元素，$p̂ _q ∈ [0, 1]^2$二维参考点，公式中参数如下解释：</p>
-<ul>
-<li>m 表示注意力头（head）。</li>
-<li>k 表示 sampled key（被采样的键）。K 表示 total sampled key number( K &lt;&lt; HW )。</li>
-<li>$\Delta p_{mlqk}$表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的采样偏移量。</li>
-<li>$A_{mlqk}$表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的注意力权重 V。</li>
-<li><img src="/2022/08/22/Deformable%20DETR/4b4befc3e13742eea81d3b220c04133e.png" alt="img">，Xk表示第k个采样点，Um和Vm是可学习的参数。</li>
-<li>标量注意力权重 $A_{mlqk}$的取值范围为[ 0 , 1]，通过$\sum^L_{l=1}\sum^K_{k=1}A_{mlqk}=1$进行归一化。</li>
-<li>$p̂ _q ∈ [0, 1]^2$是归一化坐标，我们用其清晰的表示尺度公式，其中$(0,0)$表示左上角的点,$(1,1)$表示右下角的点</li>
-<li>$\phi_l ( p̂ _q )$将归一化的坐标$p̂ _q $重新缩放至输入特征图的第$l$层上。</li>
-<li>多尺度可变形注意力与以前的单尺度版本非常相似，只是它从多尺度特征图中采样LK 点，而不是从单尺度特征图中采样 K 点。</li>
-</ul>
-<p>当选$L=1,K=1，且W_m^`∈R^{C_v\times C}$固定为单位矩阵的时候，上述公式退化为deformable convolution。</p>
-<h3 id="Deformable-Transformer-Encoder"><a href="#Deformable-Transformer-Encoder" class="headerlink" title="Deformable Transformer Encoder"></a>Deformable Transformer Encoder</h3><p>我们将DETR中处理特征图的Transformer注意力模块替换为提出的多尺度可变形注意力模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。</p>
-<p>在编码器中，通过ResNet (transformed by a 1 × 1 convolution) 中的从 $C_3$阶段到$C_5$阶段的输出特征图中提取多尺度特征图$\{x^l\}^{L-1}_{l=1}(L = 4)$，其中$C_l$分辨率是输入图的$\frac{1}{2^l}$ 。 在最后的$C_5$级上通过 3 × 3 步长为 2 的卷积得到的最低分辨率特征图$x^L$，记为$C_6$。所有多尺度特征图的通道数为 C = 256 。注意：FPN 中自顶向下的结构没有被使用，因为我们提出的多尺度可变形注意力机制本身可以在多尺度特征图之间交换信息。多尺度特征图的构造如下图所示。注：添加FPN不会提高性能，因为本文所设计的结构能在不同层级之间交换信息，和FPN的功能相同</p>
-<p><img src="/2022/08/22/Deformable%20DETR/image-20220810101839490.png" alt="image-20220810101839490"></p>
-<p>在Deformable Transformer Encoder的应用中，输出是与输入具有相同分辨率的多尺度特征图。key和query均为多尺度特征图中的像素。对于每个查询像素，参考点为其本身。为了识别每个查询像素位于哪个特征级别（即属于目标物体的概率），除了位置嵌入外，我们在特征表示中添加了一个尺度级别的嵌入，记为$e_l$。不同于固定编码的位置嵌入，尺度级嵌入$\{e_l\}^L_{l=1}$随机初始化并与网络联合训练。</p>
-<h3 id="Deformable-Transformer-Decoder"><a href="#Deformable-Transformer-Decoder" class="headerlink" title="Deformable Transformer Decoder"></a>Deformable Transformer Decoder</h3><p>解码器中存在交叉注意力和自注意力模块，两种类型的注意力模块的query elements都是object query。</p>
-<p>在交叉注意力模块中，object query从特征图中提取特征，其中的key元素是编码器输出的特征图。</p>
-<p>在自注意力模块中，object query是相互作用的，其中的key元素是object query。由于我们提出的可变形注意力模块是为了处理卷积特征图作为key元素而设计的，因此我们只将每个交叉注意力模块替换为多尺度可变形注意力模块，而自注意力模块保持不变。对于每个object query，参考点的二维归一化坐标$p̂ _q$ 通过可学习的线性投影和sigmoid函数从其对象查询嵌入中预测。</p>
-<p>由于multi-scale deformable attention module提取参考点周围的图像特征，我们让检测头预测边界框作为参考点的相对偏移量，以进一步降低优化难度。将参考点作为箱体中心的初始猜测。检测头预测参考点的相对偏移量。这样，学习到的解码器注意力将与预测的边界框具有较强的相关性，这也加速了训练收敛。</p>
-<p>通过将DETR中的Transformer注意力模块替换为可变形注意力模块，我们建立了一个高效、快速收敛的检测系统，称为可变形DETR 。</p>
-<h3 id="多种计算方式之间关系"><a href="#多种计算方式之间关系" class="headerlink" title="多种计算方式之间关系"></a>多种计算方式之间关系</h3><p><img src="/2022/08/22/Deformable%20DETR/1858467-20220401094649223-612897571.png" alt="img"></p>
-<h3 id="deformable-DETR结构示意图"><a href="#deformable-DETR结构示意图" class="headerlink" title="deformable DETR结构示意图"></a>deformable DETR结构示意图</h3><p><img src="/2022/08/22/Deformable%20DETR/1858467-20220401094708641-447017032.png" alt="img"></p>
+<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQmFsYWJvbw==,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p>即closed-world和open-world ReID之间的区别可总结如下：</p>
+<ul>
+<li><strong>单模态和异构数据</strong></li>
+<li><strong>边界框生成和原始图像/视频</strong></li>
+<li><strong>丰富的标签数据和不可用/有限的标签</strong></li>
+<li><strong>正确标签和噪声标签</strong></li>
+<li><strong>query是否存在于gallery中</strong></li>
+</ul>
+<h3 id="closed-world-ReID介绍以及方法总览"><a href="#closed-world-ReID介绍以及方法总览" class="headerlink" title="closed-world ReID介绍以及方法总览"></a>closed-world ReID介绍以及方法总览</h3><h4 id="closed-wrold假设"><a href="#closed-wrold假设" class="headerlink" title="closed-wrold假设"></a>closed-wrold假设</h4><ul>
+<li>通过单模态可见光摄像机捕获行人</li>
+<li>已经给出行人bounding box</li>
+<li>有足够的标注好的训练数据。用于监督训练</li>
+<li>标签通常是正确的</li>
+<li>query行人必须出现在图库中</li>
+</ul>
+<h4 id="特征表示学习"><a href="#特征表示学习" class="headerlink" title="特征表示学习"></a>特征表示学习</h4><h4 id="全局表征学习"><a href="#全局表征学习" class="headerlink" title="全局表征学习"></a>全局表征学习</h4><p>从每个人的图像中提取特征向量，直接将行人图片送入网络进行特征的提取。</p>
+<h4 id="局部表征学习"><a href="#局部表征学习" class="headerlink" title="局部表征学习"></a>局部表征学习</h4><p>将行人的图片进行分块，使用网络对每一个块进行特征提取，最后将所有的特征结合起来</p>
+<h4 id="辅助表征学习"><a href="#辅助表征学习" class="headerlink" title="辅助表征学习"></a>辅助表征学习</h4><p>在网络中加入一些辅助性对目标进行描述的元素，例如外观描述，视角描述、区域信息等。</p>
+<h4 id="基于视频的表征学习"><a href="#基于视频的表征学习" class="headerlink" title="基于视频的表征学习"></a>基于视频的表征学习</h4><p>输入为由多张图片组成的行人的视频序列，其具有丰富的外表和时域信息。</p>
+<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/image-20230309134909484.png" alt="image-20230309134909484"></p>
+<h4 id="度量学习"><a href="#度量学习" class="headerlink" title="度量学习"></a>度量学习</h4><p>度量学习目前的主要工作集中以及体现于特征学习中的loss函数的设计，目前最常用的三种loss为：<strong>identity loss</strong>、<strong>verification loss</strong>、<strong>triplet loss</strong>以及其的变种。</p>
+<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/image-20230309135813177.png" alt="image-20230309135813177" style="zoom:50%;"></p>
+<h5 id="identity-loss"><a href="#identity-loss" class="headerlink" title="identity loss"></a>identity loss</h5><p>将行人重识别的训练过程视为图像分类问题，将每个人视作一个独立的类别，通过类比于图像分类的方式进行重识别。这种方式其在训练过程中能较为容易训练和自动挖掘困难样本</p>
+<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/20200710212437448.png" alt="在这里插入图片描述"></p>
+<h5 id="verification-loss"><a href="#verification-loss" class="headerlink" title="verification loss"></a>verification loss</h5><p>用对比损失函数或者二元损失函数来优化成对样本间关联。对比损失函数提升了成对样本距离比较，即为学习使不同类别的图像对应的特征相距较远</p>
+<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/202007102124402.png" alt="在这里插入图片描述"></p>
+<p>或</p>
+<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/20200710212501363.png" alt="在这里插入图片描述"></p>
+<h5 id="triplet-loss"><a href="#triplet-loss" class="headerlink" title="triplet loss"></a>triplet loss</h5><p>将ReID问题看作是检索排序问题，其主要思想可以看作同一个样本之间的距离应该小于不同的样本之间的距离</p>
+<p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/2020071021245875.png" alt="在这里插入图片描述"></p>
+<h4 id="数据集和评价指标"><a href="#数据集和评价指标" class="headerlink" title="数据集和评价指标"></a>数据集和评价指标</h4><p><img src="/2023/04/23/%E7%9B%AE%E6%A0%87%E9%87%8D%E8%AF%86%E5%88%AB%E7%BB%BC%E8%BF%B0%E9%98%85%E8%AF%BB/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQmFsYWJvbw==,size_20,color_FFFFFF,t_70,g_se,x_16-16783434167663.png" alt="img"></p>
+<h4 id="SOTA-方法解析"><a href="#SOTA-方法解析" class="headerlink" title="SOTA 方法解析"></a>SOTA 方法解析</h4><h5 id="基于图像的ReID"><a href="#基于图像的ReID" class="headerlink" title="基于图像的ReID"></a>基于图像的ReID</h5><h6 id="VAL：引入视角信息"><a href="#VAL：引入视角信息" class="headerlink" title="VAL：引入视角信息"></a>VAL：引入视角信息</h6><p>目前通过神经网络的目标重识别的识别能力已经高于人工辨识的准确度，sota数据中常常使用目标的全局特征结合局部特征进行融合，从而达到更好的效果</p>
+<p>文章强调注意力机制的有效性，多损失训练的有效性</p>
+<h5 id="基于视频的ReID"><a href="#基于视频的ReID" class="headerlink" title="基于视频的ReID"></a>基于视频的ReID</h5><p>时空建模对提取视频特征是十分重要的，其中包含跨多帧的注意力机制，甚至利用视频序列中的多帧可以填补被遮挡的部份。</p>
+<h3 id="Open-world-ReID"><a href="#Open-world-ReID" class="headerlink" title="Open-world ReID"></a>Open-world ReID</h3><h5 id="Depth-based-Re-ID：捕获人体形状和骨骼状态，提供在光照差别大、换衣服情况下的重识别的解决方案。"><a href="#Depth-based-Re-ID：捕获人体形状和骨骼状态，提供在光照差别大、换衣服情况下的重识别的解决方案。" class="headerlink" title="Depth-based Re-ID：捕获人体形状和骨骼状态，提供在光照差别大、换衣服情况下的重识别的解决方案。"></a>Depth-based Re-ID：捕获人体形状和骨骼状态，提供在光照差别大、换衣服情况下的重识别的解决方案。</h5><h5 id="Text-To-Image-ReID：解决在语言描述和RGB图像之间的匹配上的问题，用一段语言描述来代替对目标的文字描述"><a href="#Text-To-Image-ReID：解决在语言描述和RGB图像之间的匹配上的问题，用一段语言描述来代替对目标的文字描述" class="headerlink" title="Text-To-Image ReID：解决在语言描述和RGB图像之间的匹配上的问题，用一段语言描述来代替对目标的文字描述"></a>Text-To-Image ReID：解决在语言描述和RGB图像之间的匹配上的问题，用一段语言描述来代替对目标的文字描述</h5><h5 id="Visible-Infrared-Re-ID：处理在白天可视化图片和夜晚红外图片之间的跨模态匹配问题，解决低光照问题"><a href="#Visible-Infrared-Re-ID：处理在白天可视化图片和夜晚红外图片之间的跨模态匹配问题，解决低光照问题" class="headerlink" title="Visible-Infrared Re-ID：处理在白天可视化图片和夜晚红外图片之间的跨模态匹配问题，解决低光照问题"></a>Visible-Infrared Re-ID：处理在白天可视化图片和夜晚红外图片之间的跨模态匹配问题，解决低光照问题</h5><h5 id="Cross-Resolution-Re-ID：跨分辨率的ReID在低分辨率图片和高分辨率图片中进行匹配，处理大分辨率的变化问题"><a href="#Cross-Resolution-Re-ID：跨分辨率的ReID在低分辨率图片和高分辨率图片中进行匹配，处理大分辨率的变化问题" class="headerlink" title="Cross-Resolution Re-ID：跨分辨率的ReID在低分辨率图片和高分辨率图片中进行匹配，处理大分辨率的变化问题"></a>Cross-Resolution Re-ID：跨分辨率的ReID在低分辨率图片和高分辨率图片中进行匹配，处理大分辨率的变化问题</h5><h4 id="End-to-End-ReID"><a href="#End-to-End-ReID" class="headerlink" title="End-to-End ReID"></a>End-to-End ReID</h4><p>端到端的ReID减缓了对边缘框的需求问题，直接利用原始的视频信息、图像信息进行计算，得出对应的目标ID在视频中的位置</p>
+<h4 id="ReID-in-Raw-Images-Videos"><a href="#ReID-in-Raw-Images-Videos" class="headerlink" title="ReID in Raw Images/Videos"></a>ReID in Raw Images/Videos</h4><p>该任务需要同一个模型同时完成人物检测和ReID任务，由于两个主要部件的侧重点有所不同，所以是一个有挑战性的任务</p>
+<h4 id="Multi-camera-Tracking"><a href="#Multi-camera-Tracking" class="headerlink" title="Multi-camera Tracking"></a>Multi-camera Tracking</h4><p>该任务与MTMCT（multi-person, multi-camera tracking）近似，可根据基于图的连接、多目标多摄像机跟踪与重识别之间的相关性进行优化解决。</p>
+<h4 id="Semi-supervised-and-Unsupervised-Re-ID"><a href="#Semi-supervised-and-Unsupervised-Re-ID" class="headerlink" title="Semi-supervised and Unsupervised Re-ID"></a>Semi-supervised and Unsupervised Re-ID</h4><h4 id="Noise-Robust-Re-ID"><a href="#Noise-Robust-Re-ID" class="headerlink" title="Noise-Robust Re-ID"></a>Noise-Robust Re-ID</h4><h4 id="Open-set-Re-ID-and-Beyond"><a href="#Open-set-Re-ID-and-Beyond" class="headerlink" title="Open-set Re-ID and Beyond"></a>Open-set Re-ID and Beyond</h4><p>Open-set ReID通常被视为目标验证问题，辨别两个人员图像是否属于同一个目标。对于该问题，Adversarial PersonNet (APN) 共同学习GAN模块和Re-ID特征提取器。然而该问题依旧有非常大的提升空间，例如更高的识别率和更低的错误率。</p>
+<h5 id="Re-ID组"><a href="#Re-ID组" class="headerlink" title="Re-ID组"></a>Re-ID组</h5><p>它的目的是将人以群体而不是个人的形式联系起来。早期的研究主要集中在利用稀疏字典学习或协方差描述子聚集进行组表示提取。最近，应用图卷积网络，将群表示为图。在端到端人搜索和个体再识别中也应用了群体相似性来提高准确性。然而，群体Re-ID仍然具有挑战性，因为群体变异比个体更复杂。</p>
+<h5 id="动态多摄像机网络"><a href="#动态多摄像机网络" class="headerlink" title="动态多摄像机网络"></a>动态多摄像机网络</h5><p>动态更新多摄像机网络是另一个具有挑战性的问题，需要对新的摄像机或探头进行模型适配。引入一种人在循环增量学习方法来更新Re-ID模型，适应不同探测库的表示。早期的研究也将主动学习应用于多摄像头网络的连续Re-ID。引入了一种基于稀疏非冗余代表选择的连续自适应方法。设计了一种传递推理算法来开发基于测地线流核的最佳源摄像机模型。密集人群和社会关系中的多种环境约束(如摄像机拓扑)被集成到开放世界的人Re-ID系统中。在实际的动态多摄像机网络中，摄像机的模型自适应和环境因素是至关重要的。此外，如何将深度学习技术应用于动态多摄像机网络的研究还较少。</p>
+<h3 id="对ReID技术的总览和展望"><a href="#对ReID技术的总览和展望" class="headerlink" title="对ReID技术的总览和展望"></a>对ReID技术的总览和展望</h3><h4 id="mINP-A-New-Evaluation-Metric-for-Re-ID"><a href="#mINP-A-New-Evaluation-Metric-for-Re-ID" class="headerlink" title="mINP: A New Evaluation Metric for Re-ID"></a>mINP: A New Evaluation Metric for Re-ID</h4><h4 id="单-跨模态重新识别的新基线-AGW"><a href="#单-跨模态重新识别的新基线-AGW" class="headerlink" title="单/跨模态重新识别的新基线 AGW"></a>单/跨模态重新识别的新基线 AGW</h4><h4 id="尚未调查的未决问题"><a href="#尚未调查的未决问题" class="headerlink" title="尚未调查的未决问题"></a>尚未调查的未决问题</h4><p>Open-set Re-ID、overlapping camera、same time、based on video </p>
+<h2 id="Person-Re-identification-A-Retrospective-on-Domain-Specific"><a href="#Person-Re-identification-A-Retrospective-on-Domain-Specific" class="headerlink" title="Person Re-identification A Retrospective on Domain Specific"></a>Person Re-identification A Retrospective on Domain Specific</h2><p>Re-ID的应用场景：智能视频监控、机器人、人机交互、自动视觉监视系统等</p>
+<p>Re-ID遇到的问题：遮挡、位姿方差、背景杂波、不对中、尺度差异、照明方差、视点方差、低分辨率和跨域或泛化。</p>
+<p>该文从遮挡、位姿方差、背景杂波等六个方面总结了在该领域上做得最好的CNN、Attention、Self-Attention的论文。</p>
 
       
     </div>
@@ -490,7 +386,7 @@ <h3 id="deformable-DETR结构示意图"><a href="#deformable-DETR结构示意图
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/VIT/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -504,7 +400,7 @@ <h3 id="deformable-DETR结构示意图"><a href="#deformable-DETR结构示意图
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/08/22/VIT/" class="post-title-link" itemprop="url">VIT</a>
+            <a href="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/" class="post-title-link" itemprop="url">c++中的ffmpeg源码学习</a>
         </h2>
 
         <div class="post-meta">
@@ -515,7 +411,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2022-08-22 20:56:31 / 修改时间：21:35:42" itemprop="dateCreated datePublished" datetime="2022-08-22T20:56:31+08:00">2022-08-22</time>
+              <time title="创建时间：2023-04-12 09:36:52 / 修改时间：09:38:05" itemprop="dateCreated datePublished" datetime="2023-04-12T09:36:52+08:00">2023-04-12</time>
             </span>
 
           
@@ -529,38 +425,239 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="VIT-An-image-is-worth-16-x-16-words-Transformer-for-image-recognition-at-scale"><a href="#VIT-An-image-is-worth-16-x-16-words-Transformer-for-image-recognition-at-scale" class="headerlink" title="(VIT) An image is worth 16 x 16 words: Transformer for image recognition at scale"></a>(VIT) An image is worth 16 x 16 words: Transformer for image recognition at scale</h2><h3 id="评价"><a href="#评价" class="headerlink" title="评价"></a>评价</h3><p>ViT是2020年Google团队提出的将Transformer应用在图像分类的模型，因其模型“简单”且效果好，可扩展性强，在数据量越大的前提下效果越好，从而成为了transformer在CV领域应用的里程碑著作。</p>
-<h3 id="结论"><a href="#结论" class="headerlink" title="结论"></a>结论</h3><p>当拥有足够多的数据进行预训练的时候，ViT的表现就会超过CNN，突破transformer缺少归纳偏置（即先验知识，如：卷及神经网络所默认的平移不变性等）的限制，可以在下游任务中获得较好的迁移效果。但是当训练数据集不够大的时候，ViT的表现通常比同等大小的ResNets要差一些。这是因为CNN具有两种归纳偏置，一种是局部性（locality/two-dimensional neighborhood structure），即图片上相邻的区域具有相似的特征；一种是平移不变形（translation equivariance）（即$f(g(x))=g(f(x))$),其中g代表卷积操作，f代表平移操作。当CNN具有以上两种归纳偏置，就有了很多先验信息，需要相对少的数据就可以学习一个比较好的模型。</p>
-<h3 id="结构"><a href="#结构" class="headerlink" title="结构"></a>结构</h3><p>ViT的整体结构如下图所示：</p>
-<p><img src="/2022/08/22/VIT/v2-5afd38bd10b279f3a572b13cda399233_720w.jpg" alt="img"></p>
-<p>整个ViT的运行流程如下所示：</p>
+          <h2 id="c-中的ffmpeg使用"><a href="#c-中的ffmpeg使用" class="headerlink" title="c++中的ffmpeg使用"></a>c++中的ffmpeg使用</h2><h3 id="c-中ffmpeg的环境配置"><a href="#c-中ffmpeg的环境配置" class="headerlink" title="c++中ffmpeg的环境配置"></a>c++中ffmpeg的环境配置</h3><p>工程配置的CMakeLists.txt的一个可用案例如下所示：</p>
+<figure class="highlight cmake"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">cmake_minimum_required</span>(VERSION <span class="number">2.8</span>)</span><br><span class="line"><span class="keyword">project</span>(ffmpeg_project)</span><br><span class="line"></span><br><span class="line"><span class="comment">#以使用的rk3588s为例，以下两个set按照自己ffmpeg的安装目录修改</span></span><br><span class="line"><span class="keyword">set</span>(FFMPEG_LIBS_DIR /lib/aarch64-linux-gnu)</span><br><span class="line"><span class="keyword">set</span>(FFMPEG_HEADERS_DIR /usr/local/<span class="keyword">include</span>)</span><br><span class="line"></span><br><span class="line"><span class="keyword">include_directories</span>(<span class="variable">$&#123;FFMPEG_HEADERS_DIR&#125;</span>)</span><br><span class="line"><span class="keyword">link_directories</span>(<span class="variable">$&#123;FFMPEG_LIBS_DIR&#125;</span>)</span><br><span class="line"><span class="keyword">set</span>(FFMPEG_LIBS libavcodec.so libavformat.so libswscale.so libavdevice.so libavutil.so)</span><br><span class="line"></span><br><span class="line"><span class="keyword">add_executable</span>(ffmpeg_test main.cpp)</span><br><span class="line"><span class="keyword">target_link_libraries</span>(<span class="variable">$&#123;PROJECT_NAME&#125;</span> <span class="variable">$&#123;FFMPEG_LIBS&#125;</span>)</span><br></pre></td></tr></table></figure>
+<h3 id="c-中头文件包含ffmpeg实例"><a href="#c-中头文件包含ffmpeg实例" class="headerlink" title="c++中头文件包含ffmpeg实例"></a>c++中头文件包含ffmpeg实例</h3><figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">extern</span> <span class="string">&quot;C&quot;</span> &#123;</span><br><span class="line">	<span class="meta">#<span class="meta-keyword">include</span><span class="meta-string">&lt;libavcodec/avcodec.h&gt;</span></span></span><br><span class="line">	<span class="meta">#<span class="meta-keyword">include</span><span class="meta-string">&lt;libavformat/avformat.h&gt;</span></span></span><br><span class="line">	<span class="meta">#<span class="meta-keyword">include</span><span class="meta-string">&lt;libavutil/avutil.h&gt;</span></span></span><br><span class="line">	<span class="meta">#<span class="meta-keyword">include</span><span class="meta-string">&lt;libavutil/opt.h&gt;</span></span></span><br><span class="line">&#125;</span><br></pre></td></tr></table></figure>
+<p>在引入ffmpeg的头文件的时候，需要使用<code>extern &quot;C&quot;</code>将头文件包含。<code>extern &quot;c&quot;</code> 的主要作用就是为了能够正确实现C++代码调用其他C语言代码。加上 extern “c” 后，会指示编译器这部分的代码按C语言，而不是C++的方式进行编译。而ffmpeg的各个头文件都是使用c进行开发运行的，具体解释可见<a target="_blank" rel="noopener" href="https://blog.csdn.net/QTVLC/article/details/83962280">链接</a>。</p>
+<h3 id="c-中使用ffmpeg的大体流程"><a href="#c-中使用ffmpeg的大体流程" class="headerlink" title="c++中使用ffmpeg的大体流程"></a>c++中使用ffmpeg的大体流程</h3><p><a target="_blank" rel="noopener" href="https://blog.csdn.net/leixiaohua1020/article/details/42658139#comments_25910979">详情可见雷神博客</a></p>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hVR09QSUdT,size_16,color_FFFFFF,t_70.png" alt="watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hVR09QSUdT,size_16,color_FFFFFF,t_70"></p>
+<p>在使用c++调用ffmpeg进行音视频处理过程中的大体流程按照<code>常见使用方法的ffmpeg音视频转换流程</code>所述。</p>
+<h3 id="c-中使用ffmpeg的常用结构体"><a href="#c-中使用ffmpeg的常用结构体" class="headerlink" title="c++中使用ffmpeg的常用结构体"></a>c++中使用ffmpeg的常用结构体</h3><p>结构体之间关系如下所示：</p>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/Center.jpeg" alt="img"></p>
+<p>FFMPEG中结构体很多。最关键的结构体可以分成以下几类：</p>
 <ul>
-<li><p>假设输入图片大小为224x224,每个patch对应的像素为16x16，则对于每张图片而言，其生成的patch数量为$（224/16）×（224/16）=196$，即生成的patch序列长度为196，每个patch的大小为$16<em>16</em>3$，每个patch的元素总量为$768$。</p>
+<li>解协议（http,rtsp,rtmp,mms）</li>
+</ul>
+<blockquote>
+<p>AVIOContext，URLProtocol，URLContext主要存储视音频使用的协议的类型以及状态。URLProtocol存储输入视音频使用的封装格式。每种协议都对应一个URLProtocol结构。（注意：FFMPEG中文件也被当做一种协议“file”）</p>
+</blockquote>
+<ul>
+<li>解封装（flv,avi,rmvb,mp4）</li>
+</ul>
+<blockquote>
+<p>AVFormatContext主要存储视音频封装格式中包含的信息；AVInputFormat存储输入视音频使用的封装格式。每种视音频封装格式都对应一个AVInputFormat 结构。</p>
+</blockquote>
+<ul>
+<li>解码（h264,mpeg2,aac,mp3）</li>
+</ul>
+<blockquote>
+<p>每个AVStream存储一个视频/音频流的相关数据；每个AVStream对应一个AVCodecContext，存储该视频/音频流使用解码方式的相关数据；每个AVCodecContext中对应一个AVCodec，包含该视频/音频对应的解码器。每种解码器都对应一个AVCodec结构。</p>
+</blockquote>
+<ul>
+<li>存数据</li>
+</ul>
+<blockquote>
+<p>视频的话，每个结构一般是存一帧；音频可能有好几帧<br>解码前数据：AVPacket<br>解码后数据：AVFrame</p>
+</blockquote>
+<ul>
+<li><p><code>AVFormatContext</code>:封装格式上下文结构体，也是统领<strong>全局</strong>的结构体，保存了视频文件封装格式相关信息，是负责储存数据的结构体。</p>
+<ul>
+<li><p><code>AVInputFormat</code>:每种封装格式（例如<code>FLV</code>,<code>MKV</code>, <code>MP4</code>, <code>AVI</code>）对应一个该结构体。同理如<code>AVOutputFormat</code>。其保存在<code>AVFormatContext</code>中，主要被ffmpeg内部使用调用。</p>
 </li>
-<li><p>对于ViT而言，其整体的结构和流程都是模仿transformer和bert的所以其分为以下几个部分：</p>
+<li><p>通过使用下述函数装载解封装器</p>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_open_input</span><span class="params">(AVFormatContext **ps, <span class="keyword">const</span> <span class="keyword">char</span> *filename, AVInputFormat *fmt, AVDictionary **options)</span></span></span><br></pre></td></tr></table></figure>
+</li>
+</ul>
+</li>
+<li><p><code>AVIOContext</code>:主要负责解协议，封装协议相关的过程。在整个过程中负责对例如rtmp udp进行解协议。</p>
+</li>
+<li><code>AVStream</code>:视频文件中每个视频（音频）流对应一个该结构体。</li>
+<li><p><code>AVCodecContext</code>:编解码器上下文结构体，保存了视频（音频）编解码相关信息。</p>
 <ul>
-<li>Patch Embeding：上述所生成的每个patch通过投影层，投影成固定长度的向量，作为encoder的第一部分输入。其固定长度的向量的长度定义为768，所以输入的patch序列的维度为$196<em>768$，Patch Embedding的维度为$768</em>768$，最终得到的Patch Embedding的向量长度为$196*768$。</li>
-<li>Position Embedding：由于将图片分为多个patch之后，每个patch经过投影的过程中不引入位置编码信息，所以仿照bert引入position enbedding部分。其位置编码可以理解为是一个有N行（输入patch序列的长度），每行有768（embedding的维度）个元素的矩阵，其第i行就代表了第i个位置所对应的Position Embedding的值。将Patch Embedding与Position Embedding的值相加，由于维度都是$196*768$，所以加之后的维度相同</li>
-<li>$[cls]$:仿照bert中的$[cls]$，在196x768的基础上加一维，变成197x768，由于其具体的计算过程中是元素和元素之间两两计算，所以作者认为这样可以在计算过程中学到如何从其他元素上学到我们所需要的信息。并最终在经过Encoder部分的计算之后，取对应位置的输出进行分类。</li>
+<li><code>AVCodec</code>:每种视频（音频）编解码器(例如H.264解码器)对应一个该结构体。其保存于<code>AVCodecContext</code>中，使用<code>avcodec_find_decoder(AVCodecID id)</code>装载解码器</li>
 </ul>
 </li>
-<li>Encoder：encoder部分由$Add/Norm+多头自注意力机制+Add/Norm+MLP$组成，其过程与transformer中的一致。其输入维度为$(196+1)*768$，经过Encoder之后输入维度与输入相同。所以支持多个Encoder块进行叠加。</li>
-<li>MLP Head：在MLP时，输入为197x768，并经过与bert相似的操作，将维度放大四倍再收缩回去，即变为$197<em>（768</em>4）$再缩小变为$197*768$。</li>
-<li>最终选取MLP的第0个位置处的元素（即为[cls]对应的位置处的元素）进行图片分类</li>
+<li><p><code>AVFrame</code>:存储一帧解码后像素（采样）数据。</p>
+</li>
+<li><code>AVPacket</code>:存储一帧压缩编码数据。</li>
 </ul>
-<p>最终的计算步骤如下图所示：</p>
-<p><img src="/2022/08/22/VIT/v2-ebf697b1994598019a6a59855dc0dbed_720w.png" alt="img"></p>
-<h3 id="讨论"><a href="#讨论" class="headerlink" title="讨论"></a>讨论</h3><h4 id="Position-Embedding"><a href="#Position-Embedding" class="headerlink" title="Position Embedding"></a>Position Embedding</h4><p>作者研究对比了多种位置编码方式：</p>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5byA5rC05aSq54Or,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center.png" alt="在这里插入图片描述"></p>
+<h3 id="解码过程中常用函数的解析"><a href="#解码过程中常用函数的解析" class="headerlink" title="解码过程中常用函数的解析"></a>解码过程中常用函数的解析</h3><p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/1426134989_1189.jpg" alt="1426134989_1189" style="zoom:200%;"></p>
+<h4 id="av-register-all"><a href="#av-register-all" class="headerlink" title="av_register_all()"></a>av_register_all()</h4><p><code>av_register_all()</code>注册所有解复用、解码等，将各个类别串成一个链表。在目前使用的ffmpeg4.2及以上的版本里面可不用该函数。其代码整个流程为首先确定有没有进行初始化，如果没有初始化，就调用avcodec_register_all()注册编解码器。函数的调用关系如下所示：</p>
 <ul>
-<li>1-D的位置编码</li>
-<li>2-D的位置编码</li>
-<li>相对位置编码</li>
+<li>在新版本的ffmpeg中，所有的解复用器，协议，复用器等被组织为一个全局静态数组，该数组在执行./configure命令的时候根据配置生成</li>
 </ul>
-<p>作者实验结论为：不管使用哪种位置编码方式，模型的精度都很接近，甚至不适用位置编码，模型的性能损失也没有特别大。原因可能是ViT是作用在image patch上的，而不是image pixel，对网络来说这些patch之间的相对位置信息很容易理解，所以使用什么方式的位置编码影像都不大。</p>
-<p><img src="/2022/08/22/VIT/v2-99f02198921e7aed8162cd7af8a29805_720w.jpg" alt="img"></p>
-<h4 id="image-presentation"><a href="#image-presentation" class="headerlink" title="image presentation"></a>image presentation</h4><p>关于使用[cls]进行学习和直接对输出的结果通过average pooling进行学习的方法，通过实验表明两者区别不大。</p>
-<p><img src="/2022/08/22/VIT/v2-4a8b39b1d2dd43d1e9b16edbc38b1660_720w.jpg" alt="img"></p>
-<p>文章主要为了和bert类似，所以引入[cls]进行学习</p>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/SouthEast.jpeg" alt="img"></p>
+<h4 id="avformat-alloc-context"><a href="#avformat-alloc-context" class="headerlink" title="avformat_alloc_context()"></a>avformat_alloc_context()</h4><p><code>avformat_alloc_context()</code>主要负责AVFormatContext的初始化，主要功能为分配内存以及设置其中某些项的值为默认值。</p>
+<blockquote>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150303154603565.png" alt="img"></p>
+<h4 id="avformat-open-input"><a href="#avformat-open-input" class="headerlink" title="avformat_open_input()"></a>avformat_open_input()</h4><p>avformat_open_input()主要负责打开多媒体数据，并获得一些数据相关的信息。</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_open_input</span><span class="params">(AVFormatContext **ps, <span class="keyword">const</span> <span class="keyword">char</span> *filename, AVInputFormat *fmt, AVDictionary **options)</span></span>;</span><br><span class="line"></span><br><span class="line">ps：函数调用成功之后处理过的AVFormatContext结构体。</span><br><span class="line">file：打开的视音频流的URL。</span><br><span class="line">fmt：强制指定AVFormatContext中AVInputFormat的。这个参数一般情况下可以设置为<span class="literal">NULL</span>，这样FFmpeg可以自动检测AVInputFormat。</span><br><span class="line">dictionay：附加的一些选项，一般情况下可以设置为<span class="literal">NULL</span>。</span><br><span class="line">当函数执行成功时，返回值大于等于<span class="number">0</span>，可以通过判断返回值与<span class="number">0</span>的关系从而判断是否打开多媒体数据成功。</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150304201149635.jpeg" alt="img"></p>
+<p>函数首先对输入进来的<code>AVFormatContext</code>指针进行容错检查，如有无进行初始化等操作，然后针对一些格式进行特殊处理。核心处理流程有两步。</p>
+<ul>
+<li>一为使用<code>init_input</code>函数，打开输入的视频数据并且探测视频的格式。<a target="_blank" rel="noopener" href="https://blog.csdn.net/leixiaohua1020/article/details/44064715">详细解释链接</a><ul>
+<li>FFmpeg内部判断封装格式的原理实际上是对每种AVInputFormat给出一个分数，满分是100分，越有可能正确的AVInputFormat给出的分数就越高。最后选择分数最高的AVInputFormat作为推测结果。<ul>
+<li>如果AVInputFormat中包含read_probe()，就调用read_probe()函数获取匹配分数（这一方法如果结果匹配的话，一般会获得AVPROBE_SCORE_MAX的分值，即100分）。如果不包含该函数，就使用av_match_ext()函数比较输入媒体的扩展名和AVInputFormat的扩展名是否匹配，如果匹配的话，设定匹配分数为AVPROBE_SCORE_EXTENSION（AVPROBE_SCORE_EXTENSION取值为50，即50分）。</li>
+<li>使用av_match_name()比较输入媒体的mime_type和AVInputFormat的mime_type，如果匹配的话，设定匹配分数为AVPROBE_SCORE_MIME（AVPROBE_SCORE_MIME取值为75，即75分）。</li>
+<li>如果该AVInputFormat的匹配分数大于此前的最大匹配分数，则记录当前的匹配分数为最大匹配分数，并且记录当前的AVInputFormat为最佳匹配的AVInputFormat.</li>
+</ul>
+</li>
+</ul>
+</li>
+<li>二为使用<code>s-&gt;iformat-&gt;read_header()</code>，读取多媒体数据文件头，根据视音频流创建相应的AVStream。</li>
+</ul>
+<h4 id="avformat-find-stream-info"><a href="#avformat-find-stream-info" class="headerlink" title="avformat_find_stream_info()"></a>avformat_find_stream_info()</h4><p><code>avformat_find_stream_info</code>主要用于给每个媒体流（音频/视频）的AVStream结构体赋值，函数正常执行后返回值大于等于0。</p>
+<ul>
+<li><p>函数内部实现了解码器的查找，解码器的打开，视音频帧的读取，视音频帧的解码等工作。函数流程大致如下所示：</p>
+<ul>
+<li>查找解码器：find_decoder()</li>
+<li>打开解码器：avcodec_open2()</li>
+<li><p>读取完整的一帧压缩编码的数据：read_frame_internal()</p>
+<ul>
+<li>注：av_read_frame()内部实际上就是调用的read_frame_internal()。</li>
+</ul>
+</li>
+<li><p>解码一些压缩编码数据：try_decode_frame()</p>
+</li>
+</ul>
+</li>
+</ul>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_find_stream_info</span><span class="params">(AVFormatContext *ic, AVDictionary **options)</span></span>;</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150306173746865.png" alt="img"></p>
+<h4 id="avcodec-find-decoder"><a href="#avcodec-find-decoder" class="headerlink" title="avcodec_find_decoder()"></a>avcodec_find_decoder()</h4><p><code>avcodec_find_encoder()</code>用于查找FFmpeg的编码器</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="function">AVCodec *<span class="title">avcodec_find_encoder</span><span class="params">(<span class="keyword">enum</span> AVCodecID id)</span></span></span><br><span class="line"><span class="function"> 该id为编码器的ID，返回为查找到的编码器，</span></span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150305163655358.png" alt="img"></p>
+<p>在其中通过调用<code>AVCodec *find_encdec(enum AVCodecID id, int encoder)</code>进行编码器的搜索，该搜索遍历AVCodec结构的链表，逐一比较输入的ID和每一个编码器的ID，直到找到ID取值相同的编码器。</p>
+<h4 id="avcodec-open2"><a href="#avcodec-open2" class="headerlink" title="avcodec_open2()"></a>avcodec_open2()</h4><p><code>avcodec_open2()</code>用于初始化一个视音频编解码器的AVCodecContext</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avcodec_open2</span><span class="params">(AVCodecContext *avctx, <span class="keyword">const</span> AVCodec *codec, AVDictionary **options)</span></span>;</span><br><span class="line"></span><br><span class="line">avctx：需要初始化的AVCodecContext。</span><br><span class="line">codec：输入的AVCodec</span><br><span class="line">options：一些选项。例如使用libx264编码的时候，“preset”，“tune”等都可以通过该参数设置。</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150307171545202.png" alt="img"></p>
+<p>函数整体工作流程如下所示：</p>
+<ul>
+<li>为各种结构体分配内存（通过各种av_malloc()实现）。</li>
+<li>将输入的AVDictionary形式的选项设置到AVCodecContext。</li>
+<li>其他一些零零碎碎的检查，比如说检查编解码器是否处于“实验”阶段。</li>
+<li>如果是编码器，检查输入参数是否符合编码器的要求</li>
+<li>调用AVCodec的init()初始化具体的解码器。</li>
+</ul>
+<h4 id="av-read-frame"><a href="#av-read-frame" class="headerlink" title="av_read_frame()"></a>av_read_frame()</h4><p><code>av_read_frame()</code>的作用是读取码流中的音频若干帧或者视频一帧。例如，解码视频的时候，每解码一个视频帧，需要先调用 av_read_frame()获得一帧视频的压缩数据，然后才能对该数据进行解码（例如H.264中一帧压缩数据通常对应一个NAL）</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">av_read_frame</span><span class="params">(AVFormatContext *s, AVPacket *pkt)</span></span>;</span><br><span class="line"></span><br><span class="line">s：输入的AVFormatContext</span><br><span class="line">pkt：输出的AVPacket</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150312025330316.jpeg" alt="img"></p>
+<p>详细解析见<a target="_blank" rel="noopener" href="https://blog.csdn.net/leixiaohua1020/article/details/12678577">链接</a>，其大体思路为</p>
+<ul>
+<li>从对应的格式中，调用<code>ff_read_packet()</code>从相应的AVInputFormat中读取数据</li>
+<li>视需求调用parse_packet()解析相应的AVPacket</li>
+</ul>
+<h4 id="avcodec-decode-video2"><a href="#avcodec-decode-video2" class="headerlink" title="avcodec_decode_video2()"></a>avcodec_decode_video2()</h4><p><code>avcodec_decode_video2()</code>的作用是解码一帧视频数据。输入一个压缩编码的结构体AVPacket，输出一个解码后的结构体AVFrame</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avcodec_decode_video2</span><span class="params">(AVCodecContext *avctx, AVFrame *picture, <span class="keyword">int</span> *got_picture_ptr, <span class="keyword">const</span> AVPacket *avpkt)</span></span>;</span><br></pre></td></tr></table></figure>
+</blockquote>
+<ul>
+<li>对输入的字段进行了一系列的检查工作：例如宽高是否正确，输入是否为视频等等。</li>
+<li>通过ret = avctx-&gt;codec-&gt;decode(avctx, picture, got_picture_ptr,&amp;tmp)这句代码，调用了相应AVCodec的decode()函数，完成了解码操作。</li>
+<li>对得到的AVFrame的一些字段进行了赋值，例如宽高、像素格式等等。</li>
+</ul>
+<h3 id="编码过程中常用函数的解析"><a href="#编码过程中常用函数的解析" class="headerlink" title="编码过程中常用函数的解析"></a>编码过程中常用函数的解析</h3><p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/1426229411_4898.jpg" alt="1426229411_4898"></p>
+<h4 id="av-register-all-1"><a href="#av-register-all-1" class="headerlink" title="av_register_all()"></a>av_register_all()</h4><p>该函数与解码时一样。</p>
+<h4 id="avformat-alloc-output-context2"><a href="#avformat-alloc-output-context2" class="headerlink" title="avformat_alloc_output_context2()"></a>avformat_alloc_output_context2()</h4><p><code>avformat_alloc_output_context2()</code>函数可以初始化一个用于输出的AVFormatContext结构体。其</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_alloc_output_context2</span><span class="params">(AVFormatContext **ctx, AVOutputFormat *oformat, <span class="keyword">const</span> <span class="keyword">char</span> *format_name, <span class="keyword">const</span> <span class="keyword">char</span> *filename)</span></span>;</span><br><span class="line"></span><br><span class="line">ctx：函数调用成功之后创建的AVFormatContext结构体。</span><br><span class="line">oformat：指定AVFormatContext中的AVOutputFormat，用于确定输出格式。如果指定为<span class="literal">NULL</span>，可以设定后两个参数（format_name或者filename）由FFmpeg猜测输出格式。</span><br><span class="line">	PS：使用该参数需要自己手动获取AVOutputFormat，相对于使用后两个参数来说要麻烦一些。</span><br><span class="line">format_name：指定输出格式的名称。根据格式名称，FFmpeg会推测输出格式。输出格式可以是“flv”，“mkv”等等。</span><br><span class="line">filename：指定输出文件的名称。根据文件名称，FFmpeg会推测输出格式。文件名称可以是“xx.flv”，“yy.mkv”等等。</span><br><span class="line">函数执行成功的话，其返回值大于等于<span class="number">0</span>。</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150303220720490.png" alt="img"></p>
+<p>函数执行流程可简单概括为以下两步：</p>
+<ul>
+<li>调用avformat_alloc_context()进行内存分配以及初始化默认的AVFormatContext。</li>
+<li>如果指定了输入的AVOutputFormat，则直接将输入的AVOutputFormat赋值给AVOutputFormat的oformat。如果没有指定输入的AVOutputFormat，就需要根据文件格式名称或者文件名推测输出的AVOutputFormat。无论是通过文件格式名称还是文件名推测输出格式，都会调用一个函数av_guess_format()。<ul>
+<li>在<code>av_guess_format()</code>中，使用socre记录每种输出格式的匹配程度，遍历ffmpeg中所有的AVOutputFormat并逐一计算每个输出格式的score，具体的计算流程如下所示：<ul>
+<li>如果封装格式名称匹配，score增加100。匹配中使用了函数av_match_name()。</li>
+<li>如果mime类型匹配，score增加10。匹配直接使用字符串比较函数strcmp()。</li>
+<li>如果文件名称的后缀匹配，score增加5。匹配中使用了函数av_match_ext()。</li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+<h4 id="avio-open2"><a href="#avio-open2" class="headerlink" title="avio_open2()"></a>avio_open2()</h4><p><code>avio_open2()</code>用于打开FFmpeg的输入输出文件。</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avio_open2</span><span class="params">(AVIOContext **s, <span class="keyword">const</span> <span class="keyword">char</span> *url, <span class="keyword">int</span> flags, <span class="keyword">const</span> AVIOInterruptCB *int_cb, AVDictionary **options)</span></span>;</span><br><span class="line"></span><br><span class="line">s：函数调用成功之后创建的AVIOContext结构体。</span><br><span class="line">url：输入输出协议的地址（文件也是一种“广义”的协议，对于文件来说就是文件的路径）。</span><br><span class="line">flags：打开地址的方式。可以选择只读，只写，或者读写。取值如下。</span><br><span class="line">	AVIO_FLAG_READ：只读。</span><br><span class="line">	AVIO_FLAG_WRITE：只写。</span><br><span class="line">	AVIO_FLAG_READ_WRITE：读写。</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150304132258935.png" alt="img"></p>
+<p>该函数主要调用了两个函数<code>ffurl_open()</code>和<code>ffio_fdopen()</code>。</p>
+<ul>
+<li>ffurl_open()用于初始化URLContext<ul>
+<li>ffurl_open()主要调用了2个函数：ffurl_alloc()和ffurl_connect()。<ul>
+<li>ffurl_alloc()用于查找合适的URLProtocol，并创建一个URLContext</li>
+<li>ffurl_connect()用于打开获得的URLProtocol。</li>
+</ul>
+</li>
+</ul>
+</li>
+<li>ffio_fdopen()用于根据URLContext初始化AVIOContext。<ul>
+<li>URLContext中包含的URLProtocol完成了具体的协议读写等工作。AVIOContext则是在URLContext的读写函数外面加上了一层“包装”（通过retry_transfer_wrapper()函数）。</li>
+</ul>
+</li>
+</ul>
+<h4 id="avformat-new-stream"><a href="#avformat-new-stream" class="headerlink" title="avformat_new_stream()"></a>avformat_new_stream()</h4><p><code>avformat_new_stream()</code>是初始化<code>AVStream</code>的函数。</p>
+<h4 id="avcodec-find-encoder"><a href="#avcodec-find-encoder" class="headerlink" title="avcodec_find_encoder()"></a>avcodec_find_encoder()</h4><p><code>avcodec_find_encoder()</code>与解码过程中的<code>avcodec_find_decoder()</code>类似。</p>
+<h4 id="avcodec-open2-1"><a href="#avcodec-open2-1" class="headerlink" title="avcodec_open2()"></a>avcodec_open2()</h4><p><code>avcodec_open2()</code>用于初始化一个视音频编解码器的AVCodecContext。</p>
+<h4 id="avformat-write-header"><a href="#avformat-write-header" class="headerlink" title="avformat_write_header()"></a>avformat_write_header()</h4><p><code>avformat_write_header()</code>用于写视频文件头。</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avformat_write_header</span><span class="params">(AVFormatContext *s, AVDictionary **options)</span></span>;</span><br><span class="line"></span><br><span class="line">s：用于输出的AVFormatContext。</span><br><span class="line">options：额外的选项，目前没有深入研究过，一般为<span class="literal">NULL</span>。</span><br><span class="line">函数正常执行后返回值为<span class="number">0</span></span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150307142222277.png" alt="img"></p>
+<p>avformat_write_header()完成了以下工作：</p>
+<ul>
+<li>调用init_muxer()初始化复用器<ul>
+<li>将传入的AVDictionary形式的选项设置到AVFormatContext</li>
+<li>遍历AVFormatContext中的每个AVStream，并作如下检查：<ul>
+<li>AVStream的time_base是否正确设置。如果发现AVStream的time_base没有设置，则会调用avpriv_set_pts_info()进行设置。</li>
+<li>对于音频，检查采样率设置是否正确；对于视频，检查宽、高、宽高比。</li>
+<li>其他一些检查</li>
+</ul>
+</li>
+</ul>
+</li>
+<li>调用AVOutputFormat的write_header()，write_header()是AVOutputFormat中的一个函数指针，指向写文件头的函数。不同的AVOutputFormat有不同的write_header()的实现方法。</li>
+</ul>
+<h4 id="avcodec-encode-video2"><a href="#avcodec-encode-video2" class="headerlink" title="avcodec_encode_video2()"></a>avcodec_encode_video2()</h4><p><code>avcodec_encode_video2()</code>用于编码一帧视频数据</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">avcodec_encode_video2</span><span class="params">(AVCodecContext *avctx, AVPacket *avpkt, <span class="keyword">const</span> AVFrame *frame, <span class="keyword">int</span> *got_packet_ptr)</span></span>;</span><br><span class="line"> avctx：编码器的AVCodecContext。</span><br><span class="line"> avpkt：编码输出的AVPacket。</span><br><span class="line"> frame：编码输入的AVFrame。</span><br><span class="line"> got_packet_ptr：成功编码一个AVPacket的时候设置为<span class="number">1</span>。</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150311222209829.png" alt="img"></p>
+<p>在该函数中，主要由两个部分组成。首先调用<code>av_image_check_size()</code>检查设置的宽高等参数是否合理，然后调用AVcodec的<code>encode2()</code>调用具体的解码器。</p>
+<h4 id="av-write-frame"><a href="#av-write-frame" class="headerlink" title="av_write_frame()"></a>av_write_frame()</h4><p><code>av_write_frame()</code>用于输出一帧视频数据。</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">av_write_frame</span><span class="params">(AVFormatContext *s, AVPacket *pkt)</span></span>;</span><br><span class="line">	s：用于输出的AVFormatContext。</span><br><span class="line">	pkt：等待输出的AVPacket。</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><img src="/2023/04/12/c-%E4%B8%AD%E7%9A%84ffmpeg%E6%BA%90%E7%A0%81%E5%AD%A6%E4%B9%A0/20150311155409612.png" alt="img"></p>
+<p>该函数主要包括以下三个步骤：</p>
+<ul>
+<li>调用check_packet()做一些简单的检测</li>
+<li>调用compute_pkt_fields2()设置AVPacket的一些属性值</li>
+<li>调用write_packet()写入数据</li>
+</ul>
+<h4 id="av-write-trailer"><a href="#av-write-trailer" class="headerlink" title="av_write_trailer()"></a>av_write_trailer()</h4><p><code>av_write_trailer()</code>用于写视频文件尾</p>
+<blockquote>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">av_write_trailer</span><span class="params">(AVFormatContext *s)</span></span>;</span><br><span class="line">	s：用于输出的AVFormatContext。</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p>av_write_trailer()主要完成了以下两步工作：</p>
+<ul>
+<li>循环调用interleave_packet()以及write_packet()，将还未输出的AVPacket输出出来。</li>
+<li>调用AVOutputFormat的write_trailer()，输出文件尾。</li>
+</ul>
+<h3 id="c-使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）"><a href="#c-使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）" class="headerlink" title="c++使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）"></a>c++使用ffmpeg进行视频格式转换的案例（由mp4转换为flv）</h3><p>工程链接：<a target="_blank" rel="noopener" href="https://github.com/XDUwsk/ffmpeg_demo/tree/main/change_mp4_2_flv">change_mp4_2_flv</a></p>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br><span class="line">94</span><br><span class="line">95</span><br><span class="line">96</span><br><span class="line">97</span><br><span class="line">98</span><br><span class="line">99</span><br><span class="line">100</span><br><span class="line">101</span><br><span class="line">102</span><br><span class="line">103</span><br><span class="line">104</span><br><span class="line">105</span><br><span class="line">106</span><br><span class="line">107</span><br><span class="line">108</span><br><span class="line">109</span><br><span class="line">110</span><br><span class="line">111</span><br><span class="line">112</span><br><span class="line">113</span><br><span class="line">114</span><br><span class="line">115</span><br><span class="line">116</span><br><span class="line">117</span><br><span class="line">118</span><br><span class="line">119</span><br><span class="line">120</span><br><span class="line">121</span><br><span class="line">122</span><br><span class="line">123</span><br><span class="line">124</span><br><span class="line">125</span><br><span class="line">126</span><br><span class="line">127</span><br><span class="line">128</span><br><span class="line">129</span><br><span class="line">130</span><br><span class="line">131</span><br><span class="line">132</span><br><span class="line">133</span><br><span class="line">134</span><br><span class="line">135</span><br><span class="line">136</span><br><span class="line">137</span><br><span class="line">138</span><br><span class="line">139</span><br><span class="line">140</span><br><span class="line">141</span><br><span class="line">142</span><br><span class="line">143</span><br><span class="line">144</span><br><span class="line">145</span><br><span class="line">146</span><br><span class="line">147</span><br><span class="line">148</span><br><span class="line">149</span><br><span class="line">150</span><br><span class="line">151</span><br><span class="line">152</span><br><span class="line">153</span><br><span class="line">154</span><br><span class="line">155</span><br><span class="line">156</span><br><span class="line">157</span><br><span class="line">158</span><br><span class="line">159</span><br><span class="line">160</span><br></pre></td><td class="code"><pre><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&lt;iostream&gt;</span></span></span><br><span class="line"> </span><br><span class="line"><span class="keyword">extern</span> <span class="string">&quot;C&quot;</span></span><br><span class="line">&#123;</span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libavformat/avformat.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libavutil/dict.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libavutil/opt.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libavutil/timestamp.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libswscale/swscale.h&quot;</span></span></span><br><span class="line"><span class="meta">#<span class="meta-keyword">include</span> <span class="meta-string">&quot;libswresample/swresample.h&quot;</span></span></span><br><span class="line">&#125;;</span><br><span class="line"></span><br><span class="line"><span class="function"><span class="keyword">int</span> <span class="title">main</span><span class="params">()</span></span></span><br><span class="line"><span class="function"></span>&#123;</span><br><span class="line">    <span class="comment">//本质上ffmpeg4.2.7不需要这句话，但是加上也没有问题</span></span><br><span class="line">	<span class="built_in">av_register_all</span>();</span><br><span class="line">	<span class="comment">//avformat_network_init();</span></span><br><span class="line"> </span><br><span class="line">    AVFormatContext* ifmt_ctx = <span class="literal">NULL</span>;</span><br><span class="line">	<span class="keyword">const</span> <span class="keyword">char</span>* inputUrl = <span class="string">&quot;/home/firefly/ffmpeg_workspace/media/4.mp4&quot;</span>;</span><br><span class="line"> </span><br><span class="line">	<span class="comment">///打开输入的流</span></span><br><span class="line">	<span class="keyword">int</span> ret = <span class="built_in">avformat_open_input</span>(&amp;ifmt_ctx, inputUrl, <span class="literal">NULL</span>, <span class="literal">NULL</span>);</span><br><span class="line">	<span class="keyword">if</span> (ret != <span class="number">0</span>)</span><br><span class="line">	&#123;</span><br><span class="line">		<span class="built_in">printf</span>(<span class="string">&quot;Couldn&#x27;t open input stream.\n&quot;</span>);</span><br><span class="line">		<span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">	&#125;</span><br><span class="line"> </span><br><span class="line">	<span class="comment">//查找流信息</span></span><br><span class="line">	<span class="keyword">if</span> (<span class="built_in">avformat_find_stream_info</span>(ifmt_ctx, <span class="literal">NULL</span>) &lt; <span class="number">0</span>)</span><br><span class="line">	&#123;</span><br><span class="line">		<span class="built_in">printf</span>(<span class="string">&quot;Couldn&#x27;t find stream information.\n&quot;</span>);</span><br><span class="line">		<span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">	&#125;</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//输出的文件</span></span><br><span class="line">    AVOutputFormat *ofmt = <span class="literal">NULL</span>;</span><br><span class="line">    AVFormatContext *ofmt_ctx = <span class="literal">NULL</span>;</span><br><span class="line">    <span class="keyword">const</span> <span class="keyword">char</span>* out_filename = <span class="string">&quot;4_out.flv&quot;</span>;</span><br><span class="line"> </span><br><span class="line">    <span class="built_in">avformat_alloc_output_context2</span>(&amp;ofmt_ctx, <span class="literal">NULL</span>, <span class="literal">NULL</span>, out_filename);</span><br><span class="line">    <span class="keyword">if</span> (!ofmt_ctx) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">int</span> stream_mapping_size = ifmt_ctx-&gt;nb_streams;</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//为数组分配内存</span></span><br><span class="line">    <span class="keyword">int</span>* stream_mapping = (<span class="keyword">int</span> *)<span class="built_in">av_mallocz_array</span>(stream_mapping_size, <span class="built_in"><span class="keyword">sizeof</span></span>(*stream_mapping));</span><br><span class="line">    <span class="keyword">if</span> (!stream_mapping) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">int</span> stream_index = <span class="number">0</span>;</span><br><span class="line">    ofmt = ofmt_ctx-&gt;oformat;</span><br><span class="line">    <span class="keyword">for</span> (<span class="keyword">int</span> i = <span class="number">0</span>; i &lt; ifmt_ctx-&gt;nb_streams; i++) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="comment">//输出的流</span></span><br><span class="line">        AVStream* out_stream = <span class="literal">NULL</span>;</span><br><span class="line"> </span><br><span class="line">        <span class="comment">//输入的流 视频、音频、字幕等</span></span><br><span class="line">        AVStream* in_stream = ifmt_ctx-&gt;streams[i];</span><br><span class="line">        AVCodecParameters* in_codecpar = in_stream-&gt;codecpar;</span><br><span class="line">        <span class="keyword">if</span> (in_codecpar-&gt;codec_type != AVMEDIA_TYPE_AUDIO &amp;&amp; in_codecpar-&gt;codec_type != AVMEDIA_TYPE_VIDEO &amp;&amp; in_codecpar-&gt;codec_type != AVMEDIA_TYPE_SUBTITLE) </span><br><span class="line">        &#123;</span><br><span class="line">            stream_mapping[i] = <span class="number">-1</span>;</span><br><span class="line">            <span class="keyword">continue</span>;</span><br><span class="line">        &#125;</span><br><span class="line">        stream_mapping[i] = stream_index++;</span><br><span class="line"> </span><br><span class="line">        <span class="comment">//创建一个新的流</span></span><br><span class="line">        out_stream = <span class="built_in">avformat_new_stream</span>(ofmt_ctx, <span class="literal">NULL</span>); </span><br><span class="line">        <span class="keyword">if</span> (!out_stream) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">        &#125;</span><br><span class="line"> </span><br><span class="line">        <span class="comment">//复制输入的流信息到输出流中</span></span><br><span class="line">        ret = <span class="built_in">avcodec_parameters_copy</span>(out_stream-&gt;codecpar, in_codecpar);</span><br><span class="line">        <span class="keyword">if</span> (ret &lt; <span class="number">0</span>) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">        &#125;</span><br><span class="line">        out_stream-&gt;codecpar-&gt;codec_tag = <span class="number">0</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">if</span> (!(ofmt-&gt;flags &amp; AVFMT_NOFILE)) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="comment">//打开输出文件</span></span><br><span class="line">        ret = <span class="built_in">avio_open</span>(&amp;ofmt_ctx-&gt;pb, out_filename, AVIO_FLAG_WRITE); </span><br><span class="line">        <span class="keyword">if</span> (ret &lt; <span class="number">0</span>) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">        &#125;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//写入头</span></span><br><span class="line">    ret = <span class="built_in">avformat_write_header</span>(ofmt_ctx, <span class="literal">NULL</span>);</span><br><span class="line">    <span class="keyword">if</span> (ret &lt; <span class="number">0</span>) </span><br><span class="line">    &#123;</span><br><span class="line">        <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    AVPacket pkt;</span><br><span class="line">    <span class="keyword">while</span> (<span class="number">1</span>) </span><br><span class="line">    &#123;</span><br><span class="line">        AVStream* in_stream = <span class="literal">NULL</span>;</span><br><span class="line">        AVStream* out_stream = <span class="literal">NULL</span>;</span><br><span class="line"> </span><br><span class="line">        <span class="comment">//从输入流中读取数据到pkt中</span></span><br><span class="line">        ret = <span class="built_in">av_read_frame</span>(ifmt_ctx, &amp;pkt);</span><br><span class="line">        <span class="keyword">if</span> (ret &lt; <span class="number">0</span>)</span><br><span class="line">            <span class="keyword">break</span>;</span><br><span class="line"> </span><br><span class="line">        in_stream = ifmt_ctx-&gt;streams[pkt.stream_index];</span><br><span class="line">        <span class="keyword">if</span> (pkt.stream_index &gt;= stream_mapping_size || stream_mapping[pkt.stream_index] &lt; <span class="number">0</span>) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="built_in">av_packet_unref</span>(&amp;pkt);</span><br><span class="line">            <span class="keyword">continue</span>;</span><br><span class="line">        &#125;</span><br><span class="line">        pkt.stream_index = stream_mapping[pkt.stream_index];</span><br><span class="line">        out_stream = ofmt_ctx-&gt;streams[pkt.stream_index];</span><br><span class="line"> </span><br><span class="line">        <span class="comment">/* copy packet */</span></span><br><span class="line">        pkt.pts = <span class="built_in">av_rescale_q_rnd</span>(pkt.pts, in_stream-&gt;time_base, out_stream-&gt;time_base, (AVRounding)(AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX));</span><br><span class="line">        pkt.dts = <span class="built_in">av_rescale_q_rnd</span>(pkt.dts, in_stream-&gt;time_base, out_stream-&gt;time_base, (AVRounding)(AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX));</span><br><span class="line">        pkt.duration = <span class="built_in">av_rescale_q</span>(pkt.duration, in_stream-&gt;time_base, out_stream-&gt;time_base);</span><br><span class="line">        pkt.pos = <span class="number">-1</span>;</span><br><span class="line"> </span><br><span class="line">        ret = <span class="built_in">av_interleaved_write_frame</span>(ofmt_ctx, &amp;pkt);</span><br><span class="line">        <span class="keyword">if</span> (ret &lt; <span class="number">0</span>) </span><br><span class="line">        &#123;</span><br><span class="line">            <span class="built_in">fprintf</span>(stderr, <span class="string">&quot;Error muxing packet\n&quot;</span>);</span><br><span class="line">            <span class="keyword">break</span>;</span><br><span class="line">        &#125;</span><br><span class="line">        <span class="built_in">av_packet_unref</span>(&amp;pkt);</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//写文件尾</span></span><br><span class="line">    <span class="built_in">av_write_trailer</span>(ofmt_ctx);</span><br><span class="line"> </span><br><span class="line">    <span class="comment">//关闭</span></span><br><span class="line">    <span class="built_in">avformat_close_input</span>(&amp;ifmt_ctx);</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">if</span> (ofmt_ctx &amp;&amp; !(ofmt-&gt;flags &amp; AVFMT_NOFILE))</span><br><span class="line">        <span class="built_in">avio_closep</span>(&amp;ofmt_ctx-&gt;pb);</span><br><span class="line"> </span><br><span class="line">    <span class="built_in">avformat_free_context</span>(ofmt_ctx);</span><br><span class="line">    <span class="built_in">av_freep</span>(&amp;stream_mapping);</span><br><span class="line">    <span class="keyword">if</span> (ret &lt; <span class="number">0</span> &amp;&amp; ret != AVERROR_EOF)</span><br><span class="line">    &#123;</span><br><span class="line">        <span class="keyword">return</span> <span class="number">-1</span>;</span><br><span class="line">    &#125;</span><br><span class="line"> </span><br><span class="line">    <span class="keyword">return</span> <span class="number">0</span>;</span><br><span class="line">&#125;</span><br><span class="line"> </span><br></pre></td></tr></table></figure>
 
       
     </div>
@@ -580,7 +677,7 @@ <h4 id="image-presentation"><a href="#image-presentation" class="headerlink" tit
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/DETR/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/04/12/ffmpeg%E5%9F%BA%E7%A1%80%E4%BA%86%E8%A7%A3/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -594,7 +691,7 @@ <h4 id="image-presentation"><a href="#image-presentation" class="headerlink" tit
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/08/22/DETR/" class="post-title-link" itemprop="url">DETR</a>
+            <a href="/2023/04/12/ffmpeg%E5%9F%BA%E7%A1%80%E4%BA%86%E8%A7%A3/" class="post-title-link" itemprop="url">ffmpeg基础了解</a>
         </h2>
 
         <div class="post-meta">
@@ -605,7 +702,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2022-08-22 20:56:17 / 修改时间：21:34:04" itemprop="dateCreated datePublished" datetime="2022-08-22T20:56:17+08:00">2022-08-22</time>
+              <time title="创建时间：2023-04-12 09:36:29 / 修改时间：09:39:30" itemprop="dateCreated datePublished" datetime="2023-04-12T09:36:29+08:00">2023-04-12</time>
             </span>
 
           
@@ -619,71 +716,773 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="DETR-End-to-End-Object-Detection-with-Transformers"><a href="#DETR-End-to-End-Object-Detection-with-Transformers" class="headerlink" title="DETR: End-to-End Object Detection with Transformers"></a>DETR: End-to-End Object Detection with Transformers</h2><p>目标检测的目标是预测bounding boxes的集合和每个感兴趣物体的类别，之前的方法大都是采用间接的方法进行解决的，例如利用anchor，提出大量的region proposals或者window centers等，将问题视为回归或分类的问题。这些间接的方法都采用了很多的先验知识，并且这些先验的选取会严重的影响检测的效果。DETR将目标检测的问题视为集合预测的问题，真正建立了一个end-to-end的检测网络，并移除了许多需要手动设计的组件，例如NMS。</p>
-<h3 id="结构"><a href="#结构" class="headerlink" title="结构"></a>结构</h3><p><img src="/2022/08/22/DETR/image-20220808085358261.png" alt="image-20220808085358261"></p>
-<p>DETR的整体结构如上所示，其由backbone、transformer encoder、transformer decoder、预测前馈网络(FFNs)、辅助解码损失构成。</p>
-<p>其中基于CNN的backbone负责对输入图片进行特征的提取，encoder-decoder负责对backbone传入的图片特征和位置编码进行全局范围的特征的学习和注意力学习，然后最后使用FFNs进行最终目标的预测。</p>
-<h4 id="backbone"><a href="#backbone" class="headerlink" title="backbone"></a>backbone</h4><p>假定输入图像尺寸为$3 <em>H</em>W $，通过backbone进行特征的提取，从而生成一个尺寸为$C<em>H_0</em>W_0$的feature map。这个feature map的维度为C，在原文中使用的值是2048。每个feature map的尺寸大小为$H<em>W$，在原文中使用的尺寸为$\frac{H_0 }{32}</em>\frac{W_0 }{32}$。</p>
-<h3 id="Encoder"><a href="#Encoder" class="headerlink" title="Encoder"></a>Encoder</h3><h4 id="Encoder的输入"><a href="#Encoder的输入" class="headerlink" title="Encoder的输入"></a>Encoder的输入</h4><p>​    另外，由于transformer的过程中需要对输入元素进行注意力机制的计算，其计算复杂度为$O(n^2)$，所以backbone最后得出的特征需要首先通过$1<em>1$的卷积层进行降维。如原始的feature map的尺寸为$C</em>H<em>W$，经过$1</em>1$的卷积之后得到的大小为$D<em>H</em>W$。又由于transformer需要的是序列信息的输入，所以将三维的$D<em>H</em>W$进行压缩，压缩为$D*(HW)$。这样传入的序列，每个序列的长度为$HW$，共有$D$个序列。在原文中$D=256$</p>
-<p>​    由于在transformer的注意力机制的计算过程中，是对位置不敏感的，所以需要加入positional encoding代表其的空间信息。在原文的positional encoding的过程中，源码为：</p>
-<p><img src="/2022/08/22/DETR/image-20220808103125644.png" alt="image-20220808103125644"></p>
-<p><img src="/2022/08/22/DETR/image-20220808103146058.png" alt="image-20220808103146058"></p>
-<p>可见其为随机初始化的，然后将其进行复制从而扩展。最终的尺度也为$D*(HW)$</p>
-<h4 id="Encoder本身"><a href="#Encoder本身" class="headerlink" title="Encoder本身"></a>Encoder本身</h4><p>​    Encoder本身的结构的定义与经典transformer的相似，如下所示：</p>
-<p><img src="/2022/08/22/DETR/7.png" alt="DETR Transformer"></p>
-<h4 id="Decoder"><a href="#Decoder" class="headerlink" title="Decoder"></a>Decoder</h4><p>Decoder本身的架构也与transformer中的经典架构相似。其输入一部分为encoder部分的输出，尺度为$D<em>(HW)$，另一部分的输入为可学习的object query，其尺度为$N</em>D$，其中N为decoder最终输出的，一个远大于图像中可能存在的物体的数量，在原文中采用的是$N=100$。object query是一个随机初始化的向量，对训练之后得到的object query进行可视化，得到的结果如下所示：</p>
-<p><img src="/2022/08/22/DETR/10.png" alt="在这里插入图片描述"></p>
-<p>可得其是学到了从图片的哪个位置进行目标的搜寻的。</p>
-<p>target被初始化为0，其尺度为$D*N$。</p>
+          <h2 id="ffmpeg是什么"><a href="#ffmpeg是什么" class="headerlink" title="ffmpeg是什么"></a>ffmpeg是什么</h2><p>FFmpeg是一个库和工具的集合，用于处理音频、视频、字幕和相关元数据等多媒体内容。</p>
+<h2 id="ffmpeg的组成"><a href="#ffmpeg的组成" class="headerlink" title="ffmpeg的组成"></a>ffmpeg的组成</h2><p>ffmpeg由以下几个核心依赖包组成</p>
+<ul>
+<li><strong>libavcodec</strong> - 提供了更广泛的编码器解码器的实现。各种格式的编解码代码(如aacenc.c、aacdec.c等)都位于该目录下。</li>
+<li><strong>libavformat</strong> - 实现了流协议、容器格式和基本的I/O实现。用于各种音视频封装格式的生成和解析，包括获取解码所需信息、读取音视频数据等功能。各种流媒体协议代码(如rtmpproto.c等)以及音视频格式的(解)复用代码(如flvdec.c、flvenc.c等)都位于该目录下。</li>
+<li><strong>libavutil</strong> - 为核心工具包，包含一些公共的工具函数的使用库，包括算数运算，字符操作等。</li>
+<li><strong>libavfilter</strong> - 提供各种音视频滤波器。</li>
+<li><strong>libavdevice</strong> - 用于硬件的音视频采集、加速和显示。</li>
+<li><strong>libswresample</strong> - 提供音频重采样，采样格式转换和音频混合等功能。</li>
+<li><strong>libswscale</strong> - 提供原始视频的比例缩放、色彩映射转换、图像颜色空间或格式转换的功能。</li>
+</ul>
+<h2 id="ffmpeg用到的工具"><a href="#ffmpeg用到的工具" class="headerlink" title="ffmpeg用到的工具"></a>ffmpeg用到的工具</h2><ul>
+<li><a target="_blank" rel="noopener" href="https://ffmpeg.org/ffmpeg.html">ffmpeg</a>是一个用于操作、转换和流式传输多媒体内容的命令行工具箱。</li>
+<li><a target="_blank" rel="noopener" href="https://ffmpeg.org/ffplay.html">ffplay</a>是一款简约的多媒体播放器。</li>
+<li><a target="_blank" rel="noopener" href="https://ffmpeg.org/ffprobe.html">ffprobe</a>是一种检查多媒体内容的简单分析工具。</li>
+<li>其他小工具，如”aviocat”、”ismindex”和”qt faststart”。</li>
+</ul>
+<h2 id="ffmpeg的源码编译"><a href="#ffmpeg的源码编译" class="headerlink" title="ffmpeg的源码编译"></a>ffmpeg的源码编译</h2><h3 id="ffmpeg的源码下载-以ffmpeg-release-6-0为例"><a href="#ffmpeg的源码下载-以ffmpeg-release-6-0为例" class="headerlink" title="ffmpeg的源码下载    以ffmpeg release 6.0为例"></a>ffmpeg的源码下载    以<a target="_blank" rel="noopener" href="https://github.com/FFmpeg/FFmpeg/tree/release/6.0">ffmpeg release 6.0为例</a></h3><figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">git clone https://github.com/FFmpeg/FFmpeg/<span class="built_in">tree</span>/release/<span class="number">6</span>.<span class="number">0</span></span><br></pre></td></tr></table></figure>
+<h3 id="yasm的安装"><a href="#yasm的安装" class="headerlink" title="yasm的安装"></a>yasm的安装</h3><p>由于ffmpeg的安装过程中为了提高效率使用了汇编指令，而yasm是汇编编译器，在ffmpeg的编译过程中对其有依赖，所以需要对其提前进行下载安装。</p>
+<p>linux环境下直接：</p>
+<ul>
+<li>下载：wget  <a target="_blank" rel="noopener" href="http://www.tortall.net/projects/yasm/releases/yasm-1.3.0.tar.gz">http://www.tortall.net/projects/yasm/releases/yasm-1.3.0.tar.gz</a></li>
+<li>解压：tar zxvf yasm-1.3.0.tar.gz</li>
+<li>切换路径： cd yasm-1.3.0</li>
+<li>执行配置： ./configure</li>
+<li>编译：make</li>
+<li>安装：make install</li>
+</ul>
+<h3 id="ffmpeg的源码编译-1"><a href="#ffmpeg的源码编译-1" class="headerlink" title="ffmpeg的源码编译"></a>ffmpeg的源码编译</h3><p>进入ffmpeg的源码文件夹。</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">./configure --prefix=/usr/local/ffmpeg</span><br><span class="line">make &amp;&amp; make install</span><br><span class="line">vi /etc/profile</span><br><span class="line">export <span class="built_in">PATH</span>=$<span class="built_in">PATH</span>:/usr/local/ffmpeg/bin</span><br></pre></td></tr></table></figure>
+<h3 id="ffmpeg的安装测试"><a href="#ffmpeg的安装测试" class="headerlink" title="ffmpeg的安装测试"></a>ffmpeg的安装测试</h3><p>在命令行中直接输入ffmpeg，得到ffmpeg相关的信息输出即可。</p>
+<h2 id="常见使用方法"><a href="#常见使用方法" class="headerlink" title="常见使用方法"></a>常见使用方法</h2><p>具体详细版的ffmpeg文档可见： <a target="_blank" rel="noopener" href="https://xdsnet.gitbooks.io/other-doc-cn-ffmpeg/content/index.html">ffmpeg中文文档</a></p>
+<h3 id="统一语法"><a href="#统一语法" class="headerlink" title="统一语法"></a>统一语法</h3><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg [全局选项] &#123;[输入文件选项] -i 输入文件&#125; ... &#123;[输出文件选项] 输出文件&#125; ...</span><br></pre></td></tr></table></figure>
+<p>即</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg [global_options] &#123;[input_file_options] -i input_file&#125; ... &#123;[output_file_options] output_file&#125; ...</span><br></pre></td></tr></table></figure>
+<h3 id="基本选项"><a href="#基本选项" class="headerlink" title="基本选项"></a>基本选项</h3><p>能力集列表</p>
+<ul>
+<li>-formats：列出支持的文件格式。</li>
+<li>-codecs：列出支持的编解码器。</li>
+<li>-decoders：列出支持的解码器。</li>
+<li>-encoders：列出支持的编码器。</li>
+<li>-protocols：列出支持的协议。</li>
+<li>-bsfs：列出支持的比特流过滤器。</li>
+<li>-filters：列出支持的滤镜。</li>
+<li>-pix_fmts：列出支持的图像采样格式。</li>
+<li>-sample_fmts：列出支持的声音采样格式。</li>
+</ul>
+<p>常用输入选项</p>
+<ul>
+<li>-i filename：指定输入文件名。</li>
+<li>-f fmt：强制设定文件格式，需使用能力集列表中的名称(缺省是根据扩展名选择的)。</li>
+<li>-ss hh:mm:ss[.xxx]：设定输入文件的起始时间点，启动后将跳转到此时间点然后开始读取数据。</li>
+</ul>
+<p>对于输入，以下选项通常是自动识别的，但也可以强制设定。</p>
+<ul>
+<li>-c codec：指定解码器，需使用能力集列表中的名称。</li>
+<li>-acodec codec：指定声音的解码器，需使用能力集列表中的名称。</li>
+<li>-vcodec codec：指定视频的解码器，需使用能力集列表中的名称。</li>
+<li>-b:v bitrate：设定视频流的比特率，整数，单位bps。</li>
+<li>-r fps：设定视频流的帧率，整数，单位fps。</li>
+<li>-s WxH : 设定视频的画面大小。也可以通过挂载画面缩放滤镜实现。</li>
+<li>-pix_fmt format：设定视频流的图像格式(如RGB还是YUV)。</li>
+<li>-ar sample rate：设定音频流的采样率，整数，单位Hz。</li>
+<li>-ab bitrate：设定音频流的比特率，整数，单位bps。</li>
+<li>-ac channels：设置音频流的声道数目。</li>
+</ul>
+<p>常用输出选项</p>
+<ul>
+<li>-f fmt：强制设定文件格式，需使用能力集列表中的名称(缺省是根据扩展名选择的)。</li>
+<li>-c codec：指定编码器，需使用能力集列表中的名称(编码器设定为”copy“表示不进行编解码)。</li>
+<li>-acodec codec：指定声音的编码器，需使用能力集列表中的名称(编码器设定为”copy“表示不进行编解码)。</li>
+<li>-vcodec codec：指定视频的编码器，需使用能力集列表中的名称(编解码器设定为”copy“表示不进行编解码)。</li>
+<li>-r fps：设定视频编码器的帧率，整数，单位fps。</li>
+<li>-pix_fmt format：设置视频编码器使用的图像格式(如RGB还是YUV)。</li>
+<li>-ar sample rate：设定音频编码器的采样率，整数，单位Hz。</li>
+<li>-b bitrate：设定音视频编码器输出的比特率，整数，单位bps。</li>
+<li>-ab bitrate：设定音频编码器输出的比特率，整数，单位bps。</li>
+<li>-ac channels：设置音频编码器的声道数目。</li>
+<li>-an 忽略任何音频流。</li>
+<li>-vn 忽略任何视频流。</li>
+<li>-t hh:mm:ss[.xxx]：设定输出文件的时间长度。</li>
+<li>-to hh:mm:ss[.xxx]：如果没有设定输出文件的时间长度的画可以设定终止时间点。</li>
+</ul>
+<h3 id="ffmpeg音视频转换流程"><a href="#ffmpeg音视频转换流程" class="headerlink" title="ffmpeg音视频转换流程"></a>ffmpeg音视频转换流程</h3><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br></pre></td><td class="code"><pre><span class="line"> _______              ______________</span><br><span class="line">|       |            |              |</span><br><span class="line">| input |  demuxer   | encoded data |   decoder</span><br><span class="line">| file  | ---------&gt; | packets      | -----+</span><br><span class="line">|_______|            |______________|      |</span><br><span class="line">                                           v</span><br><span class="line">                                       _________</span><br><span class="line">                                      |         |</span><br><span class="line">                                      | decoded |</span><br><span class="line">                                      | frames  |</span><br><span class="line">                                      |_________|</span><br><span class="line">  ________             ______________      |</span><br><span class="line">|        |           |              |      |</span><br><span class="line">| output | &lt;-------- | encoded data | &lt;----+</span><br><span class="line">| file   |   muxer   | packets      |   encoder</span><br><span class="line">|________|           |______________|</span><br></pre></td></tr></table></figure>
+<p><code>ffmpeg</code>调用<code>libavformat</code>库(含分离器<code>demuxer</code>)读取输入文件，分离出各类编码的数据包(流)。编码数据包通过解码器解码出非压缩的数据帧(raw视频/PCM格式音频…)，这些数据帧可以被滤镜进一步处理。经过滤镜处理的数据被重新编码为新的数据包(流)，然后经过混合器混合(例如按一定顺序和比例把音频数据包和视频数据包交叉组合)，写入到输出文件。</p>
+<h3 id="滤镜处理-Filtering"><a href="#滤镜处理-Filtering" class="headerlink" title="滤镜处理(Filtering)"></a>滤镜处理(Filtering)</h3><p>在上述音视频转换流程中，decoder得到原始音视频数据之后，可以使用<code>libavfilter</code>库中的滤镜进行处理，滤镜之间可以组合使用<code>filtergraphs</code> ，对于ffmpeg而言，滤镜分为<code>简单滤镜</code>和<code>复合滤镜</code>。</p>
+<h4 id="简单滤镜"><a href="#简单滤镜" class="headerlink" title="简单滤镜"></a>简单滤镜</h4><p>简单滤镜即为只有一个输入和输出的滤镜，且滤镜两边的数据为同一类型的数据，可以理解为从raw data到encoder处理之前简单附加的一步。其具体流程可如下所示：</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line"> _________                        ______________</span><br><span class="line">|         |                      |              |</span><br><span class="line">| decoded |                      | encoded data |</span><br><span class="line">| frames  |\                     | packets      |</span><br><span class="line">|_________| \                  /||______________|</span><br><span class="line">             \   __________   /</span><br><span class="line">  simple      \ |          | /  encoder</span><br><span class="line">  filtergraph  \| filtered |/</span><br><span class="line">                | frames   |</span><br><span class="line">                |__________|</span><br></pre></td></tr></table></figure>
+<p>tips：滤镜改变的不止可以为帧内容，还可以是帧属性。例如帧率的变化，尺寸的变化等。对应于帧内容并不发生改变。</p>
+<h4 id="复合滤镜"><a href="#复合滤镜" class="headerlink" title="复合滤镜"></a>复合滤镜</h4><p>不为简单滤镜的行为均可视为复合滤镜，例如多个输入多个输出的场景，示意图如下：</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br></pre></td><td class="code"><pre><span class="line"> _________</span><br><span class="line">|         |</span><br><span class="line">| input 0 |\                    __________</span><br><span class="line">|_________| \                  |          |</span><br><span class="line">             \   _________    /| output 0 |</span><br><span class="line">              \ |         |  / |__________|</span><br><span class="line"> _________     \| complex | /</span><br><span class="line">|         |     |         |/</span><br><span class="line">| input 1 |----&gt;| filter  |\</span><br><span class="line">|_________|     |         | \   __________</span><br><span class="line">               /| graph   |  \ |          |</span><br><span class="line">              / |         |   \| output 1 |</span><br><span class="line"> _________   /  |_________|    |__________|</span><br><span class="line">|         | /</span><br><span class="line">| input 2 |/</span><br><span class="line">|_________|</span><br></pre></td></tr></table></figure>
+<p>复合滤镜由<code>-filter_complex</code>选项进行设定。<strong>注意</strong>这是一个全局选项，因为一个复合滤镜必然是不能只关联到一个单一流或者文件的。<code>-lavfi</code>选项等效于<code>-filter_complex</code></p>
+<p>一个复合滤镜的简单例子就是<code>overlay</code>滤镜，它从两路输入中，把一个视频叠加到一个输出上。对应的类似音频滤镜是<code>amix</code>。</p>
+<h4 id="流拷贝"><a href="#流拷贝" class="headerlink" title="流拷贝"></a>流拷贝</h4><p>流拷贝(Stream copy)是一种对指定流数据仅仅进行复制的<code>拷贝(copy)</code>模式。这种情况下<code>ffmpeg</code>不会对指定流进行解码和编码步骤，而仅仅是分离和混合数据包。这种模式常用于文件包装格式的转换或者修改部分元数据信息，这个过程简单图示如下：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">_______              ______________            ________</span><br><span class="line">|       |            |              |          |        |</span><br><span class="line">| input |  demuxer   | encoded data |  muxer   | output |</span><br><span class="line">| file  | ---------&gt; | packets      | -------&gt; | file   |</span><br><span class="line">|_______|            |______________|          |________|</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p>因为这种模式下不存在解码和编码过程，所以也特别快，而且不会造成新的质量损失。然而这也使得这样的模式不能适合很多工作需求，例如这个模式下不能使用大量的滤镜了，因为滤镜仅能对未压缩(编码)的数据进行处理。</p>
+<h3 id="流"><a href="#流" class="headerlink" title="流"></a>流</h3><h4 id="4-1流处理"><a href="#4-1流处理" class="headerlink" title="4.1流处理"></a>4.1流处理</h4><p>默认情况下，<code>ffmpeg</code>把输入文件每种类型(视频、音频和字幕)仅仅采用一个流转换输出到输出文件中，就是把<strong>最好</strong>效果的流进行输出：</p>
+<ul>
+<li>对于视频，它是具有最高分辨率的流</li>
+<li>对于音频，它是具有最多频道的流</li>
+<li>对于字幕，它是第一个找到的字幕流，但有一个警告。输出格式的默认字幕编码器可以是基于文本的，也可以是基于图像的，并且仅选择相同类型的字幕流</li>
+<li>在几个相同类型的流速率相等的情况下，选择具有最低索引的流。</li>
+</ul>
+<p>当然，你可以禁用默认设置，而采用<code>-vn/-an/-sn</code>选项进行专门的指定，如果要进行完全的手动控制，则是以<code>-map</code>选项，它将禁止默认值而选用指定的配置。</p>
+<h4 id="4-1流处理-1"><a href="#4-1流处理-1" class="headerlink" title="4.1流处理"></a>4.1流处理</h4><p>流处理独立于流选择，下面描述的字幕除外。流处理通过<code>-codec</code>选项进行设置，该选项寻址到特定输出文件内的流。特别是，<code>-codec</code>在流选择过程之后被ffmpeg应用，因此不影响后者。如果没有为流类型指定<code>-codec</code>选项，ffmpeg将选择输出文件muxer注册的默认编码器。</p>
+<p>对于字幕存在例外。如果为输出文件指定了字幕编码器，则将包括找到任何类型的第一个字幕流，如文本或图像。 ffmpeg不验证指定的编码器是否可以转换所选的流，或者转换的流是否在输出格式中是可接受的。这通常也适用：当用户手动设置编码器时，流选择过程不能检查编码流是否可以复用到输出文件中。如果不能，则ffmpeg将中止，并且所有输出文件都将无法处理。</p>
+<h4 id="4-2例子"><a href="#4-2例子" class="headerlink" title="4.2例子"></a>4.2例子</h4><p>假设以下三个输入文件。</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br></pre></td><td class="code"><pre><span class="line">input file &#x27;A.avi&#x27;</span><br><span class="line">      stream 0: video 640x360</span><br><span class="line">      stream 1: audio 2 channels</span><br><span class="line"> </span><br><span class="line">input file &#x27;B.mp4&#x27;</span><br><span class="line">      stream 0: video 1920x1080</span><br><span class="line">      stream 1: audio 2 channels</span><br><span class="line">      stream 2: subtitles (text)</span><br><span class="line">      stream 3: audio 5.1 channels</span><br><span class="line">      stream 4: subtitles (text)</span><br><span class="line"> </span><br><span class="line">input file &#x27;C.mkv&#x27;</span><br><span class="line">      stream 0: video 1280x720</span><br><span class="line">      stream 1: audio 2 channels</span><br><span class="line">      stream 2: subtitles (image)</span><br></pre></td></tr></table></figure>
+<h5 id="示例：自动流选择"><a href="#示例：自动流选择" class="headerlink" title="示例：自动流选择"></a>示例：自动流选择</h5><figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i A.avi -i B.mp4 out1.mkv out2.wav -map <span class="number">1</span>:a -c:a <span class="built_in">copy</span> out3.mov</span><br></pre></td></tr></table></figure>
+<p>指定了三个输出文件，对于前两个out1 out2，由于未设置<code>-map</code>选项，因此ffmpeg将自动为这两个文件选择流。<br>out1.mkv是一个Matroska容器文件，接受视频，音频和字幕流，因此ffmpeg将尝试选择每种类型中的一种。<br>对于视频，它将从B.mp4中选择流 stream 0 ，其在所有输入视频流中具有最高分辨率。<br>对于音频，它将从B.mp4中选择流 stream 3 ，因为它具有最多的通道。<br>对于字幕，它将从B.mp4中选择流 stream 2 ，这是A.avi和B.mp4中的第一个字幕流。<br>out2.wav只接受音频流，因此只选择来自B.mp4的stream 3。<br>out3.mov，由于设置了<code>-map</code>选项，因此不会进行自动流选择。 <code>-map 1:a</code>选项将从第二个输入B.mp4中选择所有音频流。此输出文件中不包含其他流。<br>对于前两个输出，将对所有包含的流进行转码。选择的编码器将是每种输出格式注册的默认编码器，可能与所选输入流的编解码器不匹配。<br>对于第三个输出，<code>-c:a copy</code>意为使用指定音视频编码中的所有音频流编解码器，设置为<code>copy</code>，因此不会发生以及不可能发生解码 - 过滤 - 编码操作。所选流的数据包应从输入文件传送，并在输出文件中复用。</p>
+<h5 id="示例：自动字幕选择"><a href="#示例：自动字幕选择" class="headerlink" title="示例：自动字幕选择"></a>示例：自动字幕选择</h5><figure class="highlight cpp"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i C.mkv out1.mkv -c:s dvdsub -an out2.mkv</span><br></pre></td></tr></table></figure>
+<p>尽管out1.mkv是Matroska容器文件，它接受字幕流，但只能选择视频和音频流。 C.mkv的字幕流是基于图像的，并且Matroska复用器的默认字幕编码器是基于文本的，因此字幕的转码操作预计会失败，因此不选择该流。 然而，在out2.mkv中，在命令中<code>-c:s dvdsub</code>指定字幕编码器，因此，除了视频流之外，还选择字幕流。 <code>-an</code>的存在禁用out2.mkv的音频流选择。</p>
+<h3 id="选项"><a href="#选项" class="headerlink" title="选项"></a>选项</h3><p>所有的数值选项，如果没有特殊定义，则需要一个接受一个字符串代表一个数作为输入，这可能跟着一个单位量词首字母，例如<code>&quot;k&quot;</code>,<code>&quot;m&quot;</code>或<code>&quot;G&quot;</code></p>
+<p>如果<code>i</code>是附加到SI单位的首字母，完整的字母将被解释为一个2的幂数单位，这是基于1024而不是1000的，添加<code>B</code>的SI单位则是再将此值乘以8。例如<code>KB</code>，<code>MiB</code>，<code>G</code>和<code>B</code></p>
+<p>对于选项中不带参数的布尔选项，即把相应的值设置为<code>true</code>，它们可以添加<code>no</code>设置为false，例如<code>nofoo</code>就相当于<code>foo false</code> 。</p>
+<h4 id="流说明-限定-符"><a href="#流说明-限定-符" class="headerlink" title="流说明(限定)符"></a>流说明(限定)符</h4><ul>
+<li>很多选项是作用于单独的流的，例如码率(bitrate)或者编码(codec)，流说明符就是精确的为每个流指定相应的选项。</li>
+<li>一个流说明符是一个以冒号分隔的字符串，其中分隔出的部分是附加选项，例如<code>-codec:a:1 ac3</code>表示编码器是对第2音频流以ac3编码。</li>
+<li>一个流说明符可能匹配多个流，则该选项是所有匹配项的选项，例如<code>-b:a 128k</code>表示所有的音频流都是128k的码率。</li>
+<li>一个空的流说明符匹配所有的流，例如<code>-codec copy</code>或者<code>-codec: copy</code>表示所有的流都不进行再次编码(包括视频和音频)</li>
+</ul>
+<p>可能的流说明符有：</p>
 <ul>
-<li>在self-attention部分，QKV均与target相关，$Q,K=target+query$，$V=target$</li>
-<li>在cross-attention部分，Q由self-attention的输出结合位置编码query得到，K由encoder部分的输出结合位置编码P E得到，即$K=memory+PE$，V不使用位置编码，即$V=memory$</li>
+<li><strong><code>stream_index</code></strong>:匹配流的索引，例如<code>-threads:1 4</code>表示对2号流采用4个线程处理</li>
+<li><strong><code>stream_type[:stream_index]</code></strong>:<code>stream_type</code>有<code>v</code>表示视频，<code>a</code>表示音频，<code>s</code>表示字幕，<code>d</code>表示数据和<code>t</code>表示附加/附件等可能，如果<code>stream_index</code>同时被指定，则匹配该索引对于的该类型的流。例如<code>-codec:v:0 h264</code>表示第1视频流是h.264编码。</li>
+<li><strong><code>p:program_id[:stream_index]</code></strong>:如果<code>stream_index</code>被指定，则表示被<code>program_id</code>指定的程序仅作用于<code>stream_index</code>所指流，否则将作用于所有流。</li>
+<li><strong><code>#stream_id</code>或者<code>i:stream_id</code></strong>：匹配<code>stream_id</code>所指流(MPEG-TS中的PID)</li>
+<li><strong><code>m:key[:value]</code></strong>:匹配在元数据中以标签<code>key</code>=<code>value</code>值的流，如果<code>value</code>没有设置，则匹配所有。</li>
+<li><strong><code>u</code></strong>：匹配不能被配置的流，这时编码器必须被定义且有必要的视频维度或者音频采样率之类的信息。<strong>注意</strong>，<code>ffmpeg</code>匹配由元数据标识的状态仅对于输入文件有效。</li>
 </ul>
-<p>Decoder的输出尺度为$D*N$。</p>
-<h4 id="预测前馈网络-FFNs"><a href="#预测前馈网络-FFNs" class="headerlink" title="预测前馈网络(FFNs)"></a>预测前馈网络(FFNs)</h4><p>其本质上就是一个三层的前馈网络，用于进行类别的判断和bounding box的回归。</p>
+<h4 id="常规选项"><a href="#常规选项" class="headerlink" title="常规选项"></a>常规选项</h4><p>这些常规选项也可以用在<code>ffmpeg</code>项目中其他<code>ff*</code>工具，例如<code>ffplayer</code></p>
 <ul>
-<li>用于为目标分类的逻辑回归层(线性映射+softmax)，定义为class_head=nn.Linear(d,num_classes+1)，这个加的1指的是<code>no object</code></li>
-<li>用于检测框回归的MLP，定义为<code>box_head=MLP(input_dim=d, hidden_dim=d,output_dim=4, num_layers=3)</code></li>
+<li><p><code>-L</code>：显示授权协议</p>
+</li>
+<li><p><code>-h，-？，-help，--help[arg]</code>:显示帮助，一个附加选项可以指定帮助显示的模式，如果没有参数，则是基本选项(没有特别声明)说明被显示，下面是参数定义</p>
+<ul>
+<li><code>long</code>：在基本选项说明基础上增加高级选项说明</li>
+<li><code>full</code>：输出完整的选项列表，包括编(解)码器，分离器混合器以及滤镜等等的共享和私有选项</li>
+<li><code>decoder=decoder_name</code>：输出指定解码器名的详细信息。可以使用<code>-decoders</code>来获取当前支持的所有解码器名</li>
+<li><code>encoder=encoder_name</code>：输出指定编码器名的详细信息。可以使用<code>-encoders</code>来获取当前支持的所有编码器名</li>
+<li><code>demuxer=demuxer_name</code>：输出指定分离器名详细信息。可以使用<code>-formats</code>来获取当前支持的所有分离器和混合器</li>
+<li><code>muxer=muxer_name</code>：输出指定混合器名详细信息。可以使用<code>-formats</code>来获取当前支持的所有分离器和混合器</li>
+<li><code>filter=filter_name</code>：输出指定滤镜名的详细信息。可以使用<code>-filters</code>来获取当前支持的所有滤镜</li>
 </ul>
-<h4 id="辅助解码损失"><a href="#辅助解码损失" class="headerlink" title="辅助解码损失"></a>辅助解码损失</h4><p>在训练过程中，我们发现在解码器中使用辅助损耗[1]是很有帮助的，特别是有助于模型输出每个类的对象正确数量。每个解码器层的输出用共享层范数进行归一化，然后送到共享预测头(分类和盒预测)（The output of each decoder layer is normalized with a shared layer-norm then fed to the shared prediction heads (classification and box prediction).）。然后，我们像往常一样将匈牙利损失用于监督。</p>
-<h3 id="创新点"><a href="#创新点" class="headerlink" title="创新点"></a>创新点</h3><p>本文的创新点主要有如下亮点</p>
+</li>
+<li><p><code>-version</code>：显示版</p>
+</li>
+<li><p><code>-buildconf</code> : 显示构建选项</p>
+</li>
+<li><p><code>-formats</code>：显示所有有效的格式(包括设备)</p>
+</li>
+<li><p><code>-devices</code>：显示有效设备</p>
+</li>
+<li><p><code>-codecs</code>：显示所有已支持的编码(libavcodec中的)</p>
+</li>
+<li><p><code>-decoders</code>：显示所有有效解码器</p>
+</li>
+<li><p><code>-encoders</code>：显示所有有效的编码器</p>
+</li>
+<li><p><code>-bsfs</code>：显示有效的数据流(bitstream)滤镜</p>
+</li>
+<li><p><code>-protocols</code>：显示支持的协议</p>
+</li>
+<li><p><code>-filters</code>：显示libavfilter中的滤镜</p>
+</li>
+<li><p><code>-pix_fmts</code>：显示有效的像素(pixel)格式</p>
+</li>
+<li><p><code>-sample_fmts</code>：显示有效的实例格式</p>
+</li>
+<li><p><code>-layouts</code>：显示信道名字和信道布局</p>
+</li>
+<li><p><code>-colors</code>：显示注册的颜色名</p>
+</li>
+<li><p><code>-sources device[,opt1=val1[,opt2=val]...]</code>：显示自动识别的输入设备源。一些设备可能需要提供一些系统指派的源名字而不能自动识别。返回的列表不能认为一定是完整的(即有可能还有设备没有列出来)</p>
+<p><code>ffmpeg -sources pulse,server=192.168.0.4</code></p>
+</li>
+<li><p><code>-sinks device[,opt1=val1[,opt2=val]...]</code>:显示自动识别的输出设备。一些设备可能需要提供一些系统指派的源名字而不能自动识别。返回的列表不能认为一定是完整的(即有可能还有设备没有列出来)</p>
+<p><code>ffmpeg -sinks pulse,server=192.168.0.4</code></p>
+</li>
+<li><p><code>-loglevel [repeat+]loglevel 或者 -v [repeat+]loglevel</code>：设置日志层次。如果附加有<code>repeat+</code>则表示从第一条非压缩行到达到最后消息n次之间的行将被忽略。<code>&quot;repeat&quot;</code>也可以一直使用，如果没有现有日志层级设置，则采用默认日志层级。如果有多个日志层级参数被获取，使用<code>&quot;repeat&quot;</code>不改变当前日志层级。日志层级是一个字符串或数值，有以下可能值：</p>
 <ul>
-<li>DETR将目标检测问题视为集合预测的问题，是NMS-free的，并完成了one-to-one label assignment</li>
-<li>DETR利用transformer将图像表示为固定大小的预测集合</li>
-<li>DETR使用基于集合的全局损失来强制进行独一无二的预测</li>
+<li><p><code>quiet,-8</code>，什么都不输出，是无声的</p>
+</li>
+<li><p><code>panic,0</code>，仅显示造成进程失败的致命错误，它当前不能使用</p>
+</li>
+<li><p><code>fatal,8</code>仅仅显示致命错误，这些错误使得处理不能继续</p>
+</li>
+<li><p><code>error,16</code>显示所有的错误，包括可以回收的错误(进程还可以继续的)</p>
+</li>
+<li><p><code>warning,24</code>显示所有警告和错误，任何错误或者意外事件相关信息均被显示</p>
+</li>
+<li><p><code>info,32</code>显示过程中的信息，还包括警告和错误，则是默认值</p>
+</li>
+<li><p><code>verbose,40</code>类似<code>info</code>，但更冗长</p>
+</li>
+<li><p><code>debug,48</code>显示所有，包括调试信息</p>
+</li>
+<li><p><code>trace,56</code></p>
+<p>默认的日志输出是stderr设备，如果在控制台支持颜色，则错误和警告标记的颜色将被显示处理，默认日志的颜色设置可以由环境变量的<code>AV_LOG_FORCE_NOCOLOR</code>或者<code>NO_COLOR</code>或者环境变量<code>AV_LOG_RORCE_COLOR</code>覆盖。环境变量<code>NO_COLOR</code>不推荐使用，因为其已经不被新版本支持。</p>
+</li>
 </ul>
-<h3 id="损失计算"><a href="#损失计算" class="headerlink" title="损失计算"></a>损失计算</h3><p>在一次计算的过程中，DETR解码器会生成一个固定大小为N的预测集合（原文中设置N=100），N被设置为明确大于图像中物体数量的数值。</p>
+</li>
+<li><p><code>-report</code>：复制所有命令行和控制台输出到当前目录下名为<code>program-YYYMMDD-HHMMSS.log</code>文件中。这常用于报告bug，所以一般会同时设置<code>-loglevel verbose</code></p>
+<p>设置环境变量<code>FFREPORT</code>可以起到相同的效果。如果值是一个以<code>：</code>分隔的关键值对，则将影响到报告效果。值中的特殊符号或者分隔符<code>：</code>必须被转义(参考ffmepg-utils手册中”引用逃逸”(“Quoting and escaping”)章节)。以下是选项值范围：</p>
 <ul>
-<li>我们假设$y$表示真实目标的集合，用$\hat{y}=\{\hat{y}\}^{N}_{i=1}$表示N个预测集合的结果。</li>
-<li>对真实目标的标签集合进行padding，加入no object，使得预测集合的数量和真实目标经过padding后的数量一致，为N。</li>
-<li><p>为了在两个集合之间找到一个二部图匹配，我们寻找一个使得N个元素的开销$σ̂ $最小的排列。</p>
+<li><p>file：设置报告文件名字，<code>%p</code>被扩展为程序名字，<code>%t</code>是时间码，<code>%%</code>表示一个字符<code>%</code></p>
+</li>
+<li><p>level：用数字设定日志信息详略程度(参考<code>-longlevel</code>)</p>
+<p>例如：</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">`FFREPORT=file=ffreport.log:level=32 ffmpeg -i input output`</span><br></pre></td></tr></table></figure>
+<p>会把日志信息输出到环境变量定义的文件中， 内容包括简要过程信息，警告和错误。</p>
+</li>
+</ul>
+</li>
+<li><p><code>-hide_banner</code>：禁止打印输出banner。所有FFmpeg工具使用中常规都会在前面显示一些版权通知、编译选项和库版本等，这个选项可以禁止这部分的显示。</p>
+</li>
+<li><p><code>cpuflags flags(global)</code>：允许设置或者清除cpu标志性和。当前这个选项主要还是测试特性，不要使用，除非你明确需要：</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -cpuflags -sse+mmx ... </span><br><span class="line">ffmpeg -cpuflags mmx ... </span><br><span class="line">ffmpeg -cpuflags 0 ...</span><br></pre></td></tr></table></figure>
+<p>可能的选项参数有：</p>
 <ul>
-<li>$σ̂ = arg min_{σ∈S_N}\sum^N_i L_{match} (y_i , ŷ_{σ(i)} )$</li>
-<li>其中 $L_{match} (y_i , ŷ_{σ(i)} )$是在真实目标集合和预测集合在索引为$σ(i)$的情况下的成对匹配成本，前人的工作证明匈牙利算法对这个问题能有效计算</li>
-<li>匹配的损失同时考虑了类别以及预测框和真实框的相似程度，每个真实目标元素$i$可以被看作为$y_i=(c_i,b_i)$，其中$c_i$是目标的类别标签（可能为$no\ object$），$b_i∈ [0, 1]^4$是一个定义了真实边框中心点的坐标和其到边缘框的宽和高的图像尺寸的参数。我们定义预测集合的编号为$σ(i)$的样本的类别$c_i$的可能性为$p̂ _{σ(i)} (c_i )$，定义预测框为$b̂ _{σ(i)}$。并由此我们定义$L_{match} (y_i , ŷ_{σ(i)} )$为:</li>
-<li><script type="math/tex; mode=display">
-L_{match} (y_i , ŷ_{σ(i)} )=−1_{c_i \neq ∅} p̂ _{σ(i)} (c_i ) + 1_{c_i  \neq ∅} L_{box}(b_i , b̂ _{σ(i)} )</script></li>
-<li>这种匹配方式与基于anchor和基于region proposal的作用相同，主要区别在于本文的方式需要找到一对一的匹配来直接进行集合预测而没有重复</li>
+<li><p>x86</p>
+<ul>
+<li>mmx</li>
+<li>mmxext</li>
+<li>sse</li>
+<li>sse2</li>
+<li>sse2slow</li>
+<li>sse3</li>
+<li>atom</li>
+<li>sse4.1</li>
+<li>sse4.2</li>
+<li>avx</li>
+<li>avx2</li>
+<li>xop</li>
+<li>fma3</li>
+<li>fma4</li>
+<li>3dnow</li>
+<li>3dnowext</li>
+<li>bmi1</li>
+<li>bmi2</li>
+<li>cmov</li>
+</ul>
+</li>
+<li><p>ARM</p>
+<ul>
+<li>armv5te</li>
+<li>armv6</li>
+<li>armv6t2</li>
+<li>vfp</li>
+<li>vfpv3</li>
+<li>neon</li>
+<li>setend</li>
+</ul>
+</li>
+<li><p>AArch64</p>
+<ul>
+<li>armv8</li>
+<li>vfp</li>
+<li>neon</li>
+</ul>
+</li>
+<li><p>PowerPC</p>
+<ul>
+<li>altivec</li>
+</ul>
+</li>
+<li><p>Specific Processors</p>
+<ul>
+<li>pentium2</li>
+<li>pentium3</li>
+<li>pentium4</li>
+<li>k6</li>
+<li>athlon</li>
+<li>athlonxp</li>
+<li>k8</li>
+</ul>
+</li>
+</ul>
+</li>
+<li><p><code>-opencl_bench</code>：输出所有效OpenCL设备的基准测试情况。当前选项仅在编译FFmepg中打开了<code>--enable-opencl</code>才有效。</p>
+<p>当FFmpeg指定了<code>--enable-opencl</code>编译后，这个选项还可以通过全局参数<code>-opencl_options</code>进行设定，参考OpenCL选项，在ffmpeg-utils手册中对于选项的支持情况，这包括在特定的平台设备上支持OpenCL的能力。默认，FFmpeg会运行在首选平台的首选设备上，通过设置全局的OpenCL则可以实现在选定的OpenCL设备上运行，这样就可以在更快的OpenCL设备上运行(平时节点，需要时才选用性能高但耗电的设备)</p>
+<p>这个选项有助于帮助用户了解信息以进行有效配置。它将在每个设备上运行基准测试，并以性能排序所有设备，用户可以在随后调用<code>ffmpeg</code>时使用<code>-opencl_options</code>配置合适的OpenCL加速特性。</p>
+<p>一般以下面的步骤使用这个参数：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -opencl_bench        </span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><strong>注意</strong>输出中第一行的平台ID(<em>pidx</em>)和设备ID(<em>didx</em>)，然后在选择平台和设备用于命令行：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -opencl_options platform_idx=pidx:device_idx=didx ...</span><br></pre></td></tr></table></figure>
+</blockquote>
+</li>
+<li><p><code>opencl_options options(global)</code>:设置OpenCL环境选项，这个选项仅仅在FFmpeg编译选项中打开了<code>--enable-opencl</code>才有效。</p>
+<p><em>options</em>必须是一个由<code>:</code>分隔的<code>key=value</code>键值对列表。参考OpenCL选项，在ffmpeg-utils手册中对于选项的支持情况</p>
+</li>
+</ul>
+<h4 id="AV选项"><a href="#AV选项" class="headerlink" title="AV选项"></a>AV选项</h4><p>这些选项由特定的库提供(如libavformat，libavdevice以及libavcodec)。为了更多的了解AV选项，使用<code>-help</code>进行进一步了解。它们可以指定下面2个分类：</p>
+<ul>
+<li>generic(常规)：这类选项可以用于设置容器、设备、编码器、解码器等。通用选项对列在<code>AVFormatContext</code>中的容器/设备以及<code>AVCodecContext</code>中的编码有效。</li>
+<li>private(私有)：这类仅对特定的容器、设备或者编码有效。私有选项由相应的 容器/设备/编码 指定(确定)。</li>
+</ul>
+<p>例如要在一个默认为ID3v2.4为头的MP3文件中写入ID3v2.3头，需要使用id3v2_version 私有选项来对MP3混流：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i input.flac -id3v2_version 3 out.mp3</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p>所有编码AV选项是针对单独流的，所以必须详细指定。</p>
+<p><strong>注意</strong></p>
+<ol>
+<li><code>-nooption</code>语法不能被用于AV选项中的布尔值项目，而必须使用<code>-option 0/-option 1</code></li>
+<li>以往使用<code>v/a/s</code>命名指定每个流的AV选项语法已经不建议使用，它们很快就会失效移除。</li>
+</ol>
+<h4 id="主要选项"><a href="#主要选项" class="headerlink" title="主要选项"></a>主要选项</h4><ul>
+<li><p><code>-f fmt (input/output)</code> :指定输入或者输出文件格式。常规可省略而使用依据扩展名的自动指定，但一些选项需要强制明确设定。</p>
+</li>
+<li><p><code>-i filename (input)</code>：指定输入文件</p>
+</li>
+<li><p><code>-y (global)</code>：默认自动覆盖输出文件，而不再询问确认。</p>
+</li>
+<li><p><code>-n (global)</code>:不覆盖输出文件，如果输出文件已经存在则立即退出</p>
+</li>
+<li><p>-<code>c[:stream_specifier] codec (input/output,per-stream)</code></p>
+</li>
+<li><p><code>-codec[:stream_specifier] codec (input/output,per-stream)</code> 为特定的文件选择编/解码模式，对于输出文件就是编码器，对于输入或者某个流就是解码器。选项参数中<code>codec</code>是编解码器的名字，或者是<code>copy</code>(仅对输出文件)则意味着流数据直接复制而不再编码。例如： </p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i INPUT -map 0 -c:v libx264 -c:a copy OUTPUT</span><br></pre></td></tr></table></figure>
+<p>是使用libx264编码所有的视频流，然后复制所有的音频流。</p>
+<p>再如除了特殊设置外所有的流都由<code>c</code>匹配指定： </p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i INPUT -map 0 -c copy -c:v:1 libx264 -c:a:137 libvorbis OUTPUT</span><br></pre></td></tr></table></figure>
+<p>这将在输出文件中第2视频流按libx264编码，第138音频流按libvorbis编码，其余都直接复制输出。</p>
+</li>
+<li><p><code>-t duration (input/output)</code>:限制输入/输出的时间。如果是在<code>-i</code>前面，就是限定从输入中读取多少时间的数据；如果是用于限定输出文件，则表示写入多少时间数据后就停止。<code>duration</code>可以是以秒为单位的数值或者 <code>hh:mm:ss[.xxx]</code>格式的时间值。 <strong>注意</strong><code>-to</code>和<code>-t</code>是互斥的，<code>-t</code>有更高优先级。</p>
+</li>
+<li><p><code>-to position (output)</code>:只写入<code>position</code>时间后就停止，<code>position</code>可以是以秒为单位的数值或者 <code>hh:mm:ss[.xxx]</code>格式的时间值。 <strong>注意</strong><code>-to</code>和<code>-t</code>是互斥的，<code>-t</code>有更高优先级。</p>
+</li>
+<li><p><code>-fs limit_size (output)</code>:设置输出文件大小限制，单位是字节(bytes)。</p>
+</li>
+<li><p><code>-ss position (input/output)</code>:</p>
+<ul>
+<li>当在<code>-i</code>前，表示定位输入文件到<code>position</code>指定的位置。<strong>注意</strong>可能一些格式是不支持精确定位的，所以<code>ffmpeg</code>可能是定位到最接近<code>position</code>(在之前)的可定位点。当有转码发生且<code>-accurate_seek</code>被设置为启用(默认)，则实际定位点到<code>position</code>间的数据被解码出来但丢弃掉。如果是复制模式或者<code>-noaccurate_seek</code>被使用，则这之间的数据会被保留。</li>
+<li>当用于输出文件时，会解码丢弃<code>position</code>对应时间码前的输入文件数据。</li>
+<li><code>position</code>可以是以秒为单位的数值或者 <code>hh:mm:ss[.xxx]</code>格式的时间值</li>
+</ul>
+</li>
+<li><p><code>-itsoffset offset (input)</code>:设置输入文件的时间偏移。<code>offset</code>必须采用时间持续的方式指定，即可以有<code>-</code>号的时间值(以秒为单位的数值或者 <code>hh:mm:ss[.xxx]</code>格式的时间值)。偏移会附加到输入文件的时间码上，意味着所指定的流会以时间码+偏移量作为最终输出时间码。</p>
+</li>
+<li><p><code>-timestamp date (output)</code>:设置在容器中记录时间戳。</p>
+<p>date 必须是一个时间持续描述格式，即</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">[(YYYY-MM-DD|YYYYMMDD)[T|t| ]]((HH:MM:SS[.m...]]])|(HHMMSS[.m...]]]))[Z]</span><br><span class="line">或者为</span><br><span class="line">now</span><br></pre></td></tr></table></figure>
+</li>
+<li><p><code>-metadata[:metadata_specifier] key=value (output,per-metadata)</code>：指定元数据中的键值对。</p>
+<p>流或者章的<code>metadata_specifier</code>可能值是可以参考文档中<code>-map_metadata</code>部分了解。</p>
+<p>简单的覆盖<code>-map_metadata</code>可以通过一个为空的选项实现，例如：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i in.avi -metadata title=&quot;my title&quot; out.flv</span><br></pre></td></tr></table></figure>
+<p>设置第1声道语言:</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i INPUT -metadata:s:a:0 language=eng OUTPUT</span><br></pre></td></tr></table></figure>
+</blockquote>
+</li>
+<li><p><code>-taget type (output)</code>：指定目标文件类型(vcd,svcd,dvd,dv,dv50)，类型还可以前缀一个<code>pal-</code>,<code>ntsc-</code>或者<code>film-</code>来设定更具体的标准。所有的格式选项(码率、编码、缓冲尺寸)都会自动设置，而你仅仅只需要设置目标类型：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i myfile.avi -taget vcd /tmp/vcd.mpg</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p>当然，你也可以指定一些额外的选项，只要你知道这些不会与标准冲突，如：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i myfile.avi -target vcd -bf 2 /tmp/vcd.mpg</span><br></pre></td></tr></table></figure>
+</blockquote>
+</li>
+<li><p><code>-dframes number (output)</code>:设定指定<code>number</code>数据帧到输出文件，这是<code>-frames:d</code>的别名。</p>
+</li>
+<li><p><code>frames[:stream_specifier] framecount (output,per-stream)</code>:在指定计数帧后停止写入数据。</p>
+</li>
+<li><p><code>-q[:stream_specifier] q (output,per-stream)</code></p>
+</li>
+<li><p><code>-qscale[:stream_specifier] q (output,per-stream)</code></p>
+<p>使用固定的质量品质(VBR)。用于指定<code>q|qscale</code>编码依赖。如果<code>qscale</code>没有跟<code>stream_specifier</code>则只适用于视频。其中值<code>q</code>取值在0.01-255,越小质量越好。</p>
+</li>
+<li><p><code>-filter[:stream_specifier] filtergraph (output,per-stream)</code>:创建一个由<code>filtergraph</code>指定的滤镜，并应用于指定流。</p>
+<p><code>filtergraph</code>是应用于流的滤镜链图，它必须有一个输入和输出，而且流的类型需要相同。在滤镜链图中，从<code>in</code>标签指定出输入，从<code>out</code>标签出输出。要了解更多语法，请参考<code>ffmpeg－filters</code>手册。</p>
+<p>参考<code>－filter_complex</code>选项以了解如何建立多个输入／输出的滤镜链图。</p>
+</li>
+<li><p><code>－filter_script［：stream_specifier］ filename (output，per－stream)</code>：这个选项类似于<code>－filter</code>，只是这里的参数是一个文件名，它的内容将被读取用于构建滤镜链图。</p>
+</li>
+<li><p><code>－pre［：stream_specifier］ preset_name (output，per－stream)</code>：指定预设名字的流(单个或者多个)。</p>
+</li>
+<li><p><code>－stats (global)</code>：输出编码过程／统计，这是系统默认值，如果你想禁止，则需要采用<code>－nostats</code>。</p>
+</li>
+<li><p><code>－progress url (global)</code>：发送友好的处理过程信息到<code>url</code>。处理过程信息是一种键值对(key=value)序列信息，它每秒都输出，或者在一次编码结束时输出。信息中最后的一个键值对表明了当前处理进度。</p>
+</li>
+<li><p><code>-stdin</code>:允许标准输入作为交互。在默认情况下除非标准输入作为真正的输入。要禁用标准输入交互，则你需要显式的使用<code>-nostdin</code>进行设置。禁用标准输入作为交互作用是有用的，例如FFmpeg是后台进程组，它需要一些相同的从shell开始的调用(<code>ffmpeg ... &lt;/dev/null</code>)。</p>
+</li>
+<li><p><code>-debug_ts (global)</code>：打印时间码信息，默认是禁止的。这个选项对于测试或者调试是非常有用的特性，或者用于从一种格式切换到另外的格式(包括特性)的时间成本分析，所以不用于脚本处理中。还可以参考<code>-fdebug ts</code>选项。</p>
+</li>
+<li><p><code>-attach filename (output)</code>：把一个文件附加到输出文件中。这里只有很少文件类型能被支持，例如使用Matroska技术为了渲染字幕的字体文件。附件作为一种特殊的流类型，所以这个选项会添加一个流到文件中，然后你就可以像操作其他流一样使用每种流选项。在应用本选项时，附件流须作为最后一个流(例如根据<code>-map</code>映射流或者自动映射时需要注意)。<strong>注意</strong>对于<code>Matroska</code>你也可以在元数据标签中进行类型设定： &gt; ffmpeg -i INPUT -attach DejaVuSans.ttf -metadata:s:2 mimetype=application/x-truetype-font out.mkv</p>
+</li>
+</ul>
+<p>(这时要访问到附件流，则就是访问输出文件中的第3个流)</p>
+<ul>
+<li><p><code>-dump_attachment[:stream_specifier] filename (input,per-stream)</code>：从输入文件中解出指定的附件流到文件filename： &gt; ffmpeg -dump_attachment:t:0 out.ttf -i INPUT</p>
+<p>如果想一次性把所有附件都解出来，则 &gt; ffmpeg -dump_attachment:t “” -i INPUT</p>
+<p>技术说明：附件流是作为编码扩展数据来工作的，所以其他流数据也能展开，而不仅仅是这个附件属性。</p>
+</li>
+<li><p><code>-noautorotate</code>：禁止自动依据文件元数据旋转视频。</p>
+</li>
+</ul>
+<h4 id="视频-video-选项"><a href="#视频-video-选项" class="headerlink" title="视频(video)选项"></a>视频(video)选项</h4><ul>
+<li><p><code>-vframes number (output)</code>：设置输出文件的帧数，是<code>-frames:v</code>的别名。</p>
+</li>
+<li><p><code>-r[:stream_specifier] fps (input/output,per-stream)</code>：设置帧率(一种Hz值，缩写或者分数值)。</p>
+<p>在作为输入选项时，会忽略文件中存储的时间戳和时间戳而产生的假设恒定帧率<code>fps</code>，即强制按设定帧率处理视频产生(快进/减缓效果)。这不像<code>-framerate</code>选项是用来让一些输入文件格式如image2或者v412(兼容旧版本的FFmpeg)等，要注意这一点区别，而不要造成混淆。</p>
+<p>作为输出选项时，会复制或者丢弃输入中个别的帧以满足设定达到<code>fps</code>要求的帧率。</p>
+</li>
+<li><p><code>-s[:stream_specifier] size (input/output,per-stream)</code>：设置帧的尺寸。</p>
+<p>当作为输入选项时，是私有选项<code>video_size</code>的缩写，一些文件没有把帧尺寸进行存储，或者设备对帧尺寸是可以设置的，例如一些采集卡或者raw视频数据。</p>
+<p>当作为输出选项是，则相当于<code>scale</code>滤镜作用在滤镜链图的最后。请使用<code>scale</code>滤镜插入到开始或者其他地方。</p>
+<p>数据的格式是<code>wxh</code>，即<code>宽度值X高度值</code>，例如<code>320x240</code>，(默认同源尺寸)</p>
+</li>
+<li><p><code>aspect[:stream_specifier] aspect (output,per-stream)</code>：指定视频的纵横比(长宽显示比例)。<code>aspect</code>是一个浮点数字符串或者<code>num:den</code>格式字符串(其值就是num/den)，例如”4:3”,”16:9”,”1.3333”以及”1.7777”都是常用参数值。</p>
+<p>如果还同时使用了<code>-vcodec copy</code>选项，它将只影响容器级的长宽比，而不是存储在编码中的帧纵横比。</p>
+</li>
+<li><p><code>-vn (output)</code>：禁止输出视频</p>
+</li>
+<li><p><code>-vcodec codec (output)</code>：设置视频编码器，这是<code>-codec:v</code>的一个别名。</p>
+</li>
+<li><p><code>-pass[:stream_specifier] n (output,per-stream)</code>:选择当前编码数(1或者2)，它通常用于2次视频编码的场景。第一次编码通常把分析统计数据记录到1个日志文件中(参考<code>-passlogfile</code>选项)，然后在第二次编码时读取分析以精确要求码率。在第一次编码时通常可以禁止音频，并且把输出文件设置为<code>null</code>，在windows和类unix分别是:</p>
+<blockquote>
+<p>ffmpeg -i foo.mov -c:v libxvid -pass 1 -an -f rawvideo -y NUL ffmpeg -i foo.mov -c:v libxvid -pass 1 -an -f rawvideo -y /dev/null</p>
+</blockquote>
+</li>
+<li><p><code>-passlogfile[:stream_specifier] prefix (output,per-stream)</code>：设置2次编码模式下日志文件存储文件前导，默认是”ffmepg2pass”，则完整的文件名就是”PREFIX-N.log”，其中的N是指定的输出流序号(对多流输出情况)</p>
+</li>
+<li><p><code>-vf filtergraph (output)</code>：创建一个<code>filtergraph</code>的滤镜链并作用在流上。它实为<code>-filter:v</code>的别名，详细参考<code>-filter</code>选项。</p>
+</li>
+</ul>
+<h4 id="高级视频选项"><a href="#高级视频选项" class="headerlink" title="高级视频选项"></a>高级视频选项</h4><ul>
+<li><p><code>-pix_fmt[:stream_specifier] format (input/output,per-stream)</code>：设置像素格式。使用<code>-pix_fmts</code>可以显示所有支持的像素格式。如果设置的像素格式不能被选中(启用)，则ffmpeg会输出一个警告和并选择这个编码最好(兼容)的像素格式。如果<code>pix_fmt</code>前面前导了一个<code>+</code>字符，ffmepg会在要求的像素格式不被支持时退出，这也意味着滤镜中的自动转换也会被禁止。如果<code>pix_fmt</code>是单独的<code>+</code>，则ffmpeg选择和输入(或者滤镜通道)一样的像素格式作为输出，这时自动转换也会被禁止。</p>
+</li>
+<li><p><code>-sws_flags flags (input/output)</code>:选择<code>SwScaler</code>放缩标志量。</p>
+</li>
+<li><p><code>-vdt n</code>：丢弃的门限设置。</p>
+</li>
+<li><p><code>-rc_override[:stream_specifier] override (output,per-stream)</code>:在特定时间范围内的间隔覆盖率，<code>override</code>的格式是”int\int\int”。其中前两个数字是开始帧和结束帧，最后一个数字如果为正则是量化模式，如果为负则是品质因素。</p>
+</li>
+<li><p><code>-ilme</code>：支持交错编码(仅MPEG-2和MPEG-4)。如果你的输入是交错的，而且你想保持交错格式，又想减少质量损失，则选此项。另一种方法是采用<code>-deinterlace</code>对输入流进行分离，但会引入更多的质量损失。</p>
+</li>
+<li><p><code>-psnr</code>：计算压缩帧的<code>PSNR</code></p>
+</li>
+<li><p><code>-vstats</code>：复制视频编码统计分析到日志文件<code>vstats_HHMMSS.log</code></p>
+</li>
+<li><p><code>-vstats_file file</code>:复制视频编码统计分析到<code>file</code>所指的日志文件中。</p>
+</li>
+<li><p><code>-top[:stream_specifier] n (output,per-stream)</code>: 指明视频帧数据描述的起点。<code>顶部=1/底部=0/自动=-1</code>(以往CRT电视扫描线模式)</p>
+</li>
+<li><p><code>-dc precision</code>：Intra_dc_precision值。</p>
+</li>
+<li><p><code>-vtag fourcc/tag (output)</code>:是<code>-tag:v</code>的别名，强制指定视频标签/fourCC (FourCC全称Four-Character Codes，代表四字符代码 (four character code), 它是一个32位的标示符，其实就是typedef unsigned int FOURCC;是一种独立标示视频数据流格式的四字符代码。)</p>
+</li>
+<li><p><code>-qphist (global)</code>：显示<code>QP</code>直方图。</p>
+</li>
+<li><p><code>-vbsf bitstream_filter</code>：参考<code>-bsf</code>以进一步了解。</p>
+</li>
+<li><p><code>-force_key_frames[:stream_specifier] time[,time...] (output,per-stream)</code> ：(见下)</p>
+</li>
+<li><p><code>-force_key_frames[:stream_specifier] expr:expr (output,per-stream)</code>：强制时间戳位置帧为关键帧，更确切说是从第一帧起每设置时间都是关键帧(即强制关键帧率)。</p>
+<p>如果参数值是以<code>expr:</code>前导的，则字符串<code>expr</code>为一个表达式用于计算关键帧间隔数。关键帧间隔值必须是一个非零数值。</p>
+<p>如果一个时间值是”<code>chapters</code> [delta]”则表示文件中从<code>delta</code>章开始的所有章节点计算以秒为单位的时间，并把该时间所指帧强制为关键帧。这个选项常用于确保输出文件中所有章标记点或者其他点所指帧都是关键帧(这样可以方便定位)。例如下面的选项代码就可以使“第5分钟以及章节chapters-0.1开始的所有标记点都成为关键帧”：</p>
+<blockquote>
+<p>-force_key_frames 0:05:00,chapters-0.1</p>
+</blockquote>
+<p>其中表达式<code>expr</code>接受如下的内容：</p>
+<ul>
+<li><p><code>n</code>：当前帧序数，从0开始计数</p>
+</li>
+<li><p><code>n_forced</code>：强制关键帧数</p>
+</li>
+<li><p><code>prev_forced_n</code>：之前强制关键帧数，如果之前还没有强制关键帧，则其值为<code>NAN</code></p>
+</li>
+<li><p><code>prev_forced_t</code>：之前强制关键帧时间，如果之前还没有强制关键帧则为<code>NAN</code></p>
+</li>
+<li><p><code>t</code>：当前处理到的帧对应时间。</p>
+<p>例如要强制每5秒一个关键帧：</p>
+<blockquote>
+<p>-force_key_frames expr:gte(t,n_forced*5)</p>
+</blockquote>
+<p>从13秒后每5秒一个关键帧：</p>
+<blockquote>
+<p>-force_key_frames expr:if(isnan(prev_forced_t),gte(t,13),gte(t,prev_forced_t+5))</p>
+</blockquote>
+<p><strong>注意</strong>设置太多强制关键帧会损害编码器前瞻算法效率，采用固定<code>GOP</code>选项或采用一些近似设置可能更高效。</p>
+</li>
+</ul>
+</li>
+<li><p><code>-copyinkf[:stream_specifier] (output,per-stream)</code>:流复制时同时复制非关键帧。</p>
+</li>
+<li><p><code>-hwaccel[:stream_specifier] hwaccel (input,per-stream)</code>：使用硬件加速解码匹配的流。允许的<code>hwaccel</code>值为：</p>
+<ul>
+<li><p><code>none</code>：没有硬件加速(默认值)</p>
+</li>
+<li><p><code>auto</code>：自动选择硬件加速</p>
+</li>
+<li><p><code>vda</code>：使用Apple的VDA硬件加速</p>
+</li>
+<li><p><code>vdpau</code>：使用VDPAU(Video Decode and Presentation API for Unix，类unix下的技术标准)硬件加速</p>
+</li>
+<li><p><code>dxva2</code>：使用DXVA2 (DirectX Video Acceleration，windows下的技术标准) 硬件加速。</p>
+<p>这个选项可能并不能起效果(它依赖于硬件设备支持和选择的解码器支持)</p>
+<p><strong>注意</strong>：很多加速方法(设备)现在并不比现代CPU快了，而且额外的<code>ffmpeg</code>需要拷贝解码的帧(从GPU内存到系统内存)完成后续处理(例如写入文件)，从而造成进一步的性能损失。所以当前这个选项更多的用于测试。</p>
+</li>
+</ul>
+</li>
+<li><p><code>-hwaccel_device:[:stream_specifier] hwaccel_device (input,per-stream)</code>：选择一个设备用于硬件解码加速。这个选项必须同时指定了<code>-hwaccel</code>才可能生效。它也依赖于指定的设备对于特定编码的解码加速支持性能。</p>
+<ul>
+<li><code>vdpau</code>：对应于<code>VDPAU</code>，在<code>X11</code>(类Unix)显示/屏幕 上的，如果这个选项值没有选中，则必须在<code>DISPLAY</code>环境变量中有设置。</li>
+<li><code>dxva2</code>：对应于<code>DXVA2</code>，这个是显示硬件(卡)的设备号，如果没有指明，则采用默认设备(对于多个卡时)。</li>
+</ul>
+</li>
+</ul>
+<h4 id="音频选项"><a href="#音频选项" class="headerlink" title="音频选项"></a>音频选项</h4><ul>
+<li><code>-aframes number (output)</code>：设置<code>number</code>音频帧输出，是<code>-frames:a</code>的别名</li>
+<li><code>-ar[:stream_specifier] freq (input/output,per-stream)</code>:设置音频采样率。默认是输出同于输入。对于输入进行设置，仅仅通道是真实的设备或者raw数据分离出并映射的通道才有效。对于输出则可以强制设置音频量化的采用率。</li>
+<li><code>-aq q (output)</code>：设置音频品质(编码指定为VBR)，它是<code>-q:a</code>的别名。</li>
+<li><code>-ac[:stream_specifier] channels (input/output,per-stream)</code>：设置音频通道数。默认输出会有输入相同的音频通道。对于输入进行设置，仅仅通道是真实的设备或者raw数据分离出并映射的通道才有效。</li>
+<li><code>-an (output)</code>：禁止输出音频</li>
+<li><code>-acode codec (input/output)</code>：设置音频解码/编码的编/解码器，是<code>-codec:a</code>的别名</li>
+<li><code>-sample_fmt[:stream_specifier] sample_fmt (output,per-stream)</code>:设置音频样例格式。使用<code>-sample_fmts</code>可以获取所有支持的样例格式。</li>
+<li><code>-af filtergraph (output)</code>：对音频使用<code>filtergraph</code>滤镜效果，其是<code>-filter:a</code>的别名，参考<code>-filter</code>选项。</li>
+</ul>
+<h4 id="高级音频选项"><a href="#高级音频选项" class="headerlink" title="高级音频选项"></a>高级音频选项</h4><ul>
+<li><code>-atag fourcc/tag (output)</code>：强制音频标签/fourcc。这个是<code>-tag:a</code>的别名。</li>
+<li><code>-absf bitstream_filter</code>：要深入了解参考<code>-bsf</code></li>
+<li><code>-guess_layout_max channels (input,per-stream)</code>:如果音频输入通道的布局不确定，则尝试猜测选择一个能包括所有指定通道的布局。例如：通道数是2，则<code>ffmpeg</code>可以认为是2个单声道，或者1个立体声声道而不会认为是6通道或者5.1通道模式。默认值是总是试图猜测一个包含所有通道的布局，用0来禁用。</li>
+</ul>
+<h4 id="字幕选项"><a href="#字幕选项" class="headerlink" title="字幕选项"></a>字幕选项</h4><ul>
+<li><code>-scodec codec (input/output)</code>：设置字幕解码器，是<code>-codec:s</code>的别名。</li>
+<li><code>-sn (output)</code>：禁止输出字幕</li>
+<li><code>-sbsf bitstream_filter</code>：深入了解请参考<code>-bsf</code></li>
+</ul>
+<h4 id="高级字幕选项"><a href="#高级字幕选项" class="headerlink" title="高级字幕选项"></a>高级字幕选项</h4><ul>
+<li><p><code>-fix_sub_duration</code>：修正字幕持续时间。对每个字幕根据接下来的数据包调整字幕流的时间常数以防止相互覆盖(第一个没有完下一个就出来了)。这对很多字幕解码来说是必须的，特别是DVB字幕，因为它在原始数据包中只记录了一个粗略的估计值，最后还以一个空的字幕帧结束。</p>
+<p>这个选项可能失败，或者出现夸张的持续时间或者合成失败，这是因为数据中有非单调递增的时间戳。</p>
+<p><strong>注意</strong>此选项将导致所有数据延迟输出到字幕解码器，它会增加内存消耗，并引起大量延迟。</p>
+</li>
+<li><p><code>-canvas_size size</code>：设置字幕渲染区域的尺寸(位置)</p>
+</li>
+</ul>
+<h4 id="高级选项"><a href="#高级选项" class="headerlink" title="高级选项"></a>高级选项</h4><ul>
+<li><p><code>-map [-]input_file_id[:stream_specifier][,sync_file_id[:stream_specifier]] | [linklabel] (output)</code>：设定一个或者多个输入流作为输出流的源。每个输入流是以<code>input_file_id</code>序数标记的输入文件和<code>input_stream_id</code>标记的流序号共同作用指明，它们都以0起始计数。如果设置了<code>sync_file_id:stream_specifier</code>，则把这个输入流作为同步信号参考。</p>
+<p>命令行中的第一个<code>-map</code>选项指定了输出文件中第一个流的映射规则(编号为0的流，0号流)，第二个则指定1号流的，以此类推。</p>
+<p>如果在流限定符前面有一个<code>-</code>标记则表明创建一个“负”映射，这意味着禁止该流输出，及排除该流。</p>
+<p>一种替代的形式是在复合滤镜中利用<code>[linklabel]</code>来进行映射(参看<code>-filter_complex</code>选项)。其中的<code>linklabel</code>必须是输出滤镜链图中已命名的标签。</p>
+<p>例子：映射第一个输入文件的所有流到输出文件：</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i INPUT -map 0 output</span><br></pre></td></tr></table></figure>
+<p>又如，如果在输入文件中有两路音频流，则这些流的标签就是”0:0”和”0:1”，你可以使用<code>-map</code>来选择某个输出，例如： &gt; ffmpeg -i INPUT -map 0:1 out.wav</p>
+<p>这将只把输入文件中流标签为”0:1”的音频流单独输出到out.wav中。</p>
+<p>再如，从文件a.mov中选择序号为2的流(流标签0:2)，以及从b.mov中选择序号为6的流(流标签1:6)，然后共同复制输出到out.mov需要如下写: </p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -i a.mov -i b.mov -c copy -map 0:2 -map 1:6 out.mov</span><br><span class="line">选择所有的视频和第三个音频流则是:</span><br><span class="line">ffmpeg -i INPUT -map 0:v -map:a:2 OUTPUT</span><br><span class="line">选择所有的流除了第二音频流外的流进行输出是：</span><br><span class="line">ffmpeg -i INPUT -map 0 -map -0:a:1 OUTPUT</span><br><span class="line">选择输出英语音频流:</span><br><span class="line">ffmpeg -i INPUT -map 0:m:language:eng OUTPUT</span><br></pre></td></tr></table></figure>
+<p><strong>注意</strong>应用了该选项将自动禁用默认的映射。</p>
+</li>
+<li><p><code>-ignore_unknown</code>：如果流的类型未知则忽略，而不进行复制。</p>
+</li>
+<li><p><code>-copy_unknown</code>：复制类型未知的流。</p>
+</li>
+<li><p><code>-map_channel [input_file_id.stream_specifier.channel_id|-1][:output_file_id.stream_specifier]</code>:从输入文件中指定映射一个通道的音频到输出文件指定流。如果<code>output_file_id.stream_specifier</code>没有设置，则音频通道将映射到输出文件的所有音频流中。</p>
+<p>使用<code>-1</code>插入到<code>input_file_id.stream_specifier.chnnel_id</code>会映射一个静音通道</p>
+<p>例如<code>INPUT</code>是一个立体声音频文件，你可以分别选择两个音频通道(下面实际上对于输入是交换了2个音频通道顺序进行输出)： &gt; ffmpeg -i INPUT -map_channel 0.0.1 -map_channel 0.0.0 OUTPUT</p>
+<p>如果你想静音第一个通道，而只保留第二通道，则可使用: &gt; ffmpeg -i INPUT -map_channel -1 -map_channel 0.0.1 OUTPUT</p>
+<p>以<code>-map_channel</code>选项指定的顺序在输出文件中输出音频流通道布局，即第一个<code>-map_channel</code>对应输出中第一个音频流通道，第二个对应第二个音频流通道，以此类推(只有一个则是单声道，2个是立体声)。联合使用<code>-ac</code>与<code>-map_channel</code>，而且在输入的<code>-map_channel</code>与<code>-ac</code>不匹配(例如只有2个<code>-map_channel</code>，又设置了<code>-ac 6</code>)时将使指定音频流通道提高增益。</p>
+<p>你可以详细的对每个输入通道指派输出以分离整个输入文件，例如下面就把有<code>INPUT</code>文件中的两个音频分别输出到两个输出文件中(OUTPUT_CH0 和 OUTPUT_CH1 )： &gt; ffmpeg -i INPUT -map_channel 0.0.0 OUTPUT_CH0 -map_channel 0.0.1 OUTPUT_CH1</p>
+<p>下面的例子则把一个立体声音频的两个音频通道分离输出到两个相互独立的流(相当于两个单声道了)中(但还是放置在同一个输出文件中): &gt; ffmpeg -i stereo.wav -map 0:0 -map 0:0 -map_channel 0.0.0:0.0 -map_channel 0.0.1:0.1 -y out.ogg</p>
+<p><strong>注意</strong>当前一个输出流仅能与一个输入通道连接，既你不能实现利用<code>-map_channel</code>把多个输入的音频通道整合到不同的流中(从同一个文件或者不同文件)或者是混合它们成为单独的流，例如整合2个单声道形成立体声是不可能的。但是分离一个立体声成为2个独立的单声道是可行的。</p>
+<p>如果你需要类似的应用，你需要使用<code>amerge</code>滤镜，例如你需要整合一个媒体(这里是input.mkv)中的2个单声道成为一个立体声通道(保持视频流不变)，你需要采用下面的命令: &gt; ffmpeg -i input.mkv -filter_complex “[0:1] [0:2] amerge” -c:a pcm_s16le -c:v copy output.mkv</p>
+</li>
+<li><p><code>-map_metadata[:metadata_spec_out] infile[:metadata_spec_in] (output,per-metadata)</code>：在下一个输出文件中从<code>infile</code>读取输出元数据信息。<strong>注意</strong>这里的文件索引也是以0开始计数的，而不是文件名。参数<code>metadata_spec_in/out</code>指定的元数据将被复制，一个元数据描述可以有如下的信息块:</p>
+<ul>
+<li><p><code>g</code>:全局元数据，这些元数据将作用于整个文件</p>
+</li>
+<li><p><code>s[:stream_spec]</code>:每个流的元数据，<code>steam_spec</code>的介绍在<code>流指定</code>章节。如果是描述输入流，则第一个被匹配的流相关内容被复制，如果是输出元数据指定，则所有匹配的流相关信息被复制到该处。</p>
+</li>
+<li><p><code>c:chapter_index</code>:每个章节的元数据，<code>chapter_index</code>也是以0开始的章节索引。</p>
+</li>
+<li><p><code>p:program_index</code>：每个节目元数据，<code>program_index</code>是以0开始的节目索引</p>
+<p>如果元数据指定被省略，则默认是全局的。</p>
+<p>默认全局元数据会从第一个输入文件每个流每个章节依次复制(流/章节)，这种默认映射会因为显式创建了任意的映射而失效。一个负的文件索引就可以禁用默认的自动复制。</p>
+<p>例如从输入文件的第一个流复制一些元数据作为输出的全局元数据 &gt; ffmpeg -i in.ogg -map_metadata 0:s:0 out.mp3</p>
+<p>与上相反的操作，例如复制全局元数据给所有的音频流 &gt; ffmpeg -i in.mkv -map_metadata:s:a 0:g out.mkv</p>
+<p><strong>注意</strong>这里简单的<code>0</code>在这里能正常工作是因为全局元数据是默认访问的。</p>
+</li>
 </ul>
 </li>
-<li><p>对于上面步骤所表述的对所有匹配对的匈牙利损失如下所示，其与常规物体检测的损失定义类似：</p>
+<li><p><code>-map_chapters input_file_index (output)</code>:从输入文件中复制由<code>input_file_index</code>指定的章节的内容到输出。如果没有匹配的章节，则复制第一个输入文件至少一章内容(第一章)。使用负数索引则禁用所有的复制。</p>
+</li>
+<li><p><code>-benchmark (global)</code>：在编码结束后显示基准信息。则包括CPU使用时间和最大内存消耗，最大内存消耗是不一定在所有的系统中被支持，它通常以显示为0表示不支持。</p>
+</li>
+<li><p><code>-benchmark_all (global)</code>:在编码过程中持续显示基准信息，则包括CPU使用时间(音频/视频 的 编/解码)</p>
+</li>
+<li><p><code>-timelimit duration (global)</code>:ffmpeg在编码处理了<code>duration</code>秒后退出。</p>
+</li>
+<li><p><code>-dump (global)</code>：复制每个输入包到标准输出设备</p>
+</li>
+<li><p><code>-hex (global)</code>:复制包时也复制荷载信息</p>
+</li>
+<li><p><code>-re (input)</code>：以指定帧率读取输入。通常用于模拟一个硬件设备，例如在直播输入流(这时是读取一个文件)。不应该在实际设备或者在直播输入中使用(因为这将导致数据包的丢弃)。默认<code>ffmpeg</code>会尽量以最高可能的帧率读取。这个选项可以降低从输入读取的帧率，这常用于实时输出(例如直播流)。</p>
+</li>
+<li><p><code>-loop_input</code>：循环输入流。当前它仅作用于图片流。这个选项主要用于FFserver自动化测试。这个选项现在过时了，应该使用<code>-loop 1</code>。</p>
+</li>
+<li><p><code>-loop_output number_of_times</code>：重复播放<code>number_of_times</code>次。这是对于GIF类型的动画(0表示持续重复而不停止)。这是一个过时的选项，用<code>-loop</code>替代。</p>
+</li>
+<li><p><code>-vsync parameter</code>：视频同步方式。为了兼容旧，常被设置为一个数字值。也可以接受字符串来作为描述参数值，其中可能的值是:</p>
 <ul>
-<li><script type="math/tex; mode=display">
-L_{Hungarian}(y, ŷ) =\sum^N_{i=1}[ − log p̂ _{σ̂(i)} (c_i ) + 1_{c_i \neq ∅} L_{box} (b_i , b̂ _{σ̂ }(i))]</script><ul>
-<li>其中$σ̂(i)$是在损失计算的第一个公式中计算得出的最优项，并且在损失的计算中，物体与$no\ object$的损失与预测无关</li>
+<li><p><code>0,passthrough</code>:每个帧都通过时间戳来同步(从解复用到混合)。</p>
+</li>
+<li><p><code>1，cfr</code>：帧将复制或者降速以精准达到所要求的恒定帧速率。</p>
+</li>
+<li><p><code>2，vfr</code>：个别帧通过他们的时间戳或者降速以防止2帧具有相同的时间戳</p>
+</li>
+<li><p><code>drop</code>：直接丢弃所有的时间戳，而是在混合器中基于设定的帧率产生新的时间戳。</p>
+</li>
+<li><p><code>-1，auto</code>：根据混合器功能在1或者2中选择，这是默认值。</p>
+<p><strong>注意</strong>时间戳可以通过混合器进一步修改。例如<code>avoid_negative_ts</code>被设置时。</p>
+<p>利用<code>-map</code>你可以选择一个流的时间戳作为凭据，它可以对任何视频或者音频 不改变或者重新同步持续流到这个凭据。</p>
+</li>
 </ul>
 </li>
+<li><p><code>-frame_drop_threshold parameter</code>：丢帧的阀值，它指定后面多少帧内可能有丢帧。在帧率计数时1.0是1帧，默认值是1.1。一个可能的用例是避免在混杂的时间戳或者需要增加精准时间戳的情况下确立丢帧率。</p>
+</li>
+<li><p><code>-async samples_per_second</code>：音频同步方式。”拉伸/压缩”音频以匹配时间戳。参数是每秒最大可能的音频改变样本。<code>-async 1</code>是一种特殊情况指只有开始时校正，后续不再校正。</p>
+<p><strong>注意</strong>时间戳还可以进一步被混合器修改。例如<code>avoid_negative_ts</code>选项被指定时</p>
+<p>已不推荐这个选项，而是用<code>aresample</code>音频滤波器代替。</p>
+</li>
+<li><p><code>-copyts</code>：不处理输入的时间戳，保持它们而不是尝试审核。特别是不会消除启动时间偏移值。</p>
+<p><strong>注意</strong>根据<code>vsync</code>同步选项或者特定的混合器处理流程(例如格式选项<code>avoid_negative_ts</code>被设置)输出时间戳会忽略匹配输入时间戳(即使这个选项被设置)</p>
+</li>
+<li><p><code>-start_at_zero</code>：当使用<code>-copyts</code>,位移输入时间戳作为开始时间0.这意味着使用该选项，同时又设置了<code>-ss</code>，例如<code>-ss 50</code>则输出中会从50秒开始加入输入文件时间戳。</p>
+</li>
+<li><p>```<br>-copytb mode</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">：指定当流复制时如何设置编码时间基准。</span><br><span class="line"></span><br></pre></td></tr></table></figure>
+<p>mode</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">  参数是一个整数值，可以有如下可能：</span><br><span class="line"></span><br><span class="line">  - `1`表示使用分离器时间基准，从分离器中复制时间戳到编码中。复制可变帧率视频流时需要避免非单调递增的时间戳。</span><br><span class="line">  - `0`表示使用解码器时间基准，使用解码器中获取的时间戳作为输出编码基准。</span><br><span class="line">  - `-1`尝试自动选择，只要能产生一个正常的输出，这是默认值。</span><br><span class="line"></span><br><span class="line">- `-shortest (output)`：完成编码时最短输入端。</span><br><span class="line"></span><br><span class="line">- `-dts_delta_threshold`：时间不连续增量阀值。</span><br><span class="line"></span><br><span class="line">- `-muxdelay seconds (input)`：设置最大 解复用-解码 延迟。参数是秒数值。</span><br><span class="line"></span><br><span class="line">- `-maxpreload seconds (input)`：设置初始的 解复用-解码延迟，参数是秒数值。</span><br><span class="line"></span><br><span class="line">- `-streamid output-stream-index:new-value (output)`:强制把输出文件中序号为output-stream-id的流命名为new-value的值。这对应于这样的场景：在存在了多输出文件时需要把一个流分配给不同的值。例如设置0号流为33号流，1号流为36号流到一个mpegts格式输出文件中(这相当于对流建立链接/别名)：</span><br><span class="line">  </span><br><span class="line">  &gt; ffmpeg -i infile -streamid 0:33 -streamid 1:36 out.ts</span><br><span class="line"></span><br><span class="line">- `-bsf[:stream_specifier] bitstream_filters (output,per-stream)`：为每个匹配流设置bit流滤镜。`bitstream_filters`是一个逗号分隔的bit流滤镜列表。可以使用`-bsfs`来获得当前可用的bit流滤镜。</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -i h264.mp4 -c:v copy -bsf:v h264_mp4toannexb -an out.h264 ffmpeg -i file.mov -an -vn -bsf:s mov2textsub -c:s copy -f rawvideo sub.txt</span><br><span class="line"></span><br><span class="line">- `-tag[:stream_specifier codec_tag (input/output,per-stream`：为匹配的流设置标签/fourcc。</span><br><span class="line"></span><br><span class="line">- `-timecode hh:mm:ssSEDff`:指定时间码，这里`SEP`如果是`:`则不减少时间码，如果是`;`或者`.`则可减少。</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -i input.mpg -timecode 01:02:03.04 -r 30000/1001 -s ntsc output.mpg</span><br><span class="line"></span><br><span class="line">- `-filter_complex filtergraph (global)`：定义一个复合滤镜，可以有任意数量的输入/输出。最简单的滤镜链图至少有一个输入和一个输出，且需要相同类型。参考`-filter`以获取更多信息(更有价值)。`filtergraph`用来指定一个滤镜链图。关于`滤镜链图的语法`可以参考`ffmpeg-filters`相关章节。</span><br><span class="line"></span><br><span class="line">  其中输入链标签必须对应于一个输入流。filtergraph的具体描述可以使用`file_index:stream_specifier`语法(事实上这同于`-map`)。如果`stream_specifier`匹配到了一个多输出流，则第一个被使用。滤镜链图中一个未命名输入将匹配链接到的输入中第一个未使用且类型匹配的流。</span><br><span class="line"></span><br><span class="line">  使用`-map`来把输出链接到指定位置上。未标记的输出会添加到第一个输出文件。</span><br><span class="line"></span><br><span class="line">  **注意**这个选项参数在用于`-lavfi`源时不是普通的输入文件。 &gt; ffmpeg -i video.mkv -i image.png -filter_complex &#x27;[0:v][1:v]overlay[out]&#x27; -map &#x27;[out]&#x27; out.mkv</span><br><span class="line"></span><br><span class="line">  这里`[0:v]`是第一个输入文件的第一个视频流，它作为滤镜的第一个(主要的)输入，同样，第二个输入文件的第一个视频流作为滤镜的第二个输入。</span><br><span class="line"></span><br><span class="line">  假如每个输入文件只有一个视频流，则我们可以省略流选择标签，所以上面的内容在这时等价于:</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -i video.mkv -i image.png -filter_complex &#x27;overlay[out]&#x27; -map &#x27;[out]&#x27; out.mkv</span><br><span class="line"></span><br><span class="line">  此外，在滤镜是单输出时我们还可以进一步省略输出标签，它会自动添加到输出文件，所以进一步简写为:</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -i video.mkv -i image.png -filter_complex &#x27;overlay&#x27; out.mkv</span><br><span class="line"></span><br><span class="line">  利用`lavfi`生成5秒的 红`color`(色块):</span><br><span class="line"></span><br><span class="line">  &gt; ffmpeg -filter_complex &#x27;color=c=red&#x27; -t 5 out.mkv</span><br><span class="line"></span><br><span class="line">- `-lavfi filtergraph (global)`：定义一个复合滤镜，至少有一个输入和/或输出，等效于`-filter_complex`。</span><br><span class="line"></span><br><span class="line">- `-filter_complex_script filename (global)`：这个选项类似于`-filter_complex`，唯一不同就是它的参数是文件名，会从这个文件中读取复合滤镜的定义。</span><br><span class="line"></span><br><span class="line">- `-accurate_seek (input)`：这个选项会启用/禁止输入文件的精确定位(配合`-ss`)，它默认是启用的，即可以精确定位。需要时可以使用`-noaccurate_seek`来禁用，例如在复制一些流而转码另一些的场景下。</span><br><span class="line"></span><br><span class="line">- `-seek_timestamp (input)`：这个选项配合`-ss`参数可以在输入文件上启用或者禁止利用时间戳的定位。默认是禁止的，如果启用，则认为`-ss`选项参数是正式的时间戳，而不是由文件开始计算出来的偏移。这一般用于具有不是从0开始时间戳的文件，例如一些传输流(直播下)。</span><br><span class="line"></span><br><span class="line">- `-thread_queue_size size (input)`：这个选项设置可以从文件或者设备读取的最大排队数据包数量。对于低延迟高速率的直播流，如果不能及时读取，则出现丢包，所以提高这个值可以避免出现大量丢包现象。</span><br><span class="line"></span><br><span class="line">- `-override_ffserver (global)`:对`ffserver`的输入进行指定。使用这个选项`ffmpeg`可以把任意输入映射给`ffserver`并且同时控制很多编码可能。如果没有这个选项，则`ffmpeg`仅能根据`ffserver`所要求的数据进行传输。</span><br><span class="line"></span><br><span class="line">  这个选项应用场景是`ffserver`需要一些特性，但文件/设备不提供，这时可以利用`ffmpeg`作为中间处理环节控制后输出到`ffserver`到达所需要求。</span><br><span class="line"></span><br><span class="line">- `-sdp_file file (global)`：输出`sdp`信息到文件`file`。它会在至少一个输出不是`rtp`流时同时输出`sdp`信息。</span><br><span class="line"></span><br><span class="line">- ```</span><br><span class="line">  -discard (input)</span><br></pre></td></tr></table></figure>
+<p>：允许丢弃特定的流或者分离出的流上的部分帧，但不是所有的分离器都支持这个特性。</p>
+<ul>
+<li><code>none</code>：不丢帧</li>
+<li><code>default</code>：丢弃无效帧</li>
+<li><code>noref</code>：丢弃所有非参考帧</li>
+<li><code>bidir</code>：丢弃所有双向帧</li>
+<li><code>nokey</code>：丢弃所有非关键帧</li>
+<li><code>all</code>：丢弃所有帧</li>
 </ul>
 </li>
-<li><p>对于边缘框损失而言，其与边缘框有关且表示为$L_{box}$。本文直接提出了对目标的预测，为了解决所带来的物体大小所带来的对损失计算的影响，本文使用了$l_1\ loss$和广义的IOU loss的线性组合。即最终的$L_{IOU}(b_i,b̂ _{σ(i)})$公式表达如下：</p>
+<li><p><code>-xerror (global)</code>:在出错时停止并退出</p>
+</li>
+</ul>
+<p>作为一个特殊的例外，你可以把一个位图字幕(bitmap subtitle)流作为输入，它将转换作为同于文件最大尺寸的视频(如果没有视频则是720x576分辨率)。<strong>注意</strong>这仅仅是一个特殊的例外的临时解决方案，如果在<code>libavfilter</code>中字幕处理方案成熟后这样的处理方案将被移除。</p>
+<p>例如需要为一个储存在DVB-T上的MPEG-TS格式硬编码字幕，而且字幕延迟1秒： &gt; ffmpeg -i input.ts -filter_complex \ ‘[#0x2ef] setpts=PTS+1/TB [sub] ; [#0x2d0] [sub] overlay’ \ -sn -map ‘#0x2dc’ output.mkv</p>
+<p>(0x2d0, 0x2dc 以及 0x2ef 是MPEG-TS 的PIDs，分别指向视频、音频和字幕流，一般作为MPEG-TS中的0:0,0:3和0：7是实际流标签)</p>
+<h4 id="预设文件"><a href="#预设文件" class="headerlink" title="预设文件"></a>预设文件</h4><p>一个预设文件是选项/值对的序列(option=value)，每行都是一个选项/值对， 用于指定一系列的选项，而这些一般很难在命令行中指定(限于命令行的一些限制，例如长度限制)。以<code>#</code>开始的行是注释，会被忽略。一般<code>ffmpeg</code>会在目录树中检查<code>presets</code>子目录以获取预设文件。</p>
+<p>有两种类型的预设文件:ffpreset 和 avpreset。</p>
+<h5 id="ffpreset类型预设文件"><a href="#ffpreset类型预设文件" class="headerlink" title="ffpreset类型预设文件"></a>ffpreset类型预设文件</h5><p>采用<code>ffpreset</code>类型预设文件主要包含<code>vpre</code>、<code>apre</code>、<code>spre</code>和<code>fpre</code>选项。其中<code>fpre</code>选项的参数可以代替预设的名称作为输入预设文件名，以用于任何一种编码格式。对于<code>vpre</code>、<code>apre</code>和<code>spre</code>选项参数会指定一个预设定文件用于当前编码格式以替代(作为)同类项的预订选项。</p>
+<p>选用预设文件传递<code>vpre</code>、<code>apre</code>和<code>spre</code>的参数<code>arg</code>有下面一些搜索应用规则：</p>
 <ul>
-<li><script type="math/tex; mode=display">
-L_{IOU}(b_i,b̂ _{σ(i)})=λ_{iou} L_{iou}(b_i , b̂ _{σ(i)} ) + λ_{L1} ||b i − b̂ _{σ(i)} ||_1 \\其中λ_{iou}、 λ_{L1} 为超参数</script></li>
+<li>将在目录<code>$FFMPEG_DATADIR</code>(如果设置了)和<code>$HOME/.ffmpeg</code>目录和配置文件中定义的数据目录(一般是<code>PREFIX/share/ffmpeg</code>)，以及<code>ffpresets</code>所在的执行文件目录下ffmpeg搜索对应的预定义文件<code>arg.ffpreset</code>，例如参数是<code>libvpx-1080p</code>,则对应于文件<code>libvpx-1080p.ffpreset</code></li>
+<li>如果没有该文件，则进一步在前述目录下搜索<code>codec_name-arg.ffpreset</code>文件，如果找到即应用。例如选择了视频编码器<code>-vcodec libvpx</code>和<code>-vpre 1080p</code>则对应的预设文件名是<code>libvpx-1080p.ffpreset</code></li>
+</ul>
+<h5 id="avpreset类型预设文件"><a href="#avpreset类型预设文件" class="headerlink" title="avpreset类型预设文件"></a>avpreset类型预设文件</h5><p><code>avprest</code>类型预设文件以<code>pre</code>选项引入。他们工作方式类似于<code>ffpreset</code>类型预设文件(即也是选项值对序列)，但只对于特定编码器选项，因此一些 选项值 对于不适合的编码器是无效的。根据<code>pre</code>的参数<code>arg</code>查找预设文件基于如下规则：</p>
+<ul>
+<li>首先搜索<code>$AVCONV_DATADIR</code>所指目录(如果定义了)，其次搜索<code>$HOME/.avconv</code>目录，然后搜索执行文件所在目录(通常是<code>PREFIX/share/ffmpeg</code>)，在其下查找<code>arg.avpreset</code>文件。第一个匹配的文件被应用。</li>
+<li>如果查找不到，如果还同步还指定了编码(如<code>-vcodec libvpx</code>)再以前面目录顺序，以<code>codec_name-arg.avpreset</code>再次查找文件。例如对于有选项<code>-vcodec libvpx</code>和<code>-pre 1080p</code>将搜索<code>libvpx-1080p.avpreset</code></li>
+<li>如果还没有找到，将在当前目录下搜索<code>arg.avpreset</code>文件</li>
 </ul>
+<h3 id="例子"><a href="#例子" class="headerlink" title="例子"></a>例子</h3><h4 id="视频和音频抓取"><a href="#视频和音频抓取" class="headerlink" title="视频和音频抓取"></a>视频和音频抓取</h4><p>如果你指定了输入格式和设备，ffmpeg可以直接抓取视频和音频：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -f oss -i /dev/dsp -f video4linux2 -i /dev/video0 /tmp/out.mpg</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p>或者采用ALSA音频源(单声道，卡的id是1)替代OSS:</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -f alsa -ac 1 -i hw:1 -f video4linux2 -i /dev/video0 /tmp/out.mpg</span><br></pre></td></tr></table></figure>
+</blockquote>
+<p><strong>注意</strong>对于不同的视频采集卡，你必须正确激活视频源和通道，例如Gerd Knorr的<code>xawtv</code>。你还需要设置正确的音频记录层次和混合模式。只有这样你才能采集到想要的视音频。</p>
+<h4 id="X11显示的抓取"><a href="#X11显示的抓取" class="headerlink" title="X11显示的抓取"></a>X11显示的抓取</h4><p>可以通过ffmpeg直接抓取X11显示内容：</p>
+<blockquote>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ffmpeg -f x11grab -video_size cif -framerate 25 -i :0.0+10，20 /tmp/out.mpg</span><br></pre></td></tr></table></figure>
+<p><code>0.0</code>是X11服务的显示屏幕号(display.screen)，定义于<code>DISPLAY</code>环境变量。10是水平偏移，20是垂直偏移</p>
+</blockquote>
+<h4 id="视频和音频文件格式转换"><a href="#视频和音频文件格式转换" class="headerlink" title="视频和音频文件格式转换"></a>视频和音频文件格式转换</h4><p>任何支持的文件格式或者协议都可以作为ffmpeg输入。例如：</p>
+<ul>
+<li><p>你可以使用YUV文件作为输入</p>
+<blockquote>
+<p>ffmpeg -i /tmp/test%d.Y /tmp/out.mpg</p>
+</blockquote>
+<p>这里可能是这样一些文件</p>
+<blockquote>
+<p>/tmp/test0.Y, /tmp/test0.U, /tmp/test1.V, /tmp/test1.Y, /tmp/test1.U, /tmp/test1.V, etc…</p>
+</blockquote>
+<p>这里Y还有对应分辨率的2个关联文件U和V。这是一种raw数据文件而没有文件头，它可以被所有的视频解码器生成。你必须利用<code>-s</code>对它指定一个尺寸而不是让ffmpeg去猜测。</p>
+</li>
+<li><p>你可以把raw YUV420P文件作为输入：</p>
+<blockquote>
+<p>ffmpeg -i /tmp/test/yuv /tmp/out.avi</p>
+</blockquote>
+<p>test.yuv 是一个包含raw YUV通道数据的文件。每个帧先是Y数据，然后是U和V数据。</p>
+</li>
+<li><p>也可以输出YUV420P类型的文件</p>
+<blockquote>
+<p>ffmpeg -i mydivx.avi hugefile.yuv</p>
+</blockquote>
+</li>
+<li><p>可以设置一些输入文件和输出文件</p>
+<blockquote>
+<p>ffmpeg -i /tmp/a.wav -s 640x480 -i /tmp/a.yuv /tmp/a.mpg</p>
+</blockquote>
+<p>这将转换一个音频和raw的YUV视频到一个MPEG文件中</p>
+</li>
+<li><p>你也可以同时对音频或者视频进行转换</p>
+<blockquote>
+<p>ffmpeg -i /tmp/a.wav -ar 22050 /tmp/a.mp2</p>
+</blockquote>
+<p>这里把a.wav转换为MPEG音频，同时转换了采样率为22050HZ</p>
+</li>
+<li><p>你也可以利用映射同时编码多个格式作为输入或者输出：</p>
+<blockquote>
+<p>ffmpeg -i /tmp/a.wav -map 0:a -b:a 64k /tmp/a.mp2 -map 0:a -b:a 128k /tmp/b.mp2</p>
+</blockquote>
+<p>这将同时把a.wav以64k码率输出到a.mp2，以128k码率输出到b.mp2。 “-map file:index”指定了对于每个输出是连接到那个输入流的。</p>
+</li>
+<li><p>还可以转换解码VOBs：</p>
+<blockquote>
+<p>ffmpeg -i snatch_1.vob -f avi -c:v mpeg4 -b:v 800k -g 300 -bf 2 -c:a libmp3lame -b:a 128k snatch.avi</p>
+</blockquote>
+<p>这是一个典型的DVD抓取例子。这里的输入是一个VOB文件，输出是MPEG-4编码视频以及MP3编码音频的AVI文件。<strong>注意</strong>在这个命令行里使用了B-frames（B帧）是兼容DivX5的，GOP设置为300则意味着有一个内帧是适合29.97fps的输入视频。此外，音频流采用MP3编码需要运行LAME支持，它需要通过在编译是设置<code>--enable-libmp3lame</code>。这种转换设置在多语言DVD抓取转换出所需的语言音频时特别有用。</p>
+<p><strong>注意</strong>要了解支持那些格式，可以采用<code>ffmpeg -formats</code></p>
+</li>
+<li><p>可以从一个视频扩展生成图片（序列），或者从一些图片生成视频：</p>
+<ul>
+<li><p>导出图片</p>
+<blockquote>
+<p>ffmpeg -i foo.avi -r 1 -s WxH -f image2 foo-%03d.jpeg</p>
+</blockquote>
+<p>这将每秒依据foo.avi生成一个图片命名为foo-001.jpeg ,foo-002.jpeg以此类推,图片尺寸是WxH定义的值。</p>
+<p>如果你想只生成有限数量的视频帧，你可以进一步结合<code>-vframes</code>或者<code>-t</code>或者<code>-ss</code>选项实现。</p>
+</li>
+<li><p>从图片生成视频</p>
+<blockquote>
+<p>ffmpeg -f image2 -framerate 12 -i foo-%03d.jpeg -s WxH foo.avi</p>
+</blockquote>
+<p>这里的语法<code>foo-%03d.jpeg</code>指明使用3位数字来补充完整文件名，不足3位以0补齐。这类似于C语言的printf函数中的格式，但只接受常规整数作为部分。</p>
+<p>当导入一个图片序列时，<code>-i</code>也支持shell的通配符模式(内置的)，这需要同时选择image2的特性选项<code>-pattern_type glob</code>：例如下面就利用了所有匹配<code>foo-*.jpeg</code>的图片序列创建一个视频：</p>
+<blockquote>
+<p>ffmpeg -f image2 -pattern_type glob -framerate 12 -i ‘foo-*.jpeg’ -s WxH foo.avi</p>
+</blockquote>
+</li>
+</ul>
+</li>
+<li><p>你可以把很多相同类型的流一起放到一个输出中：</p>
+<blockquote>
+<p>ffmpeg -i test1.avi -i test2.avi -map 1:1 -map 1:0 -map 0:1 -map 0:0 -c copy -y test12.nut</p>
+</blockquote>
+<p>这里最后输出文件test12.nut包括了4个流，其中流的顺序完全根据前面<code>-map</code>的指定顺序。</p>
+</li>
+<li><p>强制为固定码率编码(CBR)输出视频：</p>
+<blockquote>
+<p>ffmpeg -i myfile.avi -b 4000k -minrate 4000k -maxrate 4000k -bufsize 1835k out.m2v</p>
+</blockquote>
+</li>
+<li><p>使用<code>lambda</code>工具的4个选项<code>lmin</code>，<code>lmax</code>，<code>mblmin</code>以及<code>mblmax</code>使你能更简单的从<code>q</code>转换到<code>QP2LAMBDA</code>:</p>
+<blockquote>
+<p>ffmpeg -i src.ext -lmax 21*QP2LAMBDA dst.ext</p>
+</blockquote>
 </li>
 </ul>
-<h3 id="优点"><a href="#优点" class="headerlink" title="优点"></a>优点</h3><p>DETR做到了真正没有非最大抑制（NMS）后处理，而且不需要anchor（锚点生成）等人工的先验知识。</p>
-<h3 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</h3><p>训练时间较长，对小目标的检测性能不是很高。</p>
 
       
     </div>
@@ -703,7 +1502,7 @@ <h3 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/Bert/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/03/21/RK3588%E3%80%81ros%E3%80%81fastdeploy%E8%81%94%E5%90%88%E7%8E%AF%E5%A2%83%E8%AE%BE%E7%BD%AE/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -717,7 +1516,7 @@ <h3 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/08/22/Bert/" class="post-title-link" itemprop="url">Bert</a>
+            <a href="/2023/03/21/RK3588%E3%80%81ros%E3%80%81fastdeploy%E8%81%94%E5%90%88%E7%8E%AF%E5%A2%83%E8%AE%BE%E7%BD%AE/" class="post-title-link" itemprop="url">RK3588、ros、fastdeploy联合环境设置</a>
         </h2>
 
         <div class="post-meta">
@@ -728,7 +1527,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2022-08-22 20:56:02 / 修改时间：21:33:54" itemprop="dateCreated datePublished" datetime="2022-08-22T20:56:02+08:00">2022-08-22</time>
+              <time title="创建时间：2023-03-21 21:00:27 / 修改时间：22:16:15" itemprop="dateCreated datePublished" datetime="2023-03-21T21:00:27+08:00">2023-03-21</time>
             </span>
 
           
@@ -742,73 +1541,72 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="Bert-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding"><a href="#Bert-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding" class="headerlink" title="(Bert)Pre-training of Deep Bidirectional Transformers for Language Understanding"></a>(Bert)Pre-training of Deep Bidirectional Transformers for Language Understanding</h2><h3 id="评价"><a href="#评价" class="headerlink" title="评价"></a>评价</h3><p>bert是一种预训练模型，在训练的过程中主要训练如下所示的两个子任务</p>
+          <h2 id="基础环境设置"><a href="#基础环境设置" class="headerlink" title="基础环境设置"></a>基础环境设置</h2><h3 id="ROS环境设置"><a href="#ROS环境设置" class="headerlink" title="ROS环境设置"></a>ROS环境设置</h3><p>ros与ubuntu系统紧密相连，要求在固定版本的Ubuntu系统上安装对应版本的ros系统，对应版本如下：</p>
+<div class="table-container">
+<table>
+<thead>
+<tr>
+<th>Ubuntu版本</th>
+<th>ros版本</th>
+</tr>
+</thead>
+<tbody>
+<tr>
+<td>ubuntu16.04</td>
+<td>ros-kinetic</td>
+</tr>
+<tr>
+<td>ubuntu18.04</td>
+<td>ros-melodic</td>
+</tr>
+<tr>
+<td>ubuntu20.04</td>
+<td>ros-noetic</td>
+</tr>
+<tr>
+<td>Ubuntu22.04</td>
+<td>ros-humble（ros2）</td>
+</tr>
+</tbody>
+</table>
+</div>
+<p>以在rk3588上安装ros为例，rk3588上系统环境为ubuntu20.04，即需要安装的ros版本为ros-noetic。</p>
+<p>安装类比于<a target="_blank" rel="noopener" href="https://blog.csdn.net/KIK9973/article/details/118755045">Ubuntu18.04安装Ros</a>进行ubuntu20.04下的ros安装，注意将其中的ros-melodic替换为ros-noetic。</p>
+<p>核心命令为</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line">#设置中科大源</span><br><span class="line">sudo sh -c &#x27;. /etc/lsb-release &amp;&amp; <span class="built_in">echo</span> &quot;deb http://mirrors.ustc.edu.cn/ros/ubuntu/ `lsb_release -cs` main&quot; &gt; /etc/apt/sources.list.d/ros-latest.list&#x27;</span><br><span class="line">#设置公钥</span><br><span class="line">sudo apt-key adv --keyserver &#x27;hkp://keyserver.ubuntu.com:<span class="number">80</span>&#x27; --recv-key C1CF6E31E6BADE8868B172B4F42ED6FBAB17C654</span><br><span class="line">#更新软件包列表</span><br><span class="line">sudo apt update</span><br><span class="line">#安装ros（需要替换网址中的melodic为noetic）</span><br><span class="line">sudo apt install ros-noetic-desktop-full</span><br><span class="line">#设置环境变量</span><br><span class="line"><span class="built_in">echo</span> &quot;source /opt/ros/melodic/setup.bash&quot; &gt;&gt; ~/.bashrc</span><br><span class="line">source ~/.bashrc</span><br></pre></td></tr></table></figure>
+<h3 id="FFMPEG源码编译"><a href="#FFMPEG源码编译" class="headerlink" title="FFMPEG源码编译"></a>FFMPEG源码编译</h3><p>在官方github中下载FFMPEG源码，例如版本4.2.7</p>
+<p>安装依赖库</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">sudo apt install libx264-dev </span><br><span class="line">sudo apt install libdrm-dev  </span><br></pre></td></tr></table></figure>
+<p>根据需求配置configure，配置makefile</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">./configure --enable-shared --enable-gpl --enable-libx264 --enable-rkmpp --enable-version3 --enable-libdrm</span><br></pre></td></tr></table></figure>
+<p>make直接编译</p>
+<h3 id="OPENCV源码编译"><a href="#OPENCV源码编译" class="headerlink" title="OPENCV源码编译"></a>OPENCV源码编译</h3><p>在官方github中下载OpenCV源码，例如版本4.5.5</p>
 <ul>
-<li>预测句子中被掩盖的词</li>
-<li>判断输入的两个句子是不是上下句</li>
+<li>安装依赖库</li>
 </ul>
-<p>然后在该预训练模型后面依据特定任务加上相应的微调即可完成NLP的下游任务，例如翻译、问答等。</p>
-<p>bert的架构是基于transformer的，其通过叠加transformer的encoder部分组成bert的整体框架，其encoder部分由一层多头自注意力机制、一层全链接网络、两层残差及标准化层组成，其中一个encoder部分的示意图如下所示：</p>
-<p><img src="/2022/08/22/Bert/image-20220802090401760.png" alt="image-20220802090401760"></p>
-<p>在论文中提出了两种大小的模型，大的模型有24层，每层16个attention。小的模型12层，每层12个attention。</p>
-<p>整个模型由模型输入、网络训练以及对每个具体任务的微调组成。</p>
-<h3 id="模型任务"><a href="#模型任务" class="headerlink" title="模型任务"></a>模型任务</h3><p>要了解模型的训练过程，首先需要对模型的训练任务有一定了解。模型的训练任务分为以下两个部分<strong>masked language model</strong>和<strong>next sentence prediction</strong>。</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">sudo apt install libgtk-dev</span><br><span class="line">sudo apt install libgail-dev</span><br></pre></td></tr></table></figure>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="built_in">mkdir</span> build &amp;&amp; <span class="built_in">cd</span> build </span><br><span class="line">cmake ..</span><br></pre></td></tr></table></figure>
+<h2 id="环境依赖兼容问题"><a href="#环境依赖兼容问题" class="headerlink" title="环境依赖兼容问题"></a>环境依赖兼容问题</h2><p>ros、fastdeploy、opencv版本问题</p>
+<p>解决方法：</p>
 <ul>
-<li>masked language model：即随机掩盖掉输入中的部分单词，然后让模型通过上下文来预测该单词。<ul>
-<li>具体在bert中，选用了15%的token会被随机掩盖，这15%的token中80%用[MASK]这个token来代替，10%用随机的一个词来替换，10%保持这个词不变。这种设计使得模型具有捕捉上下文关系的能力，同时能够有利于token-level tasks例如序列标注。</li>
-<li>不将选中的token全都用[mask]替换的原因是，如果全部替换，会让模型学习到“如果当前词是 [MASK]，就根据其他词的信息推断这个词；如果当前词是一个正常的单词，就直接抄输入”，但是在模型微调的时候，并不会存在[mask]，所以会让模型在微调时失效。</li>
-</ul>
-</li>
-</ul>
-<p>示意图如下所示：</p>
-<p><img src="/2022/08/22/Bert/1620.jpeg" alt="img"></p>
+<li><p>针对fastdeploy，自定义opencv版本进行fastdeploy的编译</p>
 <ul>
-<li>next sentence prediction：给定两句话，判断第二句话是否紧跟在第一句话之后。<ul>
-<li>其任务具体为在所有样本中的50%的句子，选择其相应的下一句一起形成上下句，作为正样本；其余50%的句子随机选择一句非下一句一起形成上下句，作为负样本。且作者强调，应使用document-level的而不是sentence-level的样本，从而具备长序列特征的抽象能力。</li>
-</ul>
-</li>
-</ul>
-<p>示意图如下所示：</p>
-<p><img src="/2022/08/22/Bert/1620-16594041231163.jpeg" alt="img"></p>
-<h3 id="模型输入"><a href="#模型输入" class="headerlink" title="模型输入"></a>模型输入</h3><p>对于bert而言，其输入分为三部分：即Token Enbeddings，position embeddings，segment embeddings。其中由bert的设计，我们引入[CLS]作为输入的开始的起始符，引入[SEP]作为两个句子的分割符（next sentence prediction中输入为两句话，故引入[SEP]）。</p>
+<li><p>需要修改的文件路径如下所示：</p>
 <ul>
-<li>Token Enbeddings：为单词本身的向量表示。在bert中使用的是WordPiece方法，其是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。最终用30000左右的token表达了所有的词。</li>
-<li>position embedding：将单词的位置信息编码成特征向量。因为我们的网络结构没有RNN 或者LSTM，因此我们无法得到序列的位置信息，所以需要构建一个position embedding来表示位置信息。<ul>
-<li>构建position embedding有两种方法：BERT是初始化一个position embedding，然后通过训练将其学出来；而Transformer是通过制定规则来构建一个position embedding（sin、cos表示）</li>
-</ul>
+<li><p><strong>/FastDeploy/CmakeLists.txt</strong></p>
+<ul>
+<li><pre><code class="lang-txt">#修改opencv_dir
+set(OPENCV_DIRECTORY &quot;/usr/local/lib/cmake/opencv4&quot; CACHR PATH &quot;User can specify the installed opencv directory.&quot;)
+</code></pre>
+<p>这个地方修改之后会在后续引入opencv.cmake的时候将该参数传入，并在opencv.cmake中进行cmakelist中头文件的包含，动态链接库的链接等操作</p>
 </li>
-<li>segment embedding：用于区分两个句子的向量表示。</li>
 </ul>
-<p>下图为模型输入的示意图：</p>
-<p><img src="/2022/08/22/Bert/embedding.png" alt="img"></p>
-<p>并最终将上述三种Embedding相加，作为最终的输入。</p>
-<h3 id="模型结构"><a href="#模型结构" class="headerlink" title="模型结构"></a>模型结构</h3><h4 id="不同结构的bert"><a href="#不同结构的bert" class="headerlink" title="不同结构的bert"></a>不同结构的bert</h4><p>对于bert而言，其主要的结构在于其encoder块的叠加，大的模型有24层，每层16个attention，隐藏层大小为1024，参数总量为340M。小的模型12层，每层12个attention，隐藏层大小为768，参数总量为110M。</p>
-<p>以小的模型为例，输入的size由WordPiece可得为30000。</p>
-<ul>
-<li>嵌入层：嵌入层可学习的参数量为：$30000*12$</li>
-<li>对于一个encoder块：<ul>
-<li>首先经过多头自注意力的计算，参数量为$(64<em>12)</em>(64<em>12)</em>4$</li>
-<li>然后经过全链接层的计算，参数量为$(64<em>12)</em>(64<em>12)</em>8$</li>
-<li>总共有12层，所以总共encoder部份的计算总量为$(64<em>12)</em>(64<em>12)</em>(4+8)*12$</li>
+</li>
 </ul>
 </li>
 </ul>
-<p>总共的计算量为:</p>
-<p>$30k<em>(12</em>64)+(64<em>12)</em>(64<em>12)</em>(4+8)*12\approx110M$</p>
-<p>大模型同理。</p>
-<p>其所对应的Encoder块的计算原理如之前写的transformer所示。</p>
-<h4 id="BN-LN的选择"><a href="#BN-LN的选择" class="headerlink" title="BN/LN的选择"></a>BN/LN的选择</h4><p>对于BN、LN的选择，可直观的如下图所示：</p>
-<p><img src="/2022/08/22/Bert/BNLN.png" alt="img"></p>
-<p>可以简单的对其理解为，BN是对一个batch里面所有样本的同一个位置的特征做归一化，然后LN是对一个batch里面的一个样本的所有特征做归一化。</p>
-<p>所以LN更加符合对文本处理的直觉。</p>
-<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3><h4 id="模型特点"><a href="#模型特点" class="headerlink" title="模型特点"></a>模型特点</h4><ul>
-<li>使用transformer作为算法的主要框架，transformer能<strong>更彻底的捕捉语句中的双向关系</strong></li>
-<li>使用了mask language model 和next sentence prediction的多任务训练目标，<strong>是一个自监督的过程，不需要数据的标注</strong></li>
-<li>使用tpu这种强大的机器训练了大规模的预料，是NLP的很多任务达到了全新的高度。</li>
+</li>
 </ul>
-<p>​    BERT本质上是在海量语料的基础上，通过自监督学习的方法为单词学习一个好的特征表示。该模型的优点是可以根据具体的人物进行微调，或者直接使用预训练的模型作为特征提取器。</p>
-<h4 id="可优化空间"><a href="#可优化空间" class="headerlink" title="可优化空间"></a>可优化空间</h4><p>（1）如何让模型有<strong>捕捉Token序列关系</strong>的能力，而不是简单依靠位置嵌入。</p>
-<p>（2）模型太大，太耗机器</p>
 
       
     </div>
@@ -828,7 +1626,7 @@ <h4 id="可优化空间"><a href="#可优化空间" class="headerlink" title="
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/transformer%E7%9B%B8%E5%85%B3/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -842,7 +1640,7 @@ <h4 id="可优化空间"><a href="#可优化空间" class="headerlink" title="
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/" class="post-title-link" itemprop="url">transformer相关</a>
+            <a href="/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/" class="post-title-link" itemprop="url">RK3588s部署相关</a>
         </h2>
 
         <div class="post-meta">
@@ -853,7 +1651,7 @@ <h2 class="post-title" itemprop="name headline">
               <span class="post-meta-item-text">发表于</span>
               
 
-              <time title="创建时间：2022-08-22 20:55:36 / 修改时间：21:34:52" itemprop="dateCreated datePublished" datetime="2022-08-22T20:55:36+08:00">2022-08-22</time>
+              <time title="创建时间：2023-03-04 15:28:29 / 修改时间：15:35:38" itemprop="dateCreated datePublished" datetime="2023-03-04T15:28:29+08:00">2023-03-04</time>
             </span>
 
           
@@ -867,118 +1665,167 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="Transformer相关"><a href="#Transformer相关" class="headerlink" title="Transformer相关"></a>Transformer相关</h2><p>要了解transformer，首先需要对其发展有一定的了解，即从RNN开始。</p>
-<h3 id="经典RNN（N-vs-N）"><a href="#经典RNN（N-vs-N）" class="headerlink" title="经典RNN（N vs N）"></a>经典RNN（N vs N）</h3><p>个人在搜寻资料过程中，认为以下两个链接讲得很好，就不再赘述，直接贴链接了。</p>
-<ul>
-<li><a target="_blank" rel="noopener" href="https://zhuanlan.zhihu.com/p/52119092">NLP中的RNN、Seq2Seq与attention注意力机制</a></li>
-<li><a target="_blank" rel="noopener" href="https://zhuanlan.zhihu.com/p/28054589">完全图解RNN、RNN变体、Seq2Seq、Attention机制</a></li>
-<li><a target="_blank" rel="noopener" href="https://blog.csdn.net/Tink1995/article/details/105012972">Attention详解</a></li>
-<li><a href="[https://blog.csdn.net/Tink1995/article/details/105080033?spm=1001.2101.3001.6650.1&amp;utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-1-105080033-blog-104374257.pc_relevant_vip_default&amp;depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-1-105080033-blog-104374257.pc_relevant_vip_default&amp;utm_relevant_index=2](https://blog.csdn.net/Tink1995/article/details/105080033?spm=1001.2101.3001.6650.1&amp;utm_medium=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~default-1-105080033-blog-104374257.pc_relevant_vip_default&amp;depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~default-1-105080033-blog-104374257.pc_relevant_vip_default&amp;utm_relevant_index=2">Transformer详解</a>)</li>
-</ul>
-<p>总而言之，经典RNN是存储并利用了历史信息的网络，其输入和输出必须相同。</p>
-<h3 id="seq2seq模型（N-vs-M）"><a href="#seq2seq模型（N-vs-M）" class="headerlink" title="seq2seq模型（N vs M）"></a>seq2seq模型（N vs M）</h3><p>seq2seq模型为RNN的一种变种，其输入输出不定，也叫做Encoder-Decoder模型，但其是不存在注意力机制的。</p>
-<p>Encoder和Decoder均可以看做一个独立的有记忆系统的网络（RNN、LSTM等）</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/v2-77e8a977fc3d43bec8b05633dc52ff9f_720w.jpg" alt="img"></p>
-<p>如上图所示，输入x1～x4，通过Encoder生成h1～h4。则最终生成的语义编码c依据其具体定义可得为h1～h4的组合，即可表示为$C=q(h1,h2,h3,h4)$，C最终为一个固定长度的语义向量。在Decoder阶段，将C作为输入，Decoder将其解码成所需的序列数据。解码过程如下所示：</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/1.png" alt="在这里插入图片描述"></p>
-<p>生成的语义编码C,在计算每一时刻的输出$y_t$的时候均作为独立的输入，即其对应的公式可表示为如下所示：</p>
-<script type="math/tex; mode=display">
-y_t=f(C,y_1,y_2.....y_{t-1})</script><p>有另一种解码方式是C只在$y_1$的时候作为输入，并不对其余的$y_t$输入。</p>
-<p>这两种解码方式均有以下缺点：</p>
+          <h1 id="RK3588s部署相关"><a href="#RK3588s部署相关" class="headerlink" title="RK3588s部署相关"></a>RK3588s部署相关</h1><p>目前无人机上开发板为ROC-RK3588S-PC，为在其上进行深度学习模型的推理，需要对板载的NPU进行配置使用。为使用该NPU，需要下载<a target="_blank" rel="noopener" href="https://wiki.t-firefly.com/zh_CN/ROC-RK3588S-PC/usage_npu.html">RKNN SDK</a>，RKNN SDK为RK3588s提供编程接口，帮助用户部署使用通过RKNN-Toolkit2导出的RKNN模型。</p>
+<p>下列代码输出的是rk3588机载npu的使用率，从而可以验证板载npu是否被使用</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">cat /sys/kernel/debug/rknpu/load</span><br></pre></td></tr></table></figure>
+<p>目前3588的部署方式大致有两种，一为利用RKNN官方支持的方式进行部署，另一为利用FastDeploy，其在RKNN官方的基础上加了一层进行后续部署。</p>
+<h2 id="基本组件及功能介绍"><a href="#基本组件及功能介绍" class="headerlink" title="基本组件及功能介绍"></a>基本组件及功能介绍</h2><h3 id="RKNN-Toolkit2与RKNN-Toolkit-Lite2套件介绍"><a href="#RKNN-Toolkit2与RKNN-Toolkit-Lite2套件介绍" class="headerlink" title="RKNN-Toolkit2与RKNN Toolkit Lite2套件介绍"></a><strong>RKNN-Toolkit2与RKNN Toolkit Lite2套件介绍</strong></h3><h4 id="RKNN-Toolkit2"><a href="#RKNN-Toolkit2" class="headerlink" title="RKNN-Toolkit2"></a>RKNN-Toolkit2</h4><p>RKNN-Toolkit2是为用户提供在PC平台上进行Rockchip芯片NPU模型转换、推理和性能评估的开发套件。用户通过该工具提供的Python 接口可以便捷地完成以下功能：</p>
+<ol>
+<li>模型转换：支持Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet、PyTorch 等模型转为RKNN 模型，并支持RKNN 模型导入导出，RKNN 模型能够在Rockchip NPU 平台上加载使用。</li>
+<li>量化功能：支持将浮点模型量化为定点模型，目前支持的量化方法为非对称量化（ asymmetric_quantized-8 及asymmetric_quantized-16 ） ， 并支持混合量化功能。</li>
+<li>模型推理：能够在PC 上模拟Rockchip NPU 运行RKNN 模型并获取推理结果；或将RKNN模型分发到指定的NPU 设备上进行推理并获取推理结果。</li>
+<li>性能和内存评估：将RKNN 模型分发到指定NPU 设备上运行，以评估模型在实际设备上运行时的性能和内存占用情况。</li>
+<li>量化精度分析：该功能将给出模型量化前后每一层推理结果与浮点模型推理结果的余弦距离，以便于分析量化误差是如何出现的，为提高量化模型的精度提供思路。</li>
+</ol>
+<p><strong>即，该部分需要在linux-ubuntu的电脑上进行安装，从而完成模型的转换和模型的量化等功能</strong></p>
+<h4 id="RKNN-Toolkit-Lite2"><a href="#RKNN-Toolkit-Lite2" class="headerlink" title="RKNN -Toolkit-Lite2"></a>RKNN -Toolkit-Lite2</h4><p>RKNN -Toolkit-Lite2为RKNN-Toolkit-lite2的一部分，为带有瑞芯NPU平台提供Python编程接口，帮助用户部署使用RKNN-Toolkit2导出的RKNN模型。</p>
+<h4 id="rknpu2"><a href="#rknpu2" class="headerlink" title="rknpu2"></a>rknpu2</h4><p>rknpu2为带有瑞芯NPU平台提供c语言编程接口，帮助用户部署使用 RKNN-Toolkit2 导出的 RKNN 模型。</p>
+<p><strong>即RKNN -Toolkit-Lite2和rknpu2分别为板载上使用python或c++调用npu的接口，需要在板子上进行安装从而完成对应的npu的调用</strong></p>
+<h4 id="FastDeploy"><a href="#FastDeploy" class="headerlink" title="FastDeploy"></a>FastDeploy</h4><p>FastDeploy是百度推出的一款AI算法推理部署的工具。其为在RKNN官方的库的基础上进行二次开发及封装，从而实现更方便的一种算法部署方式。但是其由于目前依旧为develop阶段，很多接口尚未完全开发完毕。</p>
+<p><strong>即FastDeploy需要在ubuntu服务器端和板载端均进行安装，目前正在快速开发中，交流群内较为活跃，遇到问题好解决</strong></p>
+<h2 id="使用RKNN官方例程"><a href="#使用RKNN官方例程" class="headerlink" title="使用RKNN官方例程"></a>使用RKNN官方例程</h2><h3 id="环境准备"><a href="#环境准备" class="headerlink" title="环境准备"></a>环境准备</h3><h4 id="服务器端环境"><a href="#服务器端环境" class="headerlink" title="服务器端环境"></a>服务器端环境</h4><p>首先在<a target="_blank" rel="noopener" href="https://wiki.t-firefly.com/zh_CN/ROC-RK3588S-PC/usage_npu.html">firefly官网中的RK3588S中的NPU使用</a>中或者<a href="wget https://bj.bcebos.com/fastdeploy/third_libs/rknpu2_device_install_1.4.0.zip">百度提供的下载链接</a>下载RKNN SDK，然后由于目前RKNN ToolKit2只支持python3.6或者python3.8，所以在linux-ubuntu的电脑运行如下代码，安装对应代码</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line"># 创建python3.<span class="number">8</span>环境</span><br><span class="line">conda create -n rknn2 python=<span class="number">3</span>.<span class="number">8</span></span><br><span class="line">conda activate rknn2</span><br><span class="line"></span><br><span class="line"># 安装 rknn-toolkit2</span><br><span class="line">pip install numpy==<span class="number">1</span>.<span class="number">16</span>.<span class="number">6</span></span><br><span class="line">sudo apt-get install libxslt1-dev zlib1g zlib1g-dev libglib2.<span class="number">0</span>-<span class="number">0</span> libsm6 libgl1-mesa-glx libprotobuf-dev gcc g++</span><br><span class="line">pip install rknn-toolkit2/packages/rknn_toolkit2-<span class="number">1</span>.<span class="number">3</span>.<span class="number">0</span>_11912b58-cp38-cp38-linux_x86_64.whl</span><br><span class="line"></span><br><span class="line"># 安装yaml</span><br><span class="line">pip install pyyaml</span><br></pre></td></tr></table></figure>
+<h4 id="板端环境"><a href="#板端环境" class="headerlink" title="板端环境"></a>板端环境</h4><p>首先将板子从原生的安卓刷系统为ubuntu系统，然后在<a target="_blank" rel="noopener" href="https://wiki.t-firefly.com/zh_CN/ROC-RK3588S-PC/usage_npu.html">firefly官网中的RK3588S中的NPU使用</a>中下载RKNN SDK，由于目前的rknn_toolkit2_lite2只支持python3.7或者python3.9，所以输入下列代码安装rknn_toolkit2_lite2</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="built_in">cd</span> rknpu2_device_install</span><br><span class="line"># RK3588运行以下代码</span><br><span class="line">sudo rknn_install_rk3588.sh</span><br></pre></td></tr></table></figure>
+<h3 id="模型转换步骤"><a href="#模型转换步骤" class="headerlink" title="模型转换步骤"></a>模型转换步骤</h3><ul>
+<li><p>首先通过任务的不同需求训练出神经网络</p>
+</li>
+<li><p>通过各类转换工具将模型转换为onnx</p>
+</li>
+<li><p>将onnx模型通过PKNN-Toolkit2转换为RKNN格式</p>
 <ul>
-<li><p>在生成对应的$y_t$的时候，其使用的C是相同的，即无论生成哪个单词，其输入序列中的任意组成部分对目标的影响力是相同的，没有区别</p>
+<li><p>利用RKNN-Toolkit2的Python API接口导出RKNN格式的模型。操作流程如下</p>
+<p>1、 创建RKNN对象，初始化RKNN SDK环境。</p>
+<p>2、 调用config接口设置模型预处理参数。</p>
+<p>3、 调用对应加载第3方框架接口，加载TensorFlow、Pytorch、ONNX模型。</p>
+<p>4、 调用build接口构建RKNN模型。</p>
+<p>5、 调用export_rknn接口导出RKNN模型</p>
 </li>
-<li><p>将整个序列的信息压缩在了一个语义编码C中，导致序列长度极长，容易引起梯度消失，信息损失等问题。</p>
+</ul>
+<p>对应文档查看下载包内的<strong>Rockchip_User_Guide_RKNN_Toolkit2_CN</strong></p>
 </li>
 </ul>
-<h3 id="Attention-注意力机制"><a href="#Attention-注意力机制" class="headerlink" title="Attention 注意力机制"></a>Attention 注意力机制</h3><p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/v2-9407244671e4bc4fa32da7e66fba25bf_720w.jpg" alt="img"></p>
-<p>故引入Attention 注意力机制：’’机器学习’’翻译而得’machine learning’ ，我们显然希望在翻译得到machine的时候，机器的权重较大，得到learning的时候学习的权重较大。对应到上图及为红色的权重大。这样的权重机制便可理解为注意力机制</p>
-<p>对应的模型框图如下所示：</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/2.png" alt="在这里插入图片描述"></p>
-<p>即不再使用一个单一的语义编码C，而是使用多个$C_1,C_2..C_N$的编码，预测Y的时候，Y的注意力集中在语义编码$C_i$上，则使用对应的$C_i$，从而模拟人的注意力机制。那如何计算对应的$C_1,C_2..C_N$，假设$\alpha_{ij}$表示权值分布，$h_j$表示第j个输入对应的隐藏层输出，则$C_i$公式可如下所示：</p>
-<script type="math/tex; mode=display">
-C_i=\sum_{j=1}^n\alpha_{ij}h_j</script><p>那问题就转变为了$\alpha_{ij}$的计算</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/3.png" alt="在这里插入图片描述"></p>
-<p>$\alpha_{ij}$的计算：decoder上一时刻的输出值$Y_{i-1}$与上一时刻传入的隐藏层的值$S_{i-1}$进行计算生成$H_i$，然后计算$H_i$与$h_1，h_2，h_3…h_m$的相关性，得到相关性评分$[f_1,f_2,f_3…f_m]$，然后对$F_i$进行softmax就得到注意力分配$α_{ij}$。然后将encoder的输出值h与对应的概率分布αij进行点乘求和，就能得到注意力attention值了。</p>
-<h4 id="Attention机制的本质思想"><a href="#Attention机制的本质思想" class="headerlink" title="Attention机制的本质思想"></a>Attention机制的本质思想</h4><p>为更深刻的了解上述过程，Attention机制的本质思想可如下所示：</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/4.png" alt="在这里插入图片描述"></p>
-<p>即对于source而言，其由Key和Value构成的数据对构成，给定Target中的某个元素query，通过计算query与key的相似度从而得到query和key之间的相似性或者相关性，从而得到对应的权重系数。然后按照权重系数对value进行加权求和。</p>
-<p>上述所提到的相似度计算一般有如下三种方式：点积、cosine相似性和MLP网络，对应的计算公式如下所示：</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/20200322200849586.png" alt="在这里插入图片描述"></p>
-<h4 id="Attension框图"><a href="#Attension框图" class="headerlink" title="Attension框图"></a>Attension框图</h4><p>Attention过程总体上均可如下图所示：</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/5.png" alt="在这里插入图片描述"></p>
-<p>阶段1：Query与每一个Key计算相似性得到相似性评分s<br>阶段2：将s评分进行softmax转换成[0,1]之间的概率分布$\alpha$<br>阶段3：将[$\alpha_1,\alpha_2,\alpha_3….\alpha_n$]作为权值矩阵对Value进行加权求和得到最后的Attention值</p>
-<h4 id="Attension的优缺点"><a href="#Attension的优缺点" class="headerlink" title="Attension的优缺点"></a>Attension的优缺点</h4><ul>
-<li>优点：<ul>
-<li>速度快。Attention机制不再依赖于RNN，解决了RNN不能并行计算的问题。这里需要说明一下，基于Attention机制的seq2seq模型，因为是有监督的训练，所以咱们在训练的时候，在decoder阶段并不是说预测出了一个词，然后再把这个词作为下一个输入，因为有监督训练，咱们已经有了target的数据，所以是可以并行输入的，可以并行计算decoder的每一个输出，但是再做预测的时候，是没有target数据地，这个时候就需要基于上一个时间节点的预测值来当做下一个时间节点decoder的输入。所以节省的是训练的时间。</li>
-<li>效果好。效果好主要就是因为注意力机制，能够获取到局部的重要信息，能够抓住重点。</li>
-</ul>
-</li>
-<li>缺点：<ul>
-<li>1.只能在Decoder阶段实现并行运算，Encoder部分依旧采用的是RNN，LSTM这些按照顺序编码的模型，Encoder部分还是无法实现并行运算，不够完美。</li>
-<li>2.就是因为Encoder部分目前仍旧依赖于RNN，所以对于中长距离之间，两个词相互之间的关系没有办法很好的获取。</li>
-</ul>
-</li>
-</ul>
-<h3 id="Self-Attension"><a href="#Self-Attension" class="headerlink" title="Self-Attension"></a>Self-Attension</h3><p>针对于Attension的缺点，提出Self-Attension，其输入sourve与输出Target的内容是相同的，其具体的计算过程与基本原理与Attension是完全相同的，其的Key=Value=Query。其优点为：可以捕获句子中长距离的相互关联的特征，可以通过一个计算步骤直接将其联系起来。且其可以增加计算的并行性，一次性解决了Attension的两个缺点。</p>
-<h3 id="Transformer"><a href="#Transformer" class="headerlink" title="Transformer"></a>Transformer</h3><p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/6.png" alt="在这里插入图片描述"></p>
-<p>Transformer的结构如上所示，主要由四个部分组成：Input、Encoder、Decoder、Output。其中最为重要的为encoder和decoder部份。对于Transformer而言，其的超参数只有两个，一个为N，即Encoder block重复几次，另一个为每一层对应的长度，在transformer中，其将每一层的长度限制为512不变。所以整个Transformer中只有两个超参数。</p>
-<h4 id="Input"><a href="#Input" class="headerlink" title="Input"></a>Input</h4><p>对于Input部分，一般而言其输入都是将文字序列转化为vector，即经过word2vec、one-hot等形式的编码之后得到的向量。由于transformer的方法在整个计算过程中完全是基于self-Attension的，其整个计算过程中是没办法获取词语位置信息的。而词语的位置信息对句子的意思有巨大的影响。为了强调位置在输入之中的重要性，我们需要给每一个词向量添加一个位置编码，即上图中所示的Positional Encoding。</p>
-<p>Positional Encoding的常用方式有以下两种：</p>
-<ul>
-<li>通过数据学习的到positional Encoding ，如google所提出的bert</li>
-<li>通过正余弦位置编码等编码方式进行编码，如Attension is all you need中。位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，位置向量维度必须和词向量的维度一致。过程如上图，PE（positional encoding）计算公式如下：</li>
+<h3 id="默认转换好的模型在RK3588s上的使用（RKNPU2）"><a href="#默认转换好的模型在RK3588s上的使用（RKNPU2）" class="headerlink" title="默认转换好的模型在RK3588s上的使用（RKNPU2）"></a>默认转换好的模型在RK3588s上的使用（RKNPU2）</h3><ul>
+<li>首先针对于自身平台下载gcc交叉编译器 gcc-9.3.0-x86_64_arrch64-linux-gnu</li>
+<li>然后进入/rknpu2_1.3.0/examples 文件夹</li>
+<li>假定想要测试转换好了的yolov5，则进入对应的rknn_yolov5_demo文件夹</li>
+<li>使用./build-linux_RK3588.sh进行编译</li>
+<li>进入./install/rknn_yolov5_demo_linux 文件夹使用./rknn_yolov5_demo ./model/RK3588/yolov5s-640-640.rknn ./model/bus.jpg 进行测试</li>
 </ul>
-<script type="math/tex; mode=display">
-P E (pos,2i) = sin(pos/10000^{2i/d_{model}} )\\
-P E (pos,2i+1) = cos(pos/10000^{2i/d_{model}} )</script><p>在上述公式中，pos为绝对位置，$d_{model}$为词向量的维度。</p>
-<h4 id="Encoder"><a href="#Encoder" class="headerlink" title="Encoder"></a>Encoder</h4><h5 id="Multi-Head-Attention"><a href="#Multi-Head-Attention" class="headerlink" title="Multi-Head Attention"></a>Multi-Head Attention</h5><p>假设经过Input之后输出的Embedding Vector为$X_1,X_2….$，在Attention计算的的时候，需要$X_i$所对应的Query、Keys、Values向量，这些向量由Input$X_i$与三个权值矩阵$W^Q,W^K,W^V$相乘求得，其对应图示如下所示：其中权值矩阵是可以通过学习优化的</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/7.png" alt="在这里插入图片描述"></p>
-<p>其中X的每一行代表一个输入，一行的长度代表了Embedding的长度。</p>
-<p>依据之前对attention的描述，以及上图的对$X,W,Q,K,V$的描述，我们可以类似的将其的计算过程表示为如下图所示：</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/attention.png" alt="在这里插入图片描述"></p>
-<p>其具体计算过程可概括如下：</p>
-<ol>
-<li>输入序列中每个单词之间的相关性得分，在Transformer中使用的是点积法，就是用Q中每一个向量与K中每一个向量计算点积，具体到矩阵的形式为：$s c o r e = Q ⋅ K^T$ socre是一个(2,2)的矩阵</li>
-<li>对于输入序列中每个单词之间的相关性得分进行归一化，归一化的目的主要是为了训练时梯度能够稳定。$score = score/\sqrt{d_k}$ ，dk就是K的维度</li>
-<li>通过softmax函数，将每个单词之间的得分向量转换成[0,1]之间的概率分布，同时更加凸显单词之间的关系。经过softmax后，score转换成一个值分布在[0,1]之间的(2,2)α概率分布矩阵</li>
-<li>根据每个单词之间的概率分布，然后乘上对应的Values值，α与V进行点积， $Z = softmax(score)\cdot V$，V的为维度是(2,64)，(2,2)x(2,64)最后得到的Z是(2,64)维的矩阵</li>
-</ol>
-<p>从self-attention到transformer中的multi-head attention，可以对其简单的理解为从：通过Embedding之后生成的vector X通过与多组的不同的权值矩阵$W^Q,W^K,W^V$相乘，求得多组的Query、keys、values。然后依据上述计算过程计算得出多个Z，然后将上述得到的多个Z矩阵进行拼接求得最终的输出矩阵。</p>
-<h5 id="Add-amp-Norm"><a href="#Add-amp-Norm" class="headerlink" title="Add  &amp; Norm"></a>Add  &amp; Norm</h5><p>在multihead attention之后的是Add &amp; Norm层，其中Add层采用的是resnet的想法，残差链接。Norm层采用的是Layer Normalization（LN）。一般常采用的还有另一种Normalization方法是Batch Normalization，其的对比如下图：</p>
-<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/BNLN.png" alt="在这里插入图片描述"></p>
-<h5 id="Feed-Forward-Networks"><a href="#Feed-Forward-Networks" class="headerlink" title="Feed-Forward Networks"></a>Feed-Forward Networks</h5><p>在Add&amp;Norm之后的是Feed-Forward Networks，即一个前馈神经网络，在Transformer中直接使用了一个两层的神经网络，激活函数使用的Relu引入非线性因素，并在最终计算之后的结果输入encoder中。其公式大致如下所示</p>
-<script type="math/tex; mode=display">
-FFN(x)=max(0,x W_1+b_1 )W_2     +b_2</script><h4 id="Decoder"><a href="#Decoder" class="headerlink" title="Decoder"></a>Decoder</h4><h5 id="Decoder在不同模式下的输入"><a href="#Decoder在不同模式下的输入" class="headerlink" title="Decoder在不同模式下的输入"></a>Decoder在不同模式下的输入</h5><p>Decoder在训练和预测的情况下，其对应的输入是有所不同的，如之前的transformer模型结构所示，其中的Outputs(shifted right)的输入只有在训练的时候输入。在训练的时候，假设任务为中译英，Inputs为我爱你，在训练的时候，Outputs则应输入I love you，而在预测的时候 ，Outputs初始输入为起始符，然后每次的输入是上一时刻的Transformer的输出。</p>
-<h5 id="Masked-Multi-Head-Attention"><a href="#Masked-Multi-Head-Attention" class="headerlink" title="Masked Multi-Head Attention"></a>Masked Multi-Head Attention</h5><p>与Encoder的Multi-Head Attention计算原理一样，只是多加了一个mask码。mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 padding mask 和 sequence mask。</p>
-<ol>
-<li><p>padding mask</p>
-<p>padding mask 实际上在encoder和decoder两个模块中都存在，padding mask主要处理的问题是输入序列长度不一致的问题。所以我们要对输入序列进行对齐。具体来说，就是给在较短的序列后面填充 0。但是如果输入的序列太长，则是截取左边的内容，把多余的直接舍弃。因为这些填充的位置，其实是没什么意义的，所以我们的attention机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。<br>具体的做法是，把这些位置的值加上一个非常大的负数(负无穷)，这样的话，经过 softmax，这些位置的概率就会接近0！</p>
+<h3 id="默认转换好的模型在RK3588s上的使用（RKNN-ToolKit2-lite）"><a href="#默认转换好的模型在RK3588s上的使用（RKNN-ToolKit2-lite）" class="headerlink" title="默认转换好的模型在RK3588s上的使用（RKNN-ToolKit2-lite）"></a>默认转换好的模型在RK3588s上的使用（RKNN-ToolKit2-lite）</h3><ul>
+<li>利用conda 创建py36或者py38的环境</li>
+<li>进入rknn-toolkit2-1.3.0/rknn_toolkit_lite2文件夹，进入package文件夹安装对应的whl</li>
+<li>进入examples/inference_with_lite文件夹，使用python test.py进行测试</li>
+</ul>
+<h2 id="使用百度-Fast-Deploy相关工具进行部署"><a href="#使用百度-Fast-Deploy相关工具进行部署" class="headerlink" title="使用百度 Fast Deploy相关工具进行部署"></a>使用百度 Fast Deploy相关工具进行部署</h2><p>官方视频例程大都是老版本的配置，其在现有的工程下的使用比较落后。故大致步骤可和<a target="_blank" rel="noopener" href="https://aistudio.baidu.com/aistudio/education/preview/3610910">官方视频</a>内相同，但具体节点的使用方式有所差异。</p>
+<h3 id="环境配置"><a href="#环境配置" class="headerlink" title="环境配置"></a>环境配置</h3><p>对应部署的环境配置分为板载RK3588s上的环境配置和个人PC上的环境配置，对应需要配置的环境如下所示</p>
+<p><img src="/2023/03/04/RK3588s%E9%83%A8%E7%BD%B2%E7%9B%B8%E5%85%B3-NEW/image-20230221221155971.png" alt="image-20230221221155971"></p>
+<p>RKNN官方例程中的服务器端环境和板端环境均需要进行配置，然后针对于FastDeploy进行环境配置。</p>
+<p>FastDeploy在板端的安装（c++）</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br></pre></td><td class="code"><pre><span class="line">git clone https://github.com/PaddlePaddle/FastDeploy.git</span><br><span class="line"><span class="built_in">cd</span> FastDeploy</span><br><span class="line"><span class="built_in">mkdir</span> build &amp;&amp; <span class="built_in">cd</span> build</span><br><span class="line"></span><br><span class="line"># Only a few key configurations are introduced here, see README.<span class="built_in">md</span> <span class="keyword">for</span> details.</span><br><span class="line"># -DENABLE_ORT_BACKEND:     Whether to enable ONNX model, default OFF</span><br><span class="line"># -DENABLE_RKNPU2_BACKEND:  Whether to enable RKNPU model, default OFF</span><br><span class="line"># -RKNN2_TARGET_SOC:        Compile the SDK board model. Enter RK356X or RK3588 with case sensitive required.</span><br><span class="line">cmake ..  -DENABLE_ORT_BACKEND=ON \</span><br><span class="line">	      -DENABLE_RKNPU2_BACKEND=ON \</span><br><span class="line">	      -DENABLE_VISION=ON \</span><br><span class="line">	      -DRKNN2_TARGET_SOC=RK3588 \</span><br><span class="line">          -DCMAKE_INSTALL_PREFIX=$&#123;PWD&#125;/fastdeploy-<span class="number">0</span>.<span class="number">0</span>.<span class="number">3</span></span><br><span class="line">make -j8</span><br><span class="line">make install</span><br></pre></td></tr></table></figure>
+<p>FastDeploy在板端的安装（python）</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br></pre></td><td class="code"><pre><span class="line">git clone https://github.com/PaddlePaddle/FastDeploy.git</span><br><span class="line"><span class="built_in">cd</span> FastDeploy</span><br><span class="line"><span class="built_in">cd</span> python</span><br><span class="line"></span><br><span class="line">export ENABLE_ORT_BACKEND=ON</span><br><span class="line">export ENABLE_RKNPU2_BACKEND=ON</span><br><span class="line">export ENABLE_VISION=ON</span><br><span class="line">export RKNN2_TARGET_SOC=RK3588</span><br><span class="line">python3 setup.py build</span><br><span class="line">python3 setup.py bdist_wheel</span><br><span class="line"></span><br><span class="line"><span class="built_in">cd</span> dist</span><br><span class="line"></span><br><span class="line">pip3 install fastdeploy_python-<span class="number">0</span>.<span class="number">0</span>.<span class="number">0</span>-cp39-cp39-linux_aarch64.whl</span><br></pre></td></tr></table></figure>
+<p>个人PC环境配置及模型转换</p>
+<p>本次尝试在对应远程服务器上进行环境部署，该服务器主要负责对应模型的训练，模型的转换，目前要求为linux-64bit环境。</p>
+<ul>
+<li><p>假定使用的是paddleDetection训练得到想要的模型，首先使用PaddleDetection中的/tools/export_model.py对训练得出的模型进行导出，将Paddle动态图转换为静态图，对应转换模型代码为</p>
+<ul>
+<li>```cmd<br>python ./tools/export_model.py —config configs/picodet/picodet_s_416_visdrone.yml<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">- 转换后的模型会存放于</span><br><span class="line"></span><br><span class="line">- ```cmd</span><br><span class="line">  ./output_inference/picodet_s_416_visdrone</span><br></pre></td></tr></table></figure>
 </li>
-<li><p>sequence mask</p>
-<p>sequence mask 只存在于decoder的第一个Masked Multi-Head Attention 中。这样做是为了使得 decoder 不能看见未来的信息。也就是对于一个序列中的第i个token解码的时候只能够依靠i时刻之前(包括i)的的输出，而不能依赖于i时刻之后的输出。因此我们要采取一个遮盖的方法(Mask)使得其在计算self-attention的时候只用i个时刻之前的token进行计算。<br>那么具体的做法为：产生一个上三角矩阵，上三角的值全为0。把这个矩阵作用在每一个序列上，就可以达到我们的目的。</p>
+</ul>
 </li>
-</ol>
-<h5 id="Add＆Normalize"><a href="#Add＆Normalize" class="headerlink" title="Add＆Normalize"></a>Add＆Normalize</h5><p>Add＆Normalize与Encoder中一样</p>
-<h5 id="Multi-Head-Attention-1"><a href="#Multi-Head-Attention-1" class="headerlink" title="Multi-Head Attention"></a>Multi-Head Attention</h5><p>这是decoder中的第二个Multi-Head Attention。这个Multi-Head Attention相对于encoder中的Multi-Head Attention而言，其不是Self Attention的。在decoder中，它的输入Query来自于Masked Multi-Head Attention的输出，Keys和Values来自于Encoder中最后一层的输出。</p>
-<p>对于decoder中的两个Multi-Head Attention而言：</p>
-<ul>
-<li>第一个Masked Multi-Head Attention是为了得到之前已经预测输出的信息，相当于记录当前时刻的输入之间的信息的意思。</li>
-<li>第二个Multi-Head Attention是为了通过当前输入的信息得到下一时刻的信息，也就是输出的信息，是为了表示当前的输入与经过encoder提取过的特征向量之间的关系来预测输出。</li>
-</ul>
-<p>经过了第二个Multi-Head Attention之后的Feed Forward Network与Encoder中一样，然后就是输出进入下一个decoder，如此经过6层decoder之后到达最后的输出层。</p>
-<h4 id="Output"><a href="#Output" class="headerlink" title="Output"></a>Output</h4><p>最终我们所得到的Decoder的输出为vector，我们将其通过Linear进行线性变换，然后经过SoftMax得到对应的概率分布，然后将其通过词典对应从而输出概率最大的对象作为我们的预测输出。</p>
-<h4 id="优点"><a href="#优点" class="headerlink" title="优点"></a>优点</h4><ol>
-<li>效果好且可以并行训练，速度快</li>
-<li>其设计已经足够有创新，因为其抛弃了在NLP中最根本的RNN或者CNN并且取得了非常不错的效果，算法的设计非常精彩</li>
-<li>Transformer的设计最大的带来性能提升的关键是将任意两个单词的距离是1，这对解决NLP中棘手的长期依赖问题是非常有效的。</li>
-<li>Transformer不仅仅可以应用在NLP的机器翻译领域，甚至可以不局限于NLP领域，是非常有科研潜力的一个方向。</li>
-</ol>
-<h4 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</h4><ol>
-<li>完全基于self-attention，对于词语位置之间的信息有一定的丢失，虽然加入了positional encoding来解决这个问题，但也还存在着可以优化的地方。</li>
-<li>粗暴的抛弃RNN和CNN虽然非常炫技，但是它也使模型丧失了捕捉局部特征的能力，RNN + CNN + Transformer的结合可能会带来更好的效果。</li>
-</ol>
+<li><p>进一步将模型从静态的paddle模型转化到onnx模型，需要使用Paddle2ONNX库，该库的安装命令使用</p>
+<ul>
+<li><p>```cmd<br>pip install paddle2onnx    </p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">- 对应的模型的转换，从静态paddle模型转换为onnx格式，使用命令，对应[官网](https://github.com/PaddlePaddle/Paddle2ONNX)，（在Paddle2ONNX文件夹内使用）</span><br><span class="line"></span><br><span class="line">- ```cmd</span><br><span class="line">  #静态图转onnx模型</span><br><span class="line">  paddle2onnx --model_dir picodet_s_416_coco_lcnet --model_filename model.pdmodel --params_filename model.pdiparams --save_file  picodet_s_416_coco_lcnet/picodet_s_416_coco_lcnet.onnx --enable_dev_version True</span><br><span class="line">  #固定模型输入形状，改为静态shape</span><br><span class="line">  python -m paddle2onnx.optimize \--input_modelpicodet_s_416_coco_lcnet/picodet_s_416_coco_lcnet.onnx \--output_modelpicodet_s_416_coco_lcnet/picodet_s_416_coco_lcnet.onnx \--input_shape_dict&quot;&#123;&#x27;image&#x27;:[1,3,416,416]&#125;&quot;</span><br></pre></td></tr></table></figure>
+</li>
+<li><p>注意，若ONNX不支持对应的算子，如自适应池化层，需要对得到的模型进行输入的固定，即改为静态shape。对应的查看方式为转换为onnx格式文件之后，使用[onnx结构查询——netron][<a target="_blank" rel="noopener" href="https://netron.app/]对onnx模型结构进行查看。">https://netron.app/]对onnx模型结构进行查看。</a></p>
+</li>
+</ul>
+</li>
+<li><p>然后将得到的onnx模型转换为对应的rknn模型，需要书写转换用到的yaml文件</p>
+<ul>
+<li><p>转换的yaml书写要点可见<a target="_blank" rel="noopener" href="https://www.github.com/PaddlePaddle/FastDeploy/blob/develop/docs/cn/faq/rknpu2/export.md">官网</a></p>
+<ul>
+<li><p>大体上如下所示</p>
+</li>
+<li><p>```cmd<br>mean:<br>  -</p>
+<pre><code>- 128.5
+- 128.5
+- 128.5
+</code></pre><p>std:<br>  -</p>
+<pre><code>- 128.5
+- 128.5
+- 128.5
+</code></pre><p>model_path: “./scrfd_500m_bnkps_shape640x640.onnx”<br>outputs_nodes:<br>do_quantization: True<br>dataset: “./datasets.txt”<br>output_folder: “./“</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"></span><br><span class="line">- 转换用的语句为</span><br><span class="line"></span><br><span class="line">  - ```cmd</span><br><span class="line">    python tools/rknpu2/export.py --config_path tools/rknpu2/config/RK3588/picodet_s_416_coco_lcnet.yaml</span><br></pre></td></tr></table></figure>
+</li>
+<li><p>对应使用的为fastdeploy内的对rknpu2的export函数，得到对应的rknn模型</p>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+<h3 id="RK3588s环境配置及实机程序运行"><a href="#RK3588s环境配置及实机程序运行" class="headerlink" title="RK3588s环境配置及实机程序运行"></a>RK3588s环境配置及实机程序运行</h3><ul>
+<li><p>将对应的rknn模型和cfg，对应图像拷贝到RK3588板子上，并运行<a target="_blank" rel="noopener" href="https://github.com/PaddlePaddle/FastDeploy/tree/develop/examples/vision/detection/paddledetection/rknpu2/python">官网</a>提供的infer代码进行推理检测</p>
+<ul>
+<li>```python<br>import fastdeploy as fd<br>import cv2<br>import os</li>
+</ul>
+</li>
+</ul>
+<pre><code>def parse_arguments():
+    import argparse
+    import ast
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        &quot;--model_file&quot;,
+        default=&quot;./picodet_s_416_coco_lcnet/picodet_s_416_coco_lcnet_rk3588_unquantized.rknn&quot;,
+        help=&quot;Path of rknn model.&quot;)
+    parser.add_argument(
+        &quot;--config_file&quot;,
+        default=&quot;./picodet_s_416_coco_lcnet/infer_cfg.yml&quot;,
+        help=&quot;Path of config.&quot;)
+    parser.add_argument(
+        &quot;--image&quot;,
+        type=str,
+        default=&quot;./000000014439.jpg&quot;,
+        help=&quot;Path of test image file.&quot;)
+    return parser.parse_args()
+
+
+if __name__ == &quot;__main__&quot;:
+    args = parse_arguments()
+
+    model_file = args.model_file
+    params_file = &quot;&quot;
+    config_file = args.config_file
+
+    # 配置runtime，加载模型
+    runtime_option = fd.RuntimeOption()
+    runtime_option.use_rknpu2()
+
+    model = fd.vision.detection.PPYOLOE(
+        model_file,
+        params_file,
+        config_file,
+        runtime_option=runtime_option,
+        model_format=fd.ModelFormat.RKNN)
+    model.preprocessor.disable_normalize()
+    model.preprocessor.disable_permute()
+    model.postprocessor.apply_decode_and_nms()
+
+    # 预测图片分割结果
+    im = cv2.imread(args.image)
+    result = model.predict(im)
+    print(result)
 
+    # 可视化结果
+    vis_im = fd.vision.vis_detection(im, result, score_threshold=0.5)
+    cv2.imwrite(&quot;visualized_result.jpg&quot;, vis_im)
+    print(&quot;Visualized result save in ./visualized_result.jpg&quot;)
+```
+</code></pre>
       
     </div>
 
@@ -997,7 +1844,7 @@ <h4 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -1011,7 +1858,7 @@ <h4 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/" class="post-title-link" itemprop="url">目标检测经典论文阅读</a>
+            <a href="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/" class="post-title-link" itemprop="url">Towards Data-Efficient Detection Transformer</a>
         </h2>
 
         <div class="post-meta">
@@ -1020,16 +1867,10 @@ <h2 class="post-title" itemprop="name headline">
                 <i class="far fa-calendar"></i>
               </span>
               <span class="post-meta-item-text">发表于</span>
+              
 
-              <time title="创建时间：2022-07-26 22:26:51" itemprop="dateCreated datePublished" datetime="2022-07-26T22:26:51+08:00">2022-07-26</time>
+              <time title="创建时间：2022-08-22 21:01:24 / 修改时间：21:34:28" itemprop="dateCreated datePublished" datetime="2022-08-22T21:01:24+08:00">2022-08-22</time>
             </span>
-              <span class="post-meta-item">
-                <span class="post-meta-item-icon">
-                  <i class="far fa-calendar-check"></i>
-                </span>
-                <span class="post-meta-item-text">更新于</span>
-                <time title="修改时间：2022-08-22 21:34:23" itemprop="dateModified" datetime="2022-08-22T21:34:23+08:00">2022-08-22</time>
-              </span>
 
           
 
@@ -1042,123 +1883,171 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="SSD-Single-Shot-MultiBox-Detector"><a href="#SSD-Single-Shot-MultiBox-Detector" class="headerlink" title="(SSD) Single Shot MultiBox Detector"></a>(SSD) Single Shot MultiBox Detector</h2><h3 id="SSD主要有以下几个主要特点"><a href="#SSD主要有以下几个主要特点" class="headerlink" title="SSD主要有以下几个主要特点"></a>SSD主要有以下几个主要特点</h3><ul>
-<li>特征提取主干网络：VGG16，去除全连接层fc8，fc6 和 fc7层转换为卷积层，pool5不进行分辨率减小，在fc6上使用dilated convolution弥补损失的感受野；并且增加了一些分辨率递减的卷积层；</li>
-<li>SSD摈弃了proposal的生成阶段，使用anchor机制，这里的anchor就是位置和大小固定的box，可以理解成事先设置好的固定的proposal</li>
-<li>SSD使用不同深度的卷积层预测不同大小的目标，对于小目标使用分辨率较大的较低层，即在低层特征图上设置较小的anchor，高层的特征图上设置较大anchor</li>
-<li>预测模块：使用3x3的卷积对每个anchor的类别和位置直接进行回归</li>
-<li>SSD使用的data augmentation对效果影响很大</li>
-</ul>
-<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/v2-6c94c262502872e9d667cd03959d1f2e_720w.jpg" alt="img"></p>
-<h3 id="SSD训练时的流程："><a href="#SSD训练时的流程：" class="headerlink" title="SSD训练时的流程："></a>SSD训练时的流程：</h3><ul>
-<li>生成初始框<ul>
-<li>SSD的初始框不是自适应的，是根据预先设置好的anchor生成规则进行生成的，其无需利用输入图像的信息进行生成，这也导致有一部分的先验信息没有被利用到。</li>
-</ul>
-</li>
-<li>先验框匹配<ul>
-<li>即label assignment ，即为判断训练图片中的目标真实框与哪个先验框来进行匹配，从而使匹配的框进行位置的预测。SSD中使用的先验框匹配的方法是IOU。</li>
-</ul>
-</li>
-<li>损失计算<ul>
-<li>$L(x,c,l,g) = \frac{1}{N}(L_{conf}(x,c)+\alpha{L_{loc}(x,l,g)}$ 其中$N$为正样本的个数</li>
-<li>位置损失计算：$L_{loc}(x,l,g) = \sum^{N}_{i\in{Pos}}\sum_{m\in{cx,cy,w,h}}{x^k_{ij}smooth_{L_1}(l^m_i - g^m_j)}$</li>
-<li>类别损失计算：$L_{conf}(x,c) = - \sum^N_{i\in{Pos}}{x^p_{ij}log(C^p_i)}- \sum_{i\in{Neg}}{log(C^o_{i})} \quad where \quad C^p_{i}=\frac{exp(c^p_{i})}{\sum_{p}{exp(c^p_i)}}$</li>
-<li>$\alpha$设置为1</li>
-</ul>
-</li>
-</ul>
-<h2 id="（FPN）Feature-Pyramid-Networks-for-Object-Detection"><a href="#（FPN）Feature-Pyramid-Networks-for-Object-Detection" class="headerlink" title="（FPN）Feature Pyramid Networks for Object Detection"></a>（FPN）Feature Pyramid Networks for Object Detection</h2><h3 id="FPN解决的问题："><a href="#FPN解决的问题：" class="headerlink" title="FPN解决的问题："></a>FPN解决的问题：</h3><p>FPN是目前较为先进的一种目标检测中的neck结构（即图片经过特征提取网络backbone进行图片特征提取之后以及检测头head进行物体检测之间的承上启下的部分），其主要的作用是对提取到的特征进行再加工和合理利用。</p>
-<h3 id="FPN的结构以及相对于以前结构的改进："><a href="#FPN的结构以及相对于以前结构的改进：" class="headerlink" title="FPN的结构以及相对于以前结构的改进："></a>FPN的结构以及相对于以前结构的改进：</h3><ul>
-<li>(a)图像金字塔，即将图像做成不同的scale，然后不同scale的图像生成对应的不同scale的特征。<ul>
-<li>优点：每一种尺度的图像进行特征提取，能够产生多尺度的特征表示，并且所有等级的特征图都具有较强的语义信息，甚至包括一些高分辨率的特征图。</li>
-<li>缺点：<ul>
-<li>增加了时间成本</li>
-<li>内存需求巨大，从而导致用图像金字塔的形式训练一个端到端的深度神经网络变得不可行</li>
-<li>如果只在测试阶段使用图像金字塔，那么会由于训练时网络只是针对于某一个特点的分辨率进行训练，推理时产生“矛盾”。</li>
-</ul>
-</li>
-</ul>
-</li>
-<li>(b)像SPP net，Fast RCNN，Faster RCNN是采用这种方式，即仅采用网络最后一层的特征，==特征利用不充分，没有利用到多尺度的特征==。</li>
-<li>(c)像<strong>SSD（Single Shot Detector）</strong>采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。作者认为==SSD算法中没有用到足够低层的特征，而在作者看来足够低层的特征对于检测小物体是很有帮助的==。</li>
-<li>(d)FPN这种网络结构，能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。本文作者是采用这种方式，顶层特征通过上采样和低层特征做融合，而且每层都是独立预测的。后续例如YOLOv3 4都采用了类似的结构。</li>
-</ul>
-<p>即如下图所示：</p>
-<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/89b55dd2738f4f4c99fd315cd59304b3.png" alt="在这里插入图片描述"></p>
-<h3 id="FPN的主要组成部分及解析："><a href="#FPN的主要组成部分及解析：" class="headerlink" title="FPN的主要组成部分及解析："></a>FPN的主要组成部分及解析：</h3><p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/d12943d3e5da404b9fd07dad4617fb09.png" alt="在这里插入图片描述"></p>
-<p>FPN的主要由三部分组成：<strong>自底向上</strong>，<strong>自顶向下</strong>，<strong>横向连接</strong></p>
-<h4 id="自底向上"><a href="#自底向上" class="headerlink" title="自底向上"></a>自底向上</h4><p>自底向上的网络是前馈网络，即网络的backbone生成了feature map之后，通过step=2进行每一级的降采样。</p>
-<h4 id="自顶向下"><a href="#自顶向下" class="headerlink" title="自顶向下"></a>自顶向下</h4><p>自顶向下的过程是通过上采样的方式进行实现的，实现的方法为最近邻插值法，示意图如下：</p>
-<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/b3b55c106933490ea832bfcbe4f9b6ee.png" alt="在这里插入图片描述"></p>
-<h4 id="横向连接"><a href="#横向连接" class="headerlink" title="横向连接"></a>横向连接</h4><p>横向连接的实现方式如figure 3所示，为：首先自底向上的过程中生成的feature map经过1x1的卷积层改变特征图的通道数然后与自顶向下过程生成的feature map进行直接元素与元素的相加。</p>
-<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3><p>FPN（Feature Pyramid Network）算法同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果。并且预测是在每个融合后的特征层上单独进行的，这和常规的特征融合方式不同。</p>
-<h2 id="Retina-Net-Focal-Loss-for-Dense-Object-Detection"><a href="#Retina-Net-Focal-Loss-for-Dense-Object-Detection" class="headerlink" title="(Retina Net)Focal Loss for Dense Object Detection"></a>(Retina Net)Focal Loss for Dense Object Detection</h2><p>RetinaNet 本篇论文的主要贡献来自于其所提出的Focal Loss和参数初始化的设置，其所提出的Retina Net相对来说贡献并没有那么关键。</p>
-<h3 id="稠密-dense-预测与稀疏-sparse-预测"><a href="#稠密-dense-预测与稀疏-sparse-预测" class="headerlink" title="稠密(dense)预测与稀疏(sparse)预测"></a>稠密(dense)预测与稀疏(sparse)预测</h3><p>在目前的目标检测的算法框架中，一般把所有的目标检测分为两个类别，two-stage和one-stage。</p>
-<p>其中，RCNN类的经典目标识别算法是属于two-stage的。其主要的识别流程可以看做：首先传入一张图片，依据算法中所提出的目标框算法，如faster-RCNN的RPN算法，例如RCNN的selective search算法在目标图片中预测出大量的bbox（100k的数量级），然后依据其算法从其中筛选出评价较好的目标框（1～2k的数量级），将其送入检测头中进行检测。在这个过程中，RPN和SS提取出大量的bbox的过程就是稠密预测，然后从其中提取出得分比较高的bbox的过程就是稀疏预测。</p>
-<p>在one-stage的经典算法中，以yolov3为例，其生成anchor的过程可以大致描述为在backbone生成feature map之后，以三个层级的feature map内的每个点为中心进行anchor的预测，最后生成的anchor的数量级大致为30～100k左右。</p>
-<h3 id="one-stage和two-stage效果差异分析"><a href="#one-stage和two-stage效果差异分析" class="headerlink" title="one-stage和two-stage效果差异分析"></a>one-stage和two-stage效果差异分析</h3><p>作者想分析one-stage的密集预测精度没有two-stage的高的原因，发现极度不平衡的前背景数量是导致精度下降的原因。因此作者想通过修改标准交叉熵损失函数去改善这种不平衡关系。Focal Loss用来通过一组难训练的稀疏预测框进行训练，防止简单大量的负样本对训练造成影响。</p>
-<p>训练效率低：大多数位置都是非常简单的负样本，对训练没有大的作用。<br>大量简单负样本甚至会损坏模型。(degenerate models)Focal Loss</p>
-<p>作者研究中发现，正负样本极度不均衡的问题会导致以下两个问题：</p>
-<ol>
-<li>训练效率低：大多数位置都是非常简单的负样本，对训练没有大的作用。</li>
-<li>大量简单负样本甚至会损坏模型。(degenerate models)</li>
-</ol>
-<h3 id="Focal-Loss"><a href="#Focal-Loss" class="headerlink" title="Focal Loss"></a>Focal Loss</h3><p>Focal Loss 是用于解决在训练过程中前景和背景之间极度不平衡的问题。</p>
-<p>Focal Loss是基于Cross Entropy，在Cross Entropy的基础上改进而来的。Cross Entropy的公式如下所示：</p>
-<script type="math/tex; mode=display">
-CE(p,y)=\left\{
-                            \begin{aligned}
-                                        -log(p)&&if\ y=1\\  
-                                         -log(1-p) && otherwise
-                             \end{aligned}
-\right.</script><p>其中$y=1$ 表示是前景，p为模型预测为前景的概率，对其进行简化可得：</p>
-<script type="math/tex; mode=display">
-p_t=\left\{
-                            \begin{aligned}
-                                        p&&if\ y=1\\  
-                                        1-p&& otherwise
-                             \end{aligned}
-\right.</script><p>所以我们可得：$CE(p, y) = CE(p t ) = − log(p t )$</p>
-<p>一种普遍的解决分类不平衡的方法为引入权重因子$\alpha$,让目标为前景时加$\alpha$,当目标是背景时加$1-\alpha$，可得引入权重因子之后的CE Loss可以写作：$CE(p_t ) = −α_t log(p_t )$。</p>
-<p>最终作者提出的Focal Loss的公式是在CE的基础上增加了一个调节因子$(1-p_t)^{\gamma}$,其中$\gamma$被称作可调节聚焦因子，Focal Loss公式如下所示：$FL(p_t ) = −(1 − p_t )^γ log(p_t )$，在不同的$\gamma$值的情况下，对应的Loss值与Ground Truth值如下图所示，其中当$\gamma=0$时，对应的是标准的CE曲线。</p>
-<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/v2-6ec9b40f6d0d936735c1c5b000a11e6f_1440w.jpg" alt="CV论文精读系列之目标检测模型（六）RetinaNet (Focal Loss)"></p>
-<p>对上图进行分析可得，当正负样本极不平衡的时候，对于标准的CE而言，即使是预测为0.9的样本，其对应的loss也较高，数量积累之后对应的loss会占主导作用。为了减少这个情况，取$\gamma$值进行调节，当值越大的，容易样本就越不重要。实际使用过程中，引入权重因子$\alpha$，最终式为$FL(p_t ) = −α_t (1 − p_t )^γ log(p_t )$</p>
-<h2 id="EfficientDet-Scalable-and-Efficient-Object-Detection"><a href="#EfficientDet-Scalable-and-Efficient-Object-Detection" class="headerlink" title="(EfficientDet) Scalable and Efficient Object Detection"></a>(EfficientDet) Scalable and Efficient Object Detection</h2><p>EfficientDet以EfficientNet作为网络的backbone，因此，首先对EfficientNet做一个基本介绍</p>
-<h3 id="EfficientNet-Rethinking-Model-Scaling-for-Convolutional-Neural-Networks"><a href="#EfficientNet-Rethinking-Model-Scaling-for-Convolutional-Neural-Networks" class="headerlink" title="(EfficientNet)Rethinking Model Scaling for Convolutional Neural Networks"></a>(EfficientNet)Rethinking Model Scaling for Convolutional Neural Networks</h3><p>对于EfficientNet，该论文总共有两个较为重要的贡献点：</p>
+          <h2 id="Towards-Data-Efficient-Detection-Transformers"><a href="#Towards-Data-Efficient-Detection-Transformers" class="headerlink" title="Towards Data-Efficient Detection Transformers"></a>Towards Data-Efficient Detection Transformers</h2><h3 id="摘要"><a href="#摘要" class="headerlink" title="摘要"></a>摘要</h3><p>DETR在足量样本的COCO数据集上表现出了有竞争性的效果。然而我们发现许多DETR类的方法在内容数量较少的数据集上（如Cityscapes）会有明显的性能的下降。换而言之，DETR通常需要大量的数据。为了处理这个问题。我们逐步的将数据效率高的RCNN变换为代表性的DETR，分析了影响数据效率（data efficiency）的因素。试验结果表明从局部图片进行稀疏特征采样是影响的关键。基于这个观察，本文通过简单的交替 key 和 value序列在cross attention中的构造方式，用对原始模型最少的改变的方式缓解了现存DETR方法对数据需求量巨大的问题。另外，我们介绍了一个简单但有效的数据增强的方法，从而提供更丰富的监督并提高了数据效率。实验证明，我们的方法可以被很容易的应用到不同的DETR变种上去，并在较小和较大的数据集上均可提升检测效果。</p>
+<h3 id="简介"><a href="#简介" class="headerlink" title="简介"></a>简介</h3><p>目标检测是在计算机视觉领域里面的长盛不衰的话题。最近一种新型的目标检测算法，名叫detection transformer，因为其的简单和尚可的检测效果吸引了许多的注意力。这个类别的先驱工作是DETR，其将目标检测的任务看作是直接的集合预测问题，并利用transformer直接将目标查询转换为目标对象。其实现了相对于开创性的Faster RCNN在常用的COCO数据集上更好的效果，但其具有收敛速度显著慢于基于CNN系列检测器的缺点。因为这个原因，许多随后的工作都是致力于提高DETR的收敛速度。</p>
+<ul>
+<li>Deformable DETR：通过efficient attention mechanism机制</li>
+<li>Swin transformer：通过conditional spatial query机制</li>
+<li>（SMCA）Fast convergence of detr with spatially modulated co-attention：通过regression-aware co-attention机制</li>
+</ul>
+<p>这些上述的方法都可以在COCO数据集上以相似的训练代价，实现相对于Faster RCNN而言更好的检测效果，证明了DETR类方法的优越性。</p>
+<p>现有的工作大都认为DETR类的方法在简单性和模型效果上均优于基于CNN的目标检测器。然而本文发现，DETR只有在充足的训练数据的情况下（例如COCO2017,有118K训练数据）才能展现出其优越的性能，然而在训练数据量不是非常充足的时候，其的效果会出现明显的下降。以自动驾驶领域常用的数据集Cityscapes（约3k训练数据）为例，大部分的DETR类的方法的AP小于Faster RCNN的AP的一半。且不同的DETR类的检测器，其性能的差距在COCO数据集上是小于3AP的，但在数量较小的Cityscapes数据集上，其会存在一个明显的差距，其性能差距约有15AP。如下图所示：</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220811161935395.png" alt="image-20220811161935395"></p>
+<p>这些发现证明了DETR类的目标检测相较于CNN类的目标检测器而言，更需要大量的数量进行训练。然而带有标签的数据的获取是需要大量的时间和人力的。</p>
+<p>总而言之，为了迎合目前现存的DETR对训练数据的需求，需要大量的人力和计算资源。为了应对这个问题，本文首先从实验上，通过逐步的将数据高效的Sparse RCNN转换为DETR，分析了影响DETR中影响数据效率的关键性因素。我们的发现和分析表明：</p>
+<ul>
+<li>稀疏的局部特征采样是影响数据效率的关键，<ul>
+<li>其缓解了学习注意到特定物体的困难</li>
+<li>其避免了图像像素两倍的计算复杂度</li>
+<li>令利用多尺度的特征成为可能，多尺度的特征已经被证明在目标检测任务中是关键的</li>
+</ul>
+</li>
+</ul>
+<p>基于上述的观察，我们通过简单的交替 key 和 value序列在cross attention中的构造方式，提升了现存的DETR类的目标检测算法的数据效率。具体来说，我们在前一个解码器层预测的边界框的指导下，对发送到交叉注意力层的键和值特征执行稀疏采样特征，这样对原始模型的修改最少，并且没有任何专门的模块。另外，本文通过提供给DETR丰富的监督信号来缓解对数据的需求。为达到这个目的，本文提出了一种标签加强的方式，通过在标签分配的过程中重复前景物体的label去高效并简单的执行。这个方法可以被应用在不同的DETR类的方法从而提升其的数据效率。有趣的是，其依旧带来了在训练数据充足的COCO数据集上的性能提升。</p>
+<p>本文的贡献如下总结所示：</p>
+<ul>
+<li>本文确定了DETR的数据效率的问题。虽然DETR实现了在COCO数据集上的优秀效果，其一般会在小规模的数据集上遭受到明显的性能下降。</li>
+<li>本文通过从 Sparse RCNN 到 DETR 的逐步模型转换，通过实验分析了影响检测转换器数据效率的关键因素，并发现局部区域的稀疏特征采样是数据效率的关键。</li>
+<li>本文通过简单的交替在cross-attention模块中key和value序列的构造方式，明显的提升了现存的DETR方法的数据效率</li>
+<li>本文提出了一种简单但有效的标签增强策略，从而提供更丰富的监督信号并提升了数据效率。其可以与不同的方法融合，从而实现在不同数据集上的性能增益。</li>
+</ul>
+<h3 id="相关工作"><a href="#相关工作" class="headerlink" title="相关工作"></a>相关工作</h3><h4 id="目标检测"><a href="#目标检测" class="headerlink" title="目标检测"></a>目标检测</h4><p>目标检测在许多现实生活中是非常必要的，例如自动驾驶，缺陷检测和遥感。最具有代表性的目标检测的工作可以被粗略的分为两类，两阶段的Faster RCNN和一阶段的YOLO和RetinaNet。虽然上述方法有效，但上述方法一般而言是需要以来与许多人工设计（启发式算法）的先验，例如anchor generation和rule based 标签分配方式。</p>
+<p>最近DETR提供了一种简单并且干净的目标检测的计算流程。其将目标检测看作是集合预测的任务，并应用transformer将稀疏的目标候选转换为目标物体。DETR的成功引爆了最近井喷的DETR类的方法，并且许多最近的工作都致力于缓解DETR的收敛速度慢的问题。</p>
+<ul>
+<li>DeformDETR 提出了可学习的稀疏特征采样的可变形注意力机制并聚合多尺度特征以加速模型收敛并提高模型性能。</li>
+<li>CondDETR 提出从解码器嵌入中学习条件空间查询，这有助于模型快速学习定位四个末端以进行检测</li>
+</ul>
+<p>这些工作实现了在COCO 2017数据集上用相似的训练代价得到Faster RCNN更好的性能。这似乎表明DETR类的方法已经在简单性和性能上压制了Faster RCNN。但本文发现DETR通常需要更多的数据，并在小规模的数据集上表现比Faster RCNN要差。</p>
+<h4 id="目标检测中的标签分配"><a href="#目标检测中的标签分配" class="headerlink" title="目标检测中的标签分配"></a>目标检测中的标签分配</h4><p>在目标检测中，标签分配是一个十分重要的组件。其将一个物体的ground truth与从模型中的一个预测相匹配，从而为训练提供监督信号。在DETR之前，许多的目标检测器采用的是一对多的匹配策略，其将每个ground trurh基于局部空间关系分类给多个预测框。而DETR相反，其是采用的一对一的匹配策略，将ground truth与预测框之间通过最小化全局匹配损失来进行匹配。这个标签分配方式被许多的后续的DETR方法所采用。尽管这样的分配方式具有避免了重复移除的过程的优点，但只有少量的候选目标在每次迭代的过程中被目标标签所监督。这样就会导致模型必须从大量的数据中获得足够的监督信号或需要更多论次的训练。为了解决这个问题，本文提出了一种标签增强的方式去提供更丰富的监督信号。</p>
+<h4 id="视觉transformer（ViT）中的数据效率"><a href="#视觉transformer（ViT）中的数据效率" class="headerlink" title="视觉transformer（ViT）中的数据效率"></a>视觉transformer（ViT）中的数据效率</h4><p>视觉transformer正在成为特征提取器和视觉识别的CNN的替代品。尽管其具有优秀的性能表现，但其一般而言需要比CNN需要更多的数据，并依赖于大量的数据和更多轮次的训练。</p>
+<ul>
+<li>DeiT 通过从预训练的CNN上进行知识蒸馏，配合上更好的训练配方，从而提高了数据效率</li>
+<li>Liu等人提出了一个密集的相对定位损失去提高ViT类算法的数据效率（Efficient training of visual transformers with small datasets）</li>
+</ul>
+<p>与之前专注于transformer主干在图像分类任务上的数据效率问题不同，本文在目标检测任务上处理DETR数据效率的问题</p>
+<h3 id="RCNN类算法与DETR类算法的不同之处分析"><a href="#RCNN类算法与DETR类算法的不同之处分析" class="headerlink" title="RCNN类算法与DETR类算法的不同之处分析"></a>RCNN类算法与DETR类算法的不同之处分析</h3><p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812084137035.png" alt="image-20220812084137035"></p>
+<p>上图为从SRCN（Sparse RCNN）逐渐转化为DETR的过程中，在Ciytscapes数据集上，分别在训练50 epoch和300 epoch的情况下的AP情况。</p>
+<p>对上图进行分析可得，DETR一般而言相比与RCNN需要更多的数据。为了寻找影响数据效率的关键性因素，本文将数据效率高的RCNN逐步的转变为数据效率较低的DETR，从而消融不同设计的影响。相同的实验方法在ATSS和Visformer中被使用，但实验目的不同。</p>
+<h4 id="检测器的选择"><a href="#检测器的选择" class="headerlink" title="检测器的选择"></a>检测器的选择</h4><p>为了从模型的转换中获得有效的结果，需要选择适当的检测器去参与实验。为了达到这个目的，本文选择Sparse RCNN和DETR作为实验模型，原因如下所示：</p>
+<ul>
+<li>两个模型都是在各自的领域里（RCNN类和DETR类）具有代表性的模型。所以由这两者的转换得出的结论可以推广到其他的探测器中去。</li>
+<li>这两个模型在数据效率方面有巨大的差异</li>
+<li>其在标签分配（label assignment）、损失函数设计（loss design），优化器选择（optimization）上具有许多的相似之处。这些相似之处可以在我们专注于核心部件的不同的时候消除没有那么重要的部件的影响。</li>
+</ul>
+<h4 id="Sparse-RCNN到DETR的转换"><a href="#Sparse-RCNN到DETR的转换" class="headerlink" title="Sparse RCNN到DETR的转换"></a>Sparse RCNN到DETR的转换</h4><ul>
+<li>交替训练方式<ul>
+<li>虽然Sparse RCNN和DETR有许多的相似之处，但其在训练策略（训练方式）上依旧有所不同。如分类损失、object query的数量，学习率和梯度剪切。本文首先通过将Sparse RCNN的训练策略用DETR的训练策略替代，我们发现Sparse RCNN用DETR的训练策略进行训练时，其在50 epoch时表现稍好，但在300epoch时表现较差。消除训练策略的差异可以帮助我们关注与影响数据效率的更核心的因素。</li>
+</ul>
+</li>
+<li>移除FPN：<ul>
+<li>多尺度特征融合已经被证明对目标检测是有效的。当CNN类的FPN neck可以实现在较小的计算代价的情况下完成多尺度特征融合，注意力机制有输入图像尺寸的平方的计算复杂度，使在DETR中对多尺度特征融合代价昂贵。因此DETR只采用了原图像经过32倍下采样的单尺度特征进行预测。在这个阶段，我们移除了FPN neck部分，并只将经过32倍下采样的特征传入检测头。模型在50epoch的情况下性能明显的下降了7.3AP</li>
+</ul>
+</li>
+<li>引入transformer encoder：<ul>
+<li>在DETR中，transformer encoder可以被认为是检测器的neck部分，其被用来处理被backbone提取出的特征。在移除了FPN neck之后，我们加入transformer encoder作为网络的neck。与在DETR中相似，backbone提取出的特征投影和位置编码同样被引入。试验结果表明AP在50epoch的时候有所下降，在300eopch的时候有所上升。我们推测其与ViT中相似，注意力机制因为其平方项的复杂度和缺少先验知识，其需要更长的训练epoch去收敛和发展其的优势。</li>
+</ul>
+</li>
+<li>使用cross-attention替代dynamic convolutions<ul>
+<li>在Sparse RCNN中的dynamic convolutions（动态卷积）和DETR中的cross-attention（互注意力）的作用相似。它们都基于图像特征的相似性自适应地将上下文聚合到候选对象。在这个步骤中，我们将dynamic convolutions替换为带有可学习的query positional embedding，其结果反直觉的表示：大量可学习的参数不一定会让模型需要更多的数据。事实上，动态卷积的70M的参数可以展现出相较于cross-attention而言更好的数据效率。</li>
+</ul>
+</li>
+<li>对齐解码器中的dropout设置<ul>
+<li>在Sparse RCNN和DETR中的decoder是非常相似的。在将dynamic convolution 用cross-attention替代之后，其可以被认为是transformer decoder。在其之间有一个轻微的不同是dropout layer在self-attention和FFN之间的使用。我们消除了这个影响。</li>
+</ul>
+</li>
+<li>移除级联边缘框细化<ul>
+<li>Sparse RCNN遵循了Cascade RCNN中的级联边缘框回归，其中每个decoder层都迭代的细化前一层做的边缘框预测。本文移除了这个步骤，模型性能有所下降。虽然级联边缘框细化没有被大多数的DETR类的检测器所使用，但其可以自然的被级联解码器所包含。</li>
+</ul>
+</li>
+<li>移除ROIAlign<ul>
+<li>Sparse RCNN和其余RCNN类的检测其相同，从感兴趣的局部区域采样特征，然后根据采样的稀疏特征进行预测。而每个DETR中的内容查询直接从全局的特征图中聚合特定于对象的信息。在这个步骤中，我们移除了Sparse RCNN中的ROIAlign，box target transformation也被移除。我们可以发现，模型的性能出现了明显的下降，在50epoch的情况下出现了8.4Ap的下降。我们推测从整个特征图上学习到局部对象区域的代价较大，所以模型需要更多的数据和训练epoch去获取局部属性。</li>
+</ul>
+</li>
+<li>移除初始的proposals<ul>
+<li>最终，DETR直接预测了目标的bounding box，RCNN类预测使用了一些初始化的先验。在这个步骤中，我们通过移除初始的proposals消除了影响。预料之外的是，这个小改变使模型性能出现了明显的下降。我们人文初始的proposals作为空间上的先验，帮助模型聚焦于局部空间信息，从而减少了从大量训练数据中学习局部性的需要</li>
+</ul>
+</li>
+</ul>
+<h4 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h4><p>如上所示，从Sparse RCNN转换为DETR的结果和分析如下所示：</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812084137035.png" alt="image-20220812084137035"></p>
+<p>其在更改之后对AP影响大于5AP的本文认为是影响数据效率的关键因素，如下所示：</p>
 <ol>
-<li>提出了一种卷积神经网络的架构</li>
-<li>研究并提出了一种卷积神经网络的不需手动设定指标的模型缩放方法</li>
+<li>局部稀疏特征采样</li>
+<li>依赖稀疏特征采样的多尺度特征拥有可接受的计算复杂度</li>
+<li>依赖于空间先验的预测</li>
 </ol>
-<p>对于贡献点1而言，作者使用了NAS(神经架构搜索)的技术，设计了一个新的backbone，称为EfficientNet。其相对于以前的ConvNets实现了更好的准确性和效率。</p>
-<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/image-20220726203542698.png" alt="image-20220726203542698"></p>
-<p>对于贡献点2而言，作者认为，网络深度的增加、网络宽度的增加以及图像分辨率的增加均会提升卷积神经网络的精度。但若只是单尺度的提升，网络的识别精度提升是有限的，应三个尺度同时进行放缩才能在确定的计算资源的情况下实现最好的识别精度。</p>
-<p>作者提出两点对于模型放缩的观察：</p>
+<p>其中，1和3有助于模型关注局部对象区域，减轻从大量数据中学习局部性的需求，而2有助于更全面地利用和增强图像特征，但它也依赖于稀疏特征。</p>
+<p>DeformDETR是在DETR中特殊的一种，其表现出了与Sparse RCNN相比而言有可比性的数据效率。我们从Sparse RCNN到DETR的变换过程中可以对DeformDETR的数据效率进行解释：multi-scale deformable attention从图像的局部区域采样稀疏特征并利用多尺度特征。 模型的预测是相对于初始参考点的。 因此，DeformDETR 尽管没有专门设计在小型数据集上实现数据高效，但其满足了所有三个关键因素。</p>
+<h3 id="方法"><a href="#方法" class="headerlink" title="方法"></a>方法</h3><p>本节主要利用现有的DETR类方法，在对原始的设计做最小的改变的前提下提升数据效率。</p>
 <ul>
-<li>放缩网络的任何一个维度（宽度、深度、图像分辨率）都可以提升准确性，但对于更大型的网络其准确性增益会降低</li>
-<li>为了追求更好的精度和效率，在卷积网络的缩放过程中平衡网络宽度、深度和分辨率的各个维度至关重要</li>
+<li>本文重新对现有的DETR类算法进行了审视思考</li>
+<li>基于前文的实验和分析，对现有的数据需求量巨大的DETR类模型做最少的改变并显著的提升他们的数据效率。</li>
+<li>提供一种简单但有效的标签增强方法，从而为DETR提供更丰富的监督信号提升数据效率。</li>
 </ul>
-<p>基于上述的两点观察，以及卷积神经网络中计算资源占比最多的是卷积操作这一点先验，作者将模型的放缩定义如下：</p>
-<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/image-20220726091149041.png" alt="image-20220726091149041"></p>
-<p>且由于是卷积操作占所有操作中计算资源的大头，所以模型的深度对于计算而言大致为线性关系，而图像的分辨率和宽度对于计算而言为平方的关系，所以其定义中的约束条件如上所示。当满足<script type="math/tex">\alpha*\beta^2*\gamma^2\approx2</script>的前提下，我们可以通过设定$\phi$来控制计算资源大致上扩充到之前的$2^\phi$倍。</p>
-<p>EfficientDet的主要贡献点有如下两个：</p>
+<h4 id="对DETR的重新审视"><a href="#对DETR的重新审视" class="headerlink" title="对DETR的重新审视"></a>对DETR的重新审视</h4><h5 id="模型结构"><a href="#模型结构" class="headerlink" title="模型结构"></a>模型结构</h5><p>DETR通常来说，由backbone，transformer encoder，transformer decoder，prediction head构成。</p>
 <ul>
-<li>提出了BiFPN，一种新的特征融合的方法，是FPN的加强版</li>
-<li>与EfficientNet相似的，提出了混合缩放。将EfficientNet中模型放缩的思维迁移到目标识别中。</li>
-</ul>
-<h4 id="BiFPN"><a href="#BiFPN" class="headerlink" title="BiFPN"></a>BiFPN</h4><p>常见的Neck阶段的特征融合方法如下所示：<img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/12321312.png" alt="在这里插入图片描述"></p>
-<p>作者认为，多尺度特征融合的存在存在如下问题：</p>
+<li><p>backbone：backbone首先从输入图片中提取多尺度的特征，被称作$\{f^l\}^L_{l=1}$，其中$f^l \in R^{H ×W ×C}$。最后一个特征曾有着最小的分辨率，将其展平并嵌入以获得$z^L \in R^{S^L \times D}$，其中$S^L =H^L \times W^L$是序列长度，$D$是特征维度。相应的，位置编码嵌入被表示为$p^L \in R^{S^L\times D}$。</p>
+</li>
+<li><p>transformer encoder：之后单尺度序列特征被transformer编码，并获得$Z^L_e \in R^{S^L \times D}$。</p>
+</li>
+<li><p>transformer decoder：decoder包含了$L_d$层的decoder layers。 查询内容的嵌入表示被初始化为$q_0\in R^{N\times D}$，其中$N$是查询的数量。每个decoder层 $DecoderLayer_l$采用上一个decoder的输出$q_{l-1}$，查询位置编码$p_l$，图像序列特征$z_l$和其位置嵌入$p_l$作为输入，输出为解码序列特征。即</p>
+<p>$q _l= DecoderLayer_l (q_{l−1} , p_q , z_l, p_l),= 1 . . . L_d $</p>
+<p>在大多数DETR类检测器中，例如DETR和CondDETR，单尺度的图像特征被解码器所利用，因此$z_l=z^L_e$、$p_l=p^L$，其中$l=1…L_d$</p>
 <ul>
-<li>各个尺度的特征信息不一致，但在实践中却占有相同权重</li>
-<li>改进的特征融合算法的计算量过大且特征融合效果不算好</li>
+<li>prediction head ：DETR的head是使用的单纯的FFN前馈网络加上softmax进行的判断</li>
 </ul>
-<p>所以基于以上两点，作者提出BiFPN，BiFPN相较于FPN而言有以下三点改进：</p>
+</li>
+</ul>
+<h5 id="标签分配"><a href="#标签分配" class="headerlink" title="标签分配"></a>标签分配</h5><p>DETR将目标检测任务视作集合预测的问题，并对每个解码器层的预测执行深度监督。在这个过程中，标签集可以被表示如下：$y=\{y_1,…,y_M,\emptyset,…,\emptyset\}$，其中$M$为前景物体的在图像中的数量，$\emptyset$(no object)被填充到标签集合里，使标签集合的大小为$N$。相应的，每个decoder的输出可以被写作$\hat y = \{\hat y\}_{i=1}$。在标签分配的过程中，DETR搜寻一个最优的$τ \in T_N$，使得下述的匹配损失最小：</p>
+<script type="math/tex; mode=display">
+\hat τ= argmin_{$τ \in T_N}\sum^N_iL_{ match} (y_i , \hat y_{τ (i)})</script><p>其中$L_{ match} (y_i , \hat y_{τ (i)})$为在ground truth和index为$τ (i)$的预测之间的配对损失。</p>
+<h4 id="模型的提升"><a href="#模型的提升" class="headerlink" title="模型的提升"></a>模型的提升</h4><h5 id="系数特征采样"><a href="#系数特征采样" class="headerlink" title="系数特征采样"></a>系数特征采样</h5><p>根据上述RCNN类算法与DETR类算法的不同之处分析，我们分析可得局部特征采样对数据效率是非常关键的。幸运的是，在DETR中，物体位置是在每个decoder layer之后预测得出的，因此，我们可以在上一个decoder预测的bounding box的指导下不需要引入新的参数的采样局部特征。如下图所示：</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/vz2GLTd9Ylg5q.png" alt="img"></p>
+<p>虽然有更复杂的局部特征采样方法可以使用，本文只采用了最常用的RoIAlign。采样操作可以被写成如下形式：</p>
+<p>$z_L = RoIAlign(z^L_e , b_{l-1}),\ \ \ l=2…L_d$</p>
+<p>其中$b_{l-1}$是上一层预测得出的边缘框，$z_l^L\in R^{N\times K^2\times D}$是被采样的特征，$K$是在RoIAlign采样的特征分辨率。注意reshape操作和flatten操作在上式中被省略。类似的，可以得到对应的position embedding  $p^L_l$。</p>
+<p>在DETR中的级联结构使使用逐层边界框细化来提升检测性能很自然。本文在RCNN类算法与DETR类算法的不同之处分析处也验证了迭代细化和对初始空间参考进行预测的有效性。因此，本文如CondDETR一样引进了边缘框细化和在实施过程中的初始参考点。</p>
+<h5 id="结合多尺度特征"><a href="#结合多尺度特征" class="headerlink" title="结合多尺度特征"></a>结合多尺度特征</h5><p>我们的系数特征采样使DETR以较小的计算花销使用多尺度特征变得可能。为了达到这个目的，本文使用backbone从被展平和嵌入之后的高分辨率特征提取特征以得到$\{z^l\}^{L-1}_{l=1} \in \R^{S^l \times D}$，从而进行局部特征采样。然而这些特征不被transformer encoder处理。虽然可以使用更复杂的技术，这些单尺度的被RoIAlign所采样的特征被简单的拼接，从而形成我们的多尺度的特征。这些特征可以被自然的利用cross-attention机制在decoder中被融合。</p>
+<p>$z^{ms}_l=[z^1_l],[z^2_l],…,[z^L_l],l=2…L_d$</p>
+<p>其中$z^{ms}_l \in \R^{N \times LK^2 \times D}$为多尺度特征，$z^l_L=RoIAlign(z^l,b_{l-1}),l-1…L-1$是。对应的位置嵌入$p^{ms}_l$用相似的方式得到。解码过程和原始的DETR是相同的。唯一的区别在于$z_l=z^{ms}_l$以及$p_l=p^{ms}_l$。</p>
+<h4 id="标签增强"><a href="#标签增强" class="headerlink" title="标签增强"></a>标签增强</h4><p>DETR展现出了标签分配的一对一的分配方式。尽管拥有避免重复删除过程的优点，但只有少数检测候选者在每次迭代中都被提供了一个积极的监督信号。这样会导致模型需要更大数量的数据或者更多论次的训练，从而获得足够的监督。</p>
+<p>为了缓解这个问题，本文提出了一种标签增强的策略为DETR提供更丰富的监督信号，即通过在二部图匹配的过程中重复positive labels。如下图所示：</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/kITnuhEstBzQy.png" alt="img"></p>
+<p>我们为每个前景样本$y_i$重复labels $R_i$次，并使label set $N$的总长度不变。</p>
+<p>$y=\{ y^1_1,y^2_1,…,y^{R_1}_1,…y^1_M,y^2_M,…,y^{R_M}_M,…,\emptyset,…,\emptyset    \}$</p>
+<p>label assignment的其余公式与DETR中相同。</p>
+<p>在实际操作的过程中，考虑以下两种重复策略：</p>
 <ul>
-<li><strong>增加残差链接</strong>：意在通过简单的残差操作，增强特征的表示能力</li>
-<li><strong>移除单输入边的结点</strong>：因为但输入边的结点没有进行特征融合，故具有的信息比较少，对于最后的融合没有什么贡献度，相反，移除还能减少计算量。</li>
-<li><strong>权值融合：</strong>简单来说，就是针对融合的各个尺度特征增加一个权重，调节每个尺度的贡献度，其中，作者对比了Unbounded fusion、Softmax-based fusion和Fast normalized fusion，并最终选用了Fast-softmax.</li>
+<li>固定重复次数：所有positive的label都被重复相同的次数</li>
+<li>固定positive采样比例：positive的labels被重复采样，从而确保有$r$个positive样本在label set中。</li>
 </ul>
-<h4 id="混合缩放"><a href="#混合缩放" class="headerlink" title="混合缩放"></a>混合缩放</h4><p>本文还提出了一种混合缩放技术来全面地提升所有主干网络深度/宽度/分辨率、BiFPN和box/class检测网络，其思想与EfficientNet相同，不再赘述，其结果如下图所示：</p>
-<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/v2-f59c80f65952ec08747236c0d6f509ce_720w.jpg" alt="img"></p>
+<p>特别的$F=N\times r$是重复标签后的预期正样本数。 我们首先将每个正标签重复 $F//M$次，然后随机抽取 $F \% M $个正标签而不重复。 默认情况下，我们使用固定重复次数策略，因为它更容易实现并且生成的标签集是确定性的。</p>
+<h3 id="实验"><a href="#实验" class="headerlink" title="实验"></a>实验</h3><h4 id="数据集"><a href="#数据集" class="headerlink" title="数据集"></a>数据集</h4><p>本文重点关注DETR的数据效率。因此，我们的大多数实验都是在 Cityscapes 和下采样 COCO 2017在内的小型数据集上进行的。具体来说，Cityscapes 数据集包含2,975 张用于训练的图像和500 张用于评估的图像。对于下采样的 COCO 2017 数据集，训练图像随机下采样0.1、0.05、0.02 和0.01，而评估集保持不变。此外，我们还验证了我们的方法在具有118K 训练图像的全尺寸 COCO 2017 数据集上的有效性。</p>
+<h4 id="实施细节"><a href="#实施细节" class="headerlink" title="实施细节"></a>实施细节</h4><p>默认情况下，我们的特征采样实现为 RoIAlign，特征分辨率为4。包括三个不同的特征级别用于多尺度特征融合。我们的标签增强采用固定重复次数，并且使用阈值为0.7 的非极大值抑制(NMS)来去除重复。所有模型都训练了50 个 epoch，并且除非另有说明，否则学习率会在40 个 epoch 后衰减。在 ImageNet-1K 上预训练的 ResNet-50用作主干。为了保证足够的训练迭代次数，所有关于 Cityscapes 和下采样 COCO2017 数据集的实验都以8 的batch size进行训练。结果是使用不同的随机种子重复运行五次的平均值。我们的数据高效检测转换器仅对现有方法进行轻微修改。除非另有说明，否则我们遵循相应基线方法的原始实现细节。运行时间在 NVIDIA A100 GPU 上进行评估。</p>
+<h4 id="主要结果"><a href="#主要结果" class="headerlink" title="主要结果"></a>主要结果</h4><h5 id="基于Cityscapes"><a href="#基于Cityscapes" class="headerlink" title="基于Cityscapes"></a>基于Cityscapes</h5><p>在本节中，我们将我们的方法与现有的DETR进行比较。 如下表所示，大多数检测变压器都存在数据效率问题。 尽管如此，通过对 CondDETR 模型进行微小更改，我们的 DE-CondDETR 能够实现与 DeformDETR 相当的数据效率。 此外，通过标签增强提供的更丰富的监督，我们的 DELA-CondDETR 超过了 DeformDETR 2.2 AP。 此外，我们的方法可以与其他检测转换器相结合，以显着提高它们的数据效率，例如，我们训练了 50 个 epoch 的 DE-DETR 和 DELA-DETR 的性能明显优于训练了 500 个 epoch 的 DETR。另外，我们的方法依旧提高了DeformDETR的数据效率。见下</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812145944038.png" alt="image-20220812145944038"></p>
+<p>上表为DETR在Cityscapes上的比较，DE前缀表明使用了本文的data-efficient，LA表明使用了label增强。</p>
+<hr>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812151829137.png" alt="image-20220812151829137"></p>
+<p>上表为DeformDETR使用了LA之后的效果对比。</p>
+<hr>
+<h5 id="基于下采样的COCO2017数据集"><a href="#基于下采样的COCO2017数据集" class="headerlink" title="基于下采样的COCO2017数据集"></a>基于下采样的COCO2017数据集</h5><p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812151508333.png" alt="image-20220812151508333"></p>
+<p>下采样的 COCO 2017 数据集分别包含 11,828 (10%)、5,914 (5%)、2,365 (2%) 和 1,182 (1%) 训练图像。 如上图 所示，我们的方法在很大程度上始终优于基线方法。 特别是，仅用 ∼1K 图像训练的 DELA-DETR 显着优于 DETR 基线，训练数据是训练数据的五倍。 同样，DELA-CondDETR 始终优于使用两倍数据量训练的 CondDETR 基线。</p>
+<hr>
+<h4 id="消融实验"><a href="#消融实验" class="headerlink" title="消融实验"></a>消融实验</h4><p>在本节中，我们进行消融实验以更好地理解我们方法的每个组成部分。 所有消融研究都是在 DELACondDETR 和 Cityscapes 数据集上实施的，而更多基于 DELADETR 的消融研究可以在我们的附录中找到。</p>
+<hr>
+<h5 id="每个模块的有效性"><a href="#每个模块的有效性" class="headerlink" title="每个模块的有效性"></a>每个模块的有效性</h5><p>我们首先消融了我们方法中每个模块的作用，如下表所示。使用局部特征采样和多尺度特征融合将模型的性能分别显着提高了 8.3 和 6.4 AP。 此外，标签增强进一步将性能提高了 2.7 AP。 此外，单独使用标签增强也带来了 2.6 AP 的性能增益。</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812152636147.png" alt="image-20220812152636147"></p>
+<hr>
+<h5 id="RoIAlign-的特征分辨率"><a href="#RoIAlign-的特征分辨率" class="headerlink" title="RoIAlign 的特征分辨率"></a>RoIAlign 的特征分辨率</h5><p>通常，RoIAlign 中较大的样本分辨率可提供更丰富的信息，从而提高检测性能。 然而，采样更大的特征分辨率也更耗时，并且增加了解码过程的计算成本。 如下表所示，当分辨率从 1 增加到 4 时，模型性能显着提高了 5.6 AP。但是，当分辨率进一步增加到 7 时，改进很小，并且增加了 FLOPs 和延迟。 为此，我们将 RoIAlign 的特征分辨率默认设置为 4。</p>
+<h5 id="多尺度特征的数量"><a href="#多尺度特征的数量" class="headerlink" title="多尺度特征的数量"></a>多尺度特征的数量</h5><p>为了结合多尺度特征，我们还从主干中采样了 8 倍和 16 倍的下采样特征来构建3个不同级别的多尺度特征。 从上表可以看出，它显着提高了模型性能 6.4 AP。 然而，当我们进一步为多尺度融合添加 64 倍下采样特征时，性能下降了 0.5 AP。 默认情况下，我们使用 3 个特征级别进行多尺度特征融合。</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812152843982.png" alt="image-20220812152843982"></p>
+<hr>
+<h5 id="标签增强的策略"><a href="#标签增强的策略" class="headerlink" title="标签增强的策略"></a>标签增强的策略</h5><p>在本节中，我们消融了提出的两种标签增强策略，即固定重复时间和固定正样本比率。 如下左表 所示，使用不同的固定重复次数可以持续提高 DE-DETR 基线的性能，但性能增益会随着重复次数的增加而降低。 因此，默认采用固定重复时间 2。 此外，如下右表 所示，虽然使用不同的比率可以提高 AP，但在正负样本比率为 1:3 时性能最佳，有趣的是，这也是Faster RCNN中最常用的正负采样比率。</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812154348539.png" alt="image-20220812154348539"></p>
+<h4 id="泛化到特征丰富的数据集"><a href="#泛化到特征丰富的数据集" class="headerlink" title="泛化到特征丰富的数据集"></a>泛化到特征丰富的数据集</h4><p>虽然上述实验表明，我们的方法可以在只有有限的训练数据可用时提高模型性能，但不能保证我们的方法在训练数据充足的情况下仍然有效。 为此，我们用足够多的数据在 COCO 2017 上评估了我们的方法。 从下表 中可以看出，我们的方法不会降低 COCO 2017 上的模型性能。相反，它提供了改进效果。 具体来说，DELA-DETR 和 DELA-CondDETR 分别将其相应的基线提高了 8.3 和 2.8 AP。</p>
+<p><img src="/2022/08/22/Towards%20Data-Efficient%20Detection%20Transformer/image-20220812153538482.png" alt="image-20220812153538482"></p>
+<h3 id="结论"><a href="#结论" class="headerlink" title="结论"></a>结论</h3><p>在本文中，我们确定了DETR的数据效率问题。 通过从 Sparse RCNN 到 DETR 的逐步模型转换，我们发现局部区域的稀疏特征采样是数据效率的关键。基于这些，我们通过在预测的bounding box的指导下通过简单地采样多尺度特征在对原始模型的修改最少的前提下来改进现有的检测转换器。 此外，我们提出了一种简单而有效的标签增强策略，以提供更丰富的监督，从而进一步缓解数据效率问题。 大量实验验证了我们方法的有效性。 随着Transformer在视觉任务中越来越流行，我们希望我们的工作能够激发大家探索Transformer在不同任务中的数据效率。</p>
 
       
     </div>
@@ -1178,7 +2067,7 @@ <h4 id="混合缩放"><a href="#混合缩放" class="headerlink" title="混合
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/07/25/Label%20Assignment/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/Deformable%20DETR/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -1192,7 +2081,7 @@ <h4 id="混合缩放"><a href="#混合缩放" class="headerlink" title="混合
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/07/25/Label%20Assignment/" class="post-title-link" itemprop="url">Label Assignment</a>
+            <a href="/2022/08/22/Deformable%20DETR/" class="post-title-link" itemprop="url">Deformable DETR</a>
         </h2>
 
         <div class="post-meta">
@@ -1201,16 +2090,10 @@ <h2 class="post-title" itemprop="name headline">
                 <i class="far fa-calendar"></i>
               </span>
               <span class="post-meta-item-text">发表于</span>
+              
 
-              <time title="创建时间：2022-07-25 22:26:51" itemprop="dateCreated datePublished" datetime="2022-07-25T22:26:51+08:00">2022-07-25</time>
+              <time title="创建时间：2022-08-22 20:56:45 / 修改时间：21:31:44" itemprop="dateCreated datePublished" datetime="2022-08-22T20:56:45+08:00">2022-08-22</time>
             </span>
-              <span class="post-meta-item">
-                <span class="post-meta-item-icon">
-                  <i class="far fa-calendar-check"></i>
-                </span>
-                <span class="post-meta-item-text">更新于</span>
-                <time title="修改时间：2022-08-22 21:34:13" itemprop="dateModified" datetime="2022-08-22T21:34:13+08:00">2022-08-22</time>
-              </span>
 
           
 
@@ -1223,172 +2106,67 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h2 id="Label-Assignment-是什么"><a href="#Label-Assignment-是什么" class="headerlink" title="Label Assignment 是什么"></a>Label Assignment 是什么</h2><p>Label Assignment 也称为Target Assignment，可理解为网络提供正负样本进行学习，让网络学习我们所要完成的目标的“正确”和“错误”的概念.</p>
-<p>例如在目标检测的相关任务中，以下图为例任务为检出其中的蛙人、数字和字母，我们所期望的检测结果为：</p>
-<p><img src="/2022/07/25/Label%20Assignment/objectDetect.png" alt="HT_2022_004_00543" style="zoom:50%;"></p>
-<p>但是实际的检测效果可能为：</p>
-<p><img src="/2022/07/25/Label%20Assignment/objectDetect_bad.png" alt="HT_2022_004_00543" style="zoom:50%;"></p>
-<p>显然我们需要告诉网络，我们所需要的是第一张图而不是第二张，因为其包裹对象完整，而不是不完整或存在位置偏移的第二张图。而这个<strong>告诉</strong>的动作本质上就是Label Assignment的任务。</p>
-<p>然而在实际的目标检测过程中，一张图中会有多个类别的目标，多个GT，Label Assignment的过程会十分复杂。只要是一个检测器，其只要需要划分正负样本就可以看作一个label assignment的过程。label assignment已经作为检测网络的最核心的问题之一，建立GT和预测之间的对应关系（类别，Box，置信度）的好坏会直接影响到网络的效果。</p>
-<p>Label Assignment一般可以分为两个方面的内容，一为学习目标的表示，一为正负样本的匹配，即可以理解为我们输出的预测框该怎么框，以及我们输出的预测框与GT的对应关系。</p>
-<h3 id="学习目标的表示"><a href="#学习目标的表示" class="headerlink" title="学习目标的表示"></a>学习目标的表示</h3><p>对于学习目标的表示，基于网络的不同，先验的不同，学习目标的表示也各不相同。</p>
-<h4 id="基于anchor的目标检测"><a href="#基于anchor的目标检测" class="headerlink" title="基于anchor的目标检测"></a>基于anchor的目标检测</h4><p>基于anchor的目标检测大都采用bounding box的方法，即在此类方法中的学习目标是anchor的坐标，通过anchor作为分类和框回归的先验。</p>
-<h4 id="基于set-prediction的目标检测"><a href="#基于set-prediction的目标检测" class="headerlink" title="基于set-prediction的目标检测"></a>基于set-prediction的目标检测</h4><p>基于set-prediction的目标检测的代表为DETR，其将transformer引入目标检测，将任务视为一个图像到集合的问题，避免了人工设计anchor，转而embedding，让网络自己去学习anchor，学习embedding</p>
-<h4 id="基于key-point、anchor-point等方式目标检测"><a href="#基于key-point、anchor-point等方式目标检测" class="headerlink" title="基于key-point、anchor-point等方式目标检测"></a>基于key-point、anchor-point等方式目标检测</h4><h3 id="学习正负样本的匹配"><a href="#学习正负样本的匹配" class="headerlink" title="学习正负样本的匹配"></a>学习正负样本的匹配</h3><h4 id="正负样本匹配的定义"><a href="#正负样本匹配的定义" class="headerlink" title="正负样本匹配的定义"></a>正负样本匹配的定义</h4><p><img src="/2022/07/25/Label%20Assignment/v2-bcce6dc999beb25f778a50e094bbfe8a_720w.jpg" alt="img"></p>
-<p>如上图所示，我们关注的目标为人和推车，假设黄框为Ground Truth，蓝绿色为算法自动生成的anchor，那么将自动生成的anchor与推车的ground truth之间做匹配的过程，判断哪个anchor应该标注为正样本，哪些anchor应该标注为负样本的过程就是正负样本匹配的过程</p>
-<h4 id="Faster-RCNN"><a href="#Faster-RCNN" class="headerlink" title="Faster-RCNN"></a>Faster-RCNN</h4><p>以Faster-RCNN类的目标检测器为例，其通过RPN生成anchor，若目标图像中有两个目标物体，我们需要将生成的成千上万个anchor与真实目标的ground truth做匹配，其分配策略为基于IoU的分配策略，首先计算anchor与ground truth之间的IoU，IoU&gt;fg_thres(0.7)作为正样本，IoU&lt;bg_thres(0.3)作为负样本，IoU在bg_thres~fg_thres(0.3~0.7)之间作为ignore样本(不参与训练)，并使用NMS进行过滤</p>
-<p>但这样的存在问题：</p>
-<ol>
-<li>IoU不能代表anchor的定位能力，IoU在0.3以下的anchor也可能被回归到0.7以上；</li>
-<li>IoU为0.95和0.75的anchor有优劣之分，但一刀砍策略无法体现它们的区别；</li>
-<li>anchor是预定义的，所以无法保证每个ground truth都能匹配很好的anchor，导致不同ground truth分配到的anchor不均衡。</li>
-</ol>
-<p>后续针对上述问题，提出了算法如下：（更新后的IOU算法：CIOU DIOU等）</p>
-<h4 id="TopK"><a href="#TopK" class="headerlink" title="TopK"></a>TopK</h4><p>用于解决问题3</p>
-<p><strong>分配策略</strong>：对每个ground truth，找到与它IoU为TopK的anchor作为正样本；可以看作通过动态改变IoU阈值来划分正负样本，同时保证不同大小的目标都能得到一定数量的anchor进行训练。</p>
-<h4 id="Learning-from-Noisy-Anchor"><a href="#Learning-from-Noisy-Anchor" class="headerlink" title="Learning from Noisy Anchor"></a>Learning from Noisy Anchor</h4><p>用于解决问题2</p>
-<p><strong>核心思想</strong>：提出一个评价anchor质量的指标cleanliness，根据回归后IoU以及分类置信度得出，用于判断一个正anchor是否是noisy的。</p>
-<p><strong>分配策略</strong>：cleanliness可以代替0/1作为分类标签加入focal loss，同时还作为权重加权回归，即质量好的anchor多回归，质量不好(noisy)的anchor少回归。</p>
-<h4 id="HAMBox"><a href="#HAMBox" class="headerlink" title="HAMBox"></a>HAMBox</h4><p>用于解决问题1</p>
-<p><strong>核心思想</strong>：提出一种anchor补偿策略，动态地把那些本身和ground truth重叠度不高但回归结果很好的anchor设为正样本。</p>
-<p><strong>分配策略</strong>：与TopK类似，在训练中对每个ground truth动态地补偿k个anchor作为正样本，这些anchor根据回归结果好坏选出。</p>
-<h4 id="ATSS（该论文证明了回归的方式，数据的表示方式不影响训练效果，影响训练效果的是正负样本的分配）"><a href="#ATSS（该论文证明了回归的方式，数据的表示方式不影响训练效果，影响训练效果的是正负样本的分配）" class="headerlink" title="ATSS（该论文证明了回归的方式，数据的表示方式不影响训练效果，影响训练效果的是正负样本的分配）"></a>ATSS（该论文证明了回归的方式，数据的表示方式不影响训练效果，影响训练效果的是正负样本的分配）</h4><p><strong>核心思想</strong>：从统计意义上思考正负样本的定义，把每个ground truth周围的anchor与它的IoU进行统计可以形成一个分布，通过取这个分布上的某个分位数来决定每个ground truth的IoU阈值</p>
-<p><strong>分配策略</strong>：</p>
+          <h2 id="Deformable-DETR-：-deformable-transformers-for-End-to-End-object-detection"><a href="#Deformable-DETR-：-deformable-transformers-for-End-to-End-object-detection" class="headerlink" title="Deformable DETR ： deformable transformers for End-to-End object detection"></a>Deformable DETR ： deformable transformers for End-to-End object detection</h2><h3 id="DETR的问题"><a href="#DETR的问题" class="headerlink" title="DETR的问题"></a>DETR的问题</h3><p>是针对DETR进行改进的一篇文章，其指出DETR主要存在以下两点问题：</p>
 <ol>
-<li>对于每个输出的检测层，选计算每个anchor的中心点和目标的中心点的L2距离，选取K个anchor中心点离目标中心点最近的anchor为候选正样本（candidate positive samples）</li>
-<li>计算每个候选正样本和groundtruth之间的IOU，计算这组IOU的均值和方差根据方差和均值，设置选取正样本的阈值：t=m+g ；m为均值，g为方差</li>
-<li>根据每一层的t从其候选正样本中选出真正需要加入训练的正样本然后进行训练</li>
+<li>DETR需要相较于现有的目标检测器更长的训练epoch来收敛。</li>
+<li>DETR在检测小物体时准确率较低。</li>
 </ol>
-<p>普遍思路：1、如何度量一个anchor的好坏 2、如何将anchor（GT）分配给GT（anchor）使网络学习最大化</p>
-<p>其余方法：OTA、DETR、OneNet、E2E with FCN</p>
-<h2 id="A-Dual-Weighting-Label-Assignment-Scheme-for-Object-Detection"><a href="#A-Dual-Weighting-Label-Assignment-Scheme-for-Object-Detection" class="headerlink" title="A Dual Weighting Label Assignment Scheme for Object Detection"></a>A Dual Weighting Label Assignment Scheme for Object Detection</h2><p>2022 cvpr 一种用于目标检测的双加权标签分配方案</p>
-<h3 id="摘要"><a href="#摘要" class="headerlink" title="摘要"></a>摘要</h3><p>标签分配是要给每一个训练样本分配一个正损失权重和一个负损失权重，这两个权重会在目标检测的过程中发挥重要的作用。现存的标签分配方法大都专注于正权重的设计而负权重只是直接从正权重的基础上推导而来，这样的机制限制了检测器的性能。<strong>本文拓展研究了一种新型的权重范式$dual\ weighting(DW)$,$DW$分别指定了正权重和负权重。一个样本的正权重由其的分类和定位分数的一致性来决定，负权重被分解为两个部分：一个样本为负样本的可能性以及其为负样本的前提下其的重要性。</strong>这样的权重策略更灵活的区分重要以及不那么重要的样本，并最终导致物体检测的有效性的增加。</p>
-<h3 id="简介及相关工作"><a href="#简介及相关工作" class="headerlink" title="简介及相关工作"></a>简介及相关工作</h3><p>目标检测作为一项基础的视觉任务，其已经吸引了很多研究者数十年的注意力。目前最为先进$(SOTA)$的目标检测大都通过预先定义的anchor来预测类别属性和回归偏移来执行密集检测。Anchor作为一个基础的检测单元，需要被分配合适的分类和回归的标签去监督整个训练过程。这样的标签分配的过程可以看作为为每个anchor分配损失权重的过程，一个anchor的分类损失（回归损失类似）可以简单的表示为：</p>
-<p>  $ \mathcal {L}_{cls}= - w_{pos} \times \ln {(s)} - w_{neg} \times \ln {(1-s)}$</p>
-<p>其中$w_{pos}$和$w_{neg}$分别为正权重和负权重，$s$是预测的分类分数。基于$w_{pos}$和$w_{neg}$的设计，标签分类的方法可以大致的分为两类，分别为hard LA和soft LA。</p>
-<h4 id="hard-LA"><a href="#hard-LA" class="headerlink" title="hard LA"></a>hard LA</h4><p>hard LA假设每个anchor要么是正要么是负的，这意味着$w_{pos} , w_{neg} ∈ {0, 1}  $并且$w_{pos} + w_{neg} =1$，这个策略的核心策略是找到一个合适的边界去将anchor分为positive set和negative set。基于这样的分割策略，可以细分为静态的与动态的。</p>
-<h5 id="静态-hard-LA"><a href="#静态-hard-LA" class="headerlink" title="静态 hard LA"></a>静态 hard LA</h5><p>​    静态 hard LA采取了预先定义好的指标来进行区分。</p>
-<ul>
-<li>IoU以及IoU类（RCNN类）</li>
-<li>anchor中心到对应的GT中心点的距离（FCOS、Foveabox）</li>
-</ul>
-<p>​    问题/缺陷：<strong>静态匹配策略忽略了具有不同大小和形状的对象的划分边界可能会有所不同。</strong></p>
-<h5 id="动态-hard-LA"><a href="#动态-hard-LA" class="headerlink" title="动态 hard LA"></a>动态 hard LA</h5><ul>
-<li>ATSS</li>
-<li>Prediction-aware assignment strategies</li>
-<li>OTA</li>
-<li>Transformer-based detectors</li>
-</ul>
-<p>问题/缺陷：<strong>动态和静态的分配策略都忽略了样本不是相同重要的事实</strong></p>
-<p>分析目标检测的评价指标我们可以发现，<strong>最优预测不仅应该具有较高的分类分数，还应该具有准确的定位</strong>，这意味着在训练中，<strong>分类头和回归头之间具有较高一致性的Anchor应该更为重要</strong>。</p>
-<h4 id="soft-LA"><a href="#soft-LA" class="headerlink" title="soft LA"></a>soft LA</h4><p>基于以上的问题、缺陷以及分析，我们可以发现soft LA的策略更加适合。</p>
-<ul>
-<li>GFL</li>
-<li>VFL<ul>
-<li>上述两种方法是经典的基于IoUs并通过乘以一个调制因子转化成为目标标签的soft LA方法。</li>
-</ul>
-</li>
-<li>Focal Loss</li>
-<li>Generalized focal loss</li>
-<li>Varifocal loss</li>
-<li>FreeAnchor、Autoassign</li>
-</ul>
-<p>现有的方法大都集中于正权重的设计，然而负权重仅仅由正权重得出。这样的方法会限制检测器的学习能力，这是因为负样本权重只提供了很少的新监督信息。这样的耦合权重设计机制会导致细腻度不够。</p>
-<p>如下图所示：</p>
-<p><img src="/2022/07/25/Label%20Assignment/image-20220713133757496.png" alt="image-20220713133757496"></p>
-<p>对于左上图而言，假设其为目标物体，假设分别有四个anchor分别为A、B、C、D，其对应的与GT的IoU和Score如右上图所示，则常见的soft LA的算法得到的$w_{pos}  \  w_{neg} $如上图下部分所示。框A、B、C、D有不同的预测结果，，然而GFL和VFL算法分配了几乎相同的权重给（B、C、D）。由于在现存的soft LA算法中负权重与正权重高度相关耦合，所以具有不同特点的anchor有的时候会被赋予基本上相同的正负权重，从而影响检测器的有效性。</p>
-<p>为了给检测器提供更具有分辨性能的监督信号，我们提出了$dual \  weighting (DW)$，一种新的LA算法，从不同的角度分别指定正权重和负权重，并使其互为补充。</p>
-<p>正权重：正权重动态的被从类别检测头中包含的置信度分数以及回归检测头中包含的回归分数决定的</p>
-<p>负权重：对于每个anchor而言，负样本被分为两部分，1、这个样本是负样本的可能性2、其是负样本的情况下，他的重要性 并由这两部份相乘得到。</p>
-<p>通过这样的方式，在推理的时候，有更高分类分数和更精确的定位的bounding boxes会更容易在NMS之后剩下，而其余的会排序较后并会被筛除。根据上图所示，DW给四个不同的anchor分配了几乎不同的正、负权重，这样可以提供给检测器更加精细的监督特征。</p>
-<p>并附加设计了一个边框修正模块去提供给我们的权重一个更加精确的回归分数。基于粗略回归图设计了一个回归优化算法。通过引入适当的计算负担，得到了更精确的回归.</p>
-<h3 id="方法"><a href="#方法" class="headerlink" title="方法"></a>方法</h3><h4 id="动机和框架"><a href="#动机和框架" class="headerlink" title="动机和框架"></a>动机和框架</h4><p>要与NMS相容，一个好的稠密检测器应该可以预测同时具有好的分类分数和精确定位的边缘框，然而如果训练样本都一致的被对待，就容易出现以下问题：有最高分类分数的通常不是拥有最好位置回归的边缘框。特别是在IoU的评判标准下，这样的问题会严重影响检测器的效果。soft LA尝试着评价分类和回归的一致性，当使用soft LA时，一个anchor的loss，可表示如下：</p>
-<p>$L_{cls}= -w_{pos} \times ln(s)-w_{neg}\times ln(1-s)$</p>
-<p>$L_{reg}= w_{reg} \times l_{reg}(b,b^`)$</p>
-<p>其中$s$是预测的类别分数,$b$和$b^`$是预测的边缘框和GT，$l_{reg}$是回归损失函数，例如$L_1 \ loss$ ，IoU Loss等等。在类别预测和回归中的不一致可以通过给一致性较好的anchor分配更大的$w_{pos}\ w_{neg}$来解决。因此这些经过较好训练的anchor就会在预测的时候预测更高的分类分数和更精确的定位，</p>
-<p>现有的工作大都将$w_{pos}$与$w_{neg}$设定为相同的值，并主要注重于如何去定义其的一致性以及整合其到损失函数中，下表整理了在最近的代表性工作中，pos anchor的$w_{pos}\ w_{neg}$的公式。</p>
-<p><img src="Label Assignment/url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F0412%2F938a56efj00ra7am0002fd200u000b6g00id006u.jpeg" alt="img"></p>
-<p>我们可以发现现有的方法中通常定义一个度量因素t作为分类和定位之间的一致性的程度的表示。然后将不一致性度量因素定义为（1-t），并最终通过增加比例因子$((s-t)^2,s^2,t)$整合到正损失和负损失之中去。</p>
-<p>与之前的$w_{pos}\ w_{neg}$高度相关的方法不同，我们提出的方法将$w_{pos}\ w_{neg}$分别使用预测感知的方法进行测试</p>
-<p>即：pos加权函数以预测的cls得分s和预测框与GT目标之间的IoU作为输入，并通过估计cls与reg head之间的一致性程度来设置pos权重。 neg加权函数采用与pos加权函数相同的输入，但将负样本权重表示为以下2项的乘法：Anchor是负样本的概率以及其为负样本时的重要性。这样，具有相似pos权值的模糊Anchor可以接收到具有不同负样本权值的更细粒度的监督信号，这是现有方法中是没有的。</p>
-<p>该方法的流程示意图如下：</p>
-<p><img src="/2022/07/25/Label%20Assignment/image-20220714104625755.png" alt="image-20220714104625755" style="zoom:200%;"></p>
-<p>即首先通过选择GT中心附近的Anchor（中心先验），为每个GT目标构建一个候选正样本集合。候选集合外的Anchor被认为是负样本，不会参与加权函数的设计过程，因为它们的统计数据(如IoU，cls分数)在早期训练阶段非常混乱。候选集内的Anchor将被分配到$w_{pos}\ w_{neg} \ w_{reg}$三个权重上，以更有效地监督训练过程。</p>
-<h4 id="pos加权函数"><a href="#pos加权函数" class="headerlink" title="pos加权函数"></a>pos加权函数</h4><p>一个样本的正加权函数应当反映其在分类和定位两方面上的准确检测物体的能力。本文通过分析物体检测的评价指标分析得出影响其的因素。在进行COCO数据集上进行测试期间，对一个类别的所有预测应该通过一个排序指标被合适的排序。现存的方法大都使用分类分数或分类和预测的IoU作为排序指标。每个边界框的正确性将从排名列表的开头开始检查。一个预测将被定义为一个正确的预测的条件如下：</p>
-<ul>
-<li>预测的边界框和最近的GT之间的IoU大于预先设定的阈值$\theta$</li>
-<li>在本预测框之前没有排名更靠前的预测框满足上一个条件</li>
-</ul>
-<p>即只有第一个具有大于阈值$\theta$的IoU的边界框会被定义为pos detection。其他的框对于这个GT而言都会被认为是假阳性。</p>
-<p>我们可以研究得到，高的排名分数和高IoU都是pos预测的充要条件，这表明同时满足这两个条件的anchor会在测试阶段更容易被定义为pos prediction，因此其在训练阶段就应该具有更高的重要性。从这个角度分析，$w_{pos}$应当与IoU和排名分数正相关，即</p>
-<p>$w_{pos} ∝ IoU\ and\ w_{pos} ∝ s$</p>
-<p>我们定义一致性度量t如下所示,t是为了衡量两个条件之间的对齐度：</p>
-<p>$t=s\times IoU^{\beta}$</p>
-<p>其中，$\beta$被用来平衡这两个条件。</p>
-<p>为了使正权重在不同的anchor中有较大的变化，从而提供较为高细腻度的监督信息，添加一个指数项的调制因子：</p>
-<p>$w_{pos}=e^{ut}  \times t$</p>
-<p>其中u是一个超参数，控制不同pos权重的相对差距，最后，每个实例的每个Anchor的pos权值由候选集内的所有pos权值之和进行归一化。</p>
-<h4 id="neg加权函数"><a href="#neg加权函数" class="headerlink" title="neg加权函数"></a>neg加权函数</h4><p>虽然pos权重可以表明具有高的cls分数和大的IoUs的一致Anchor，但不一致Anchor的重要性不能用pos权重来区分。如本文首图所示，Anchor D的位置更好(IoU大于θ)，但cls得分较低，而Anchor B的位置较差(IoU小于θ)，但cls得分较高。它们可能具有相同的一致性程度度量t，这不能反映它们的差异。为了为检测器提供更多的鉴别监督信息，本文建议通过为它们分配区别更明显的负权重来忠实地表明它们的重要性，这定义为以下2项的乘法。</p>
-<h5 id="样本作为负样本的概率"><a href="#样本作为负样本的概率" class="headerlink" title="样本作为负样本的概率"></a>样本作为负样本的概率</h5><p>根据COCO的衡量指标，小于$\theta$的IoU是将一个预测判断为错误的充分条件。这意味着一个不能满足IoU衡量标准预测边缘框即使有高的类别分数也会被定义为neg detection。所以，IoU是决定一个样本是否为neg detection的唯一的因素，我们定义其为$P_{neg}$</p>
-<p>依据COCO数据集的衡量标准采取IoU从0.5到0.95去衡量AP，本文定义$P_{neg}$应当满足如下规则：</p>
-<script type="math/tex; mode=display">
-P_{neg} = \begin {cases} 1, & \textit {if } \; \text {IoU $<$ 0.5}, \\ [0,1], & \textit {if } \; \text {IoU $\in $ [0.5,0.95]}, \\ 0, & \textit {if } \; \text {IoU $>$ 0.95}, \end {cases} \label {eq5}</script><p>在区间[0.5,0.95]内定义的任何单调递减函数都适用于上式。为简单起见，将$P_{neg}$实例化为以下函数：</p>
-<p>$  P_{neg} = -k \times IoU ^ {\gamma _1} + b, \quad \textit {if } \text { IoU $\in $ [0.5,0.95]} $</p>
-<p>其通过点（0.5,1）和（0.95,0）。一旦确定$\gamma _1$，参数k和b可以用未确定系数的方法得到。图3绘制了$  P_{neg} $和IoU在具有不同$\gamma _1$值的曲线。</p>
-<p><img src="/2022/07/25/Label%20Assignment/v2-14dc210edad1c4ba4fec5ae5635e98bd_720w.jpg" alt="img"></p>
-<h5 id="样本作为负样本的前提下的重要程度"><a href="#样本作为负样本的前提下的重要程度" class="headerlink" title="样本作为负样本的前提下的重要程度"></a>样本作为负样本的前提下的重要程度</h5><p>在推理的时候，Rank列表中的负样本预测不会影响召回率，但会降低精度。所以负样本边界框的Rank应该尽可能落后，也就是说，它们的Rank分数应该尽可能小。基于这一点，Rank得分较高的负样本预测比Rank得分较低的负样本预测更重要，因为它们是网络优化的困难样本。</p>
-<p>因此我们定义$I_{neg}$为负样本的重要程度，其应该是排名分s的函数，特别的，我们定义其为：</p>
-<p>$I_{neg}=s^{\gamma_2}$</p>
-<p>其中$\gamma_2$是表明对重要的负样本应该给予多少优先考虑的一个因素</p>
-<p>所以最终，我们定义neg weight为$w_{neg}=P_{neg}\times I_{neg}$,整合之后如下：</p>
-<script type="math/tex; mode=display">
-\small { w_{neg}= \begin {cases} s^{\gamma _2}, & \textit {if } \; \text {IoU $<$ 0.5}, \\ (-k \times IoU^{\gamma _{1}}+b) \times s^{\gamma _{2}}, & \textit {if } \; \text {IoU $\in $ [0.5,0.95]}, \\ 0, & \textit {if } \; \text {IoU $>$ 0.95}, \end {cases} }</script><p>我们分析可得：$w_{neg}$与IoU呈负相关，但与s呈正相关。可以看出，对于2个pos权重相同的Anchor，IoU较小的Anchor的neg权重较大。 $w_{neg}$的定义与推理过程很好地兼容，它可以进一步区分具有几乎相同pos权重的模糊Anchor。</p>
-<h5 id="边框修正"><a href="#边框修正" class="headerlink" title="边框修正"></a>边框修正</h5><p>由于pos和neg都以IoU作为输入，所以更准确的IoU可以促使更高质量的样本，有利于学习更强的特征。本文提出一个Box Refinement操作，基于预测偏移图$O ∈ R^{H×W ×4 }$其中$ O(j, i) = {∆l, ∆t, ∆r, ∆b}$ 表示从当前Anchor中心到最左边的l、最上面的r、最右边的r和最下面的b边的预测距离。由于靠近物体边界的点更有可能预测准确的位置，所以作者设计了一个可学习的预测模块基于粗边界框为每边生成一个边界点。</p>
-<p>如下图示意所示：</p>
-<p><img src="/2022/07/25/Label%20Assignment/v2-262a6397bb3c6fcd0d2a0d712ad31b3c_720w.jpg" alt="img"></p>
-<p>四个边界点的坐标定义如下：</p>
-<p>$B_{l}=\left (j+\Delta _{l}^{y}, i-\Delta l+\Delta _{l}^{x}\right )$<br>$B_{t}=\left (j-\Delta t+\Delta _{t}^{y}, i+\Delta _{t}^{x}\right )$<br>$B_{r}=\left (j+\Delta _{r}^{y}, i+\Delta r +\Delta _{r}^{x}\right )$<br>$B_{b}=\left (j+\Delta b+\Delta _{b}^{y}, i+\Delta _{b}^{x}\right )$</p>
-<p>其中的$\Delta$都是上述模块的输出，且偏移图更新为</p>
+<p>这是由于transformer结构所引入的问题，即是transformer组件处理特征图方面的不足：transformer结构其在初始化时分配给所有特征像素的注意力权重几乎是均等的，这就造成了模型需要长时间去学习关注真正有意义的位置。其次Transformer在计算注意力权重时，伴随着高计算量与空间复杂度。特别是在编码器部分，与特征像素点的数量成平方级关系，因此难以处理高分辨率的特征。</p>
+<p>deformable DETR结合deformable conv的空间稀疏采样的优势和transformer元素间建模的能力。通过添加稀疏的空间位置，避免了上述的问题，因此DETR不采用全局的注意力计算，而是只计算reference point周围一小部分点的注意力。</p>
+<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3><p>Deformable DETR是一种End-to-End的目标检测器，其在DETR和transformer的基础上做了改进，能够更快收敛，同时减少计算量提高精度。其核心部件为Multi-scale Deformable Attention Module（多尺度可变形注意力模块），其为一种处理图像特征图的有效的注意力机制。</p>
+<h3 id="Deformable-Attention-Module"><a href="#Deformable-Attention-Module" class="headerlink" title="Deformable Attention Module"></a>Deformable Attention Module</h3><p>针对于DETR存在的问题，提出Deformable Attention Module ，其不用遍历所有的空间位置，而是与可变形卷积相似，其只注意参考点周围的一小部分关键采样点，而不是特征图的整体。其通过为每个query分配少量固定的键，可以缓解难以收敛和特征空间分辨率所带来的问题。</p>
+<p>示意图如下所示：</p>
+<p><img src="/2022/08/22/Deformable%20DETR/image-20220810091027439.png" alt="image-20220810091027439"></p>
+<p>下面给出MultiheadAttention和DeformableAttention的计算公式</p>
 <script type="math/tex; mode=display">
-O^{\prime }(j, i)=\left \{\hspace {-1.mm}\begin {array}{l} \Delta l+\Delta _{l}^{x}+O(B_{l},0), \; \Delta t+\Delta _{t}^{y}+O(B_{t},1) \\ \Delta r+\Delta _{r}^{x}+O(B_{r},2), \; \Delta b+\Delta _{b}^{y}+O(B_{b},3) \end {array}\hspace {-1.mm}\right \}</script><h5 id="损失函数"><a href="#损失函数" class="headerlink" title="损失函数"></a>损失函数</h5><p>本文所提出的DW可以被应用在大多数现存的稠密检测器上，下面以FCOS应用DW为例。 按照惯例将中心度分支和分类分支的输出乘以最终的分类分数，损失函数如下所示：</p>
-<p>$  \mathcal {L}_{det}=\mathcal {L}_{cls}+\beta \mathcal {L}_{reg}$</p>
-<p>其中$\beta$是一个平衡因子，与$t = s \times IoU^ \beta  $中的$\beta$相同。对上式进行进一步解释可得：</p>
+ MultiHeadAttn(z_q , x) =\sum ^M_{m=1}W_m[\sum_{k∈Ω_k}A_{mqk}\cdot W_m^`x_k]
+\\
+ DeformAttn(z_q , p_q , x) =\sum ^M_{m=1}W_m[\sum^K_{k=1}A_{mqk}\cdot W_m^`x(p_q+∆p_{mqk})]
+\\
+ MSDeformAttn(z_q , p_q , \{x^l\}^L_{l=1}) =\sum ^M_{m=1}W_m[\sum^L_{l=1}\sum^K_{k=1}A_{mlqk}\cdot W_m^`x^l( \phi_l ( p̂ _q )+∆p_{mlqk})]</script><p>对DeformAttn，输入特征图尺寸为$C<em>H</em>W$，$z_q$为带有内容特征的第q个查询元素，为$p_q$为一个二维参考点，公式中参数如下解释：</p>
+<ul>
+<li>m 表示注意力头（head）。</li>
+<li>k 表示 sampled key（被采样的键）。K 表示 total sampled key number( $K \lt\lt HW$ )。</li>
+<li>$ \Delta p_{mqk} $表示第 m 个注意力头中第 k 个采样点的采样偏移量。</li>
+<li>$ A_{mqk} $表示第 m 个注意力头中第 k 个采样点的注意力权重 V。</li>
+<li><img src="/2022/08/22/Deformable%20DETR/4b4befc3e13742eea81d3b220c04133e.png" alt="img">，Xk表示第k个采样点，Um和Vm是可学习的参数。</li>
+<li>标量注意力权重 $ A_{mqk} $的取值范围为[ 0 , 1]，通过$ \sum^K_{k=1}A_{mqk}=1 $进行归一化。</li>
+<li><img src="/2022/08/22/Deformable%20DETR/fc909ee8a2414a778ba1f82d7120c36a.png" alt="img">是范围不受限制的2-d实数。</li>
+<li>由于$ p_q+\Delta p_{mqk} $是分数阶的，所以在计算$x(p_q+\Delta p_{mqk})$时，采用了《Deformableconvolutional networks (ICCV)》中的双线性插值。</li>
+<li>$\Delta p_{mqk}$和$A_{mqk}$都是通过在查询特征$z_q$上的线性投影获得的。</li>
+<li>在实现中，查询特征$z_q$被送入3MK通道的线性投影算子，其中前2MK通道编码采样偏移量为 ，其余MK通道被送入softmax算子以获得注意力权重 。</li>
+</ul>
+<p>可变形注意力模块是为了将卷积特征图作为 key 要素进行处理而设计的。令 $N_q$ 为 query 元素的个数，当 MK 比较小时，可变形注意力模块的复杂度为$O(2N_q C^2 + min(HW C^2 , N_q KC^2 ))$。当它应用于DETR编码器时，其中 $N_q = HW$，复杂度变为$O(HWC^2)$，与空间大小成线性复杂度。当它被用作DETR解码器中的交叉注意力模块时，其中 $N_q = N$ ( N为对象查询次数)，复杂度变为$O (NKC^2)$，这与空间大小HW无关。</p>
+<h3 id="Multi-scale-Deformable-Attention-Module"><a href="#Multi-scale-Deformable-Attention-Module" class="headerlink" title="Multi-scale Deformable Attention Module"></a>Multi-scale Deformable Attention Module</h3><p>仿照其余目标检测框架中的多尺度特征，提出Multi-scale Deformable Attention Module，将可变形注意力模块扩展为多尺度，其公式依旧如下所示：</p>
 <script type="math/tex; mode=display">
-\small { \begin {aligned} \mathcal {L}_{c l s}&=\sum \nolimits _{n=1}^{N} -w_{p o s}^{n} \times \ln \left (s^{n}\right )-w_{n e g}^{n} \times \ln \left (1-s^{n}\right ) \\ &+\sum \nolimits _{m=1}^{M} F L\left (s^{m}, 0\right ), \\ \mathcal {L}_{reg}&=\sum \nolimits _{n=1}^{N} w_{pos}^{n} \times GIoU\left (b, b^{\prime }\right ), \end {aligned} }</script><p>其中N和M分别是Anchor的总数，FL是Focal Loss，GIoU回归损失，s时预测的cls得分，b和b’分别是预测框和GT的位置。</p>
-<h3 id="实验"><a href="#实验" class="headerlink" title="实验"></a>实验</h3><p>使用的数据集为MS-COCO，其包含115k的train set，5k的val set和20k的tset set。对其进行了消融实验，并通过AP（平均精度）来对其性能进行衡量。</p>
-<p>使用ImageNet上预训练的ResNet-50和FPN作为实验的backbone，绝大多是使用12个epoch的训练，初始学习率为0.01,并在第8和第11个epoch后衰减十倍，在消融实验中，都使用800像素大小的图片进行训练。所有的实验都使用SGDM在8个GPU，总batchsize为16上运行。推理的时候，threshold设定背景框为0.05，并移除阈值为0.6的冗余框，得到最终的预测结果，超参数设置为：$γ_1=2$ , $γ_2=2$ , $β=5$ , $μ=5$</p>
-<h4 id="消融实验"><a href="#消融实验" class="headerlink" title="消融实验"></a>消融实验</h4><h5 id="1、正样本加权的超参数"><a href="#1、正样本加权的超参数" class="headerlink" title="1、正样本加权的超参数"></a>1、正样本加权的超参数</h5><p><img src="/2022/07/25/Label%20Assignment/v2-e0b9d845e784f904b8f6bcec964a22cb_720w.jpg" alt="img"></p>
-<p>pos权重有2个超参数：$\beta$和$u$</p>
-<ul>
-<li>$\beta$在一致性度量t中平衡了cls得分和IoU之间的贡献。随着$\beta$值的增加，IoU的贡献程度也在增加。</li>
-<li>$u$控制着pos权重的相对尺度。与较不一致的样本相比，更大的$u$使最一致的样本具有相对较大的pos权重。</li>
-</ul>
-<p>在表中展示了通过改变 $\beta$从3到7和$u$从3到8来改变DW的性能。可以看到，当  $\beta$ 为5，$u$为5时，效果最好。 $\beta$和$u$的其他组合会使AP性能从0.1降至0.7。因此，在其余所有实验中，将  $\beta$和$u$设为5。</p>
-<h5 id="2、负样本加权的超参数"><a href="#2、负样本加权的超参数" class="headerlink" title="2、负样本加权的超参数"></a>2、负样本加权的超参数</h5><p><img src="/2022/07/25/Label%20Assignment/v2-09fd13f1d0709079d09e145dc6880e28_720w.jpg" alt="img"></p>
-<p>作者还进行了几个实验来研究DW对超参数 $\gamma _1$和$\gamma _2$的鲁棒性，这些参数用于调节负样本权重的相对尺度。使用不同的  $\gamma _1$和 $\gamma _2$组合得到的AP结果范围为41~41.5，如表所示。这意味着DW的性能对这2个超参数不敏感。因此，在所有的实验中都采用了 $\gamma _1=2, \gamma _2=2$</p>
-<h5 id="3、候选集的构建"><a href="#3、候选集的构建" class="headerlink" title="3、候选集的构建"></a>3、候选集的构建</h5><p><img src="/2022/07/25/Label%20Assignment/v2-e609b081788ca0d076f841911e3fbd66_720w.jpg" alt="img"></p>
-<p>作为目标检测的常见做法，Soft LA只应用于候选集的Anchor。作者测试了3种候选集的构建方法，它们都是基于从Anchor到相应的GT中心的距离r（由特征stride归一化）。</p>
-<ul>
-<li>第1种方法是选择距离小于阈值的Anchor。</li>
-<li>第2种方法是从FPN的每个级别中选择最前k个最近的Anchor。</li>
-<li>第3种方法是给每个Anchor一个Soft中心权重 $e^{-r^2}$，并将其与$w_{pos}$相乘。</li>
-</ul>
-<p>结果如表4所示。可以看出，AP性能在41.1~41.5之间略有波动，这表明我们的DW对候选袋的分离方法具有鲁棒性。</p>
-<h5 id="4、负样本加权函数的设计"><a href="#4、负样本加权函数的设计" class="headerlink" title="4、负样本加权函数的设计"></a>4、负样本加权函数的设计</h5><p><img src="/2022/07/25/Label%20Assignment/v2-754d5b17ec7d646d36d44bb42657df8c_720w.jpg" alt="img"></p>
-<p>本文通过用其他替代方法来研究负权重函数的影响，如表所示。可以看到，只使用pos权重会将性能降低到39.5，这表明对于一些低质量的Anchor，只分配它们小的$w_{pos}$不足以降低它们的Rank分数。它们可以被强制赋予更大的$w_{neg}$从而使排名下降，从而在测试期间带来更高的AP。</p>
-<p>在不使用$I_{neg} , P_{neg}$的情况下，分别得到了40.5AP和40.0AP，这验证了这两项都是必要的。正如现有方法所做的，试图用 $1−w_{pos}$ 替换$w_{pos}$ 实现了40.7AP的性能，比标准DW的低0.8点。</p>
-<h5 id="5、Box-Refinement"><a href="#5、Box-Refinement" class="headerlink" title="5、Box Refinement"></a>5、Box Refinement</h5><p>在没有Box Refinement的情况下，DW方法达到41.5AP，这是第1个在不增加FCOS-ResNet-50的情况下，在COCO上实现超过41AP性能的方法。通过Box Refinement，DW可达到42.2AP，如表6所示。表7还显示，Box Refinement可以持续地提高具有不同Backbone的DW的性能。</p>
-<h5 id="6、加权策略"><a href="#6、加权策略" class="headerlink" title="6、加权策略"></a>6、加权策略</h5><p>为了证明DW策略的有效性，将其与其他使用不同加权策略的LA方法进行了比较。结果如表所示。前5行是Hard LA方法，而其他的则是Soft LA方法。</p>
-<p><img src="/2022/07/25/Label%20Assignment/v2-4db83f6b986f5e87b8794488b8216ad5_720w.jpg" alt="img"></p>
-<p>Hard LA的最佳性能是通过OTA，40.7AP。由于OTA将LA作为一个最优规划问题，它将增加训练时间的20%以上。GFLv2利用一个额外复杂的分支来估计定位质量，并在Soft LA方法中获得了41.1AP的第2名性能。</p>
-<p>与将权重分配给损失的主流方法不同，将自动分配权重分配给cls分数，并在训练期间通过它们的梯度更新它们。作者尝试分离自动分配中的权重并分配给损失，但只得到39.8和36.6AP，分别比原始性能低0.6和3.8分。这意味着自动分配中的加权方案在适应主流实践时不能很好地工作。</p>
-<h4 id="与SOTA方法对比"><a href="#与SOTA方法对比" class="headerlink" title="与SOTA方法对比"></a>与SOTA方法对比</h4><p><img src="/2022/07/25/Label%20Assignment/v2-1365a72879d6593ed1070cc695d66c55_720w.jpg" alt="img"></p>
-<h3 id="讨论"><a href="#讨论" class="headerlink" title="讨论"></a>讨论</h3><h4 id="DW的可视化"><a href="#DW的可视化" class="headerlink" title="DW的可视化"></a>DW的可视化</h4><p>下图为DW和目前现有的方法的可视化图</p>
-<p><img src="/2022/07/25/Label%20Assignment/v2-df32a561f9b4fd2187410fc2e63614dd_720w.jpg" alt="img"></p>
-<p>对上图进行分析可得，DW中的正权重和副权重大都集中于GT的中心，而GFL和VFL分配权重大都在更宽的范围。这种差异意味着DW可以更多地关注重要的样本，并减少容易获得的样本的贡献，比如那些在物体边界附近的样本。这就是为什么DW对candidate bag的选择更稳健。</p>
-<p>我们还可以看到，中心区域的锚在DW中有不同的(pos，neg)重量对。相比之下，GFL和VFL中的阴性权重与pos权重高度相关。而DW变化则相对较大</p>
-<h4 id="DW目前存在的问题"><a href="#DW目前存在的问题" class="headerlink" title="DW目前存在的问题"></a>DW目前存在的问题</h4><p>虽然DW可以很好地区分不同Anchor对一个物体的重要性，但它会同时减少训练样本的数量，如图5所示。这可能会影响对小目标的训练效果。如表7所示，DW对小目标的改进不如对大目标的改进高。为了缓解这一问题，作者可以根据目标大小动态设置不同的$w_{pos}$超参数，以平衡大小目标之间的训练样本。</p>
-<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3><p>我们提出了一种名为双重加权（DW）的自适应标签分配方案，以训练准确的密集对象检测器。 DW 打破了以往密集检测器中耦合加权的惯例，它通过从不同方面估计一致性和不一致性指标，为每个锚点动态分配单独的 pos 和 neg 权重。还开发了一种新的框细化操作来直接细化回归图上的框。 DW 与评估指标高度兼容。在 MS COCO 基准上的实验验证了 DW 在各种主干下的有效性。无论有没有框细化，带有 ResNet-50 的 DW 分别达到了 41.5 AP 和 42.2 AP，记录了新的 state-of-the-art。作为一种新的标签分配策略，DW 还展示了对不同检测头的良好泛化性能。</p>
+MultiHeadAttn(z_q , x) =\sum ^M_{m=1}W_m[\sum_{k∈Ω_k}A_{mqk}\cdot W_m^`x_k]
+\\
+DeformAttn(z_q , p_q , x) =\sum ^M_{m=1}W_m[\sum^K_{k=1}A_{mqk}\cdot W_m^`x(p_q+∆p_{mqk})]
+\\
+MSDeformAttn(z_q , p̂ _q , \{x^l\}^L_{l=1}) =\sum ^M_{m=1}W_m[\sum^L_{l=1}\sum^K_{k=1}A_{mlqk}\cdot W_m^`x^l( \phi_l ( p̂ _q )+∆p_{mlqk})]</script><p>对MSDeformAttn，$\{x^l\}^L_{l=1}$为输入的多尺度特征图，其每层的输入特征图尺寸为$C<em>H_l</em>W_l$，$z_q$为带有内容特征的第q个查询元素，$p̂ _q ∈ [0, 1]^2$二维参考点，公式中参数如下解释：</p>
+<ul>
+<li>m 表示注意力头（head）。</li>
+<li>k 表示 sampled key（被采样的键）。K 表示 total sampled key number( K &lt;&lt; HW )。</li>
+<li>$\Delta p_{mlqk}$表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的采样偏移量。</li>
+<li>$A_{mlqk}$表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的注意力权重 V。</li>
+<li><img src="/2022/08/22/Deformable%20DETR/4b4befc3e13742eea81d3b220c04133e.png" alt="img">，Xk表示第k个采样点，Um和Vm是可学习的参数。</li>
+<li>标量注意力权重 $A_{mlqk}$的取值范围为[ 0 , 1]，通过$\sum^L_{l=1}\sum^K_{k=1}A_{mlqk}=1$进行归一化。</li>
+<li>$p̂ _q ∈ [0, 1]^2$是归一化坐标，我们用其清晰的表示尺度公式，其中$(0,0)$表示左上角的点,$(1,1)$表示右下角的点</li>
+<li>$\phi_l ( p̂ _q )$将归一化的坐标$p̂ _q $重新缩放至输入特征图的第$l$层上。</li>
+<li>多尺度可变形注意力与以前的单尺度版本非常相似，只是它从多尺度特征图中采样LK 点，而不是从单尺度特征图中采样 K 点。</li>
+</ul>
+<p>当选$L=1,K=1，且W_m^`∈R^{C_v\times C}$固定为单位矩阵的时候，上述公式退化为deformable convolution。</p>
+<h3 id="Deformable-Transformer-Encoder"><a href="#Deformable-Transformer-Encoder" class="headerlink" title="Deformable Transformer Encoder"></a>Deformable Transformer Encoder</h3><p>我们将DETR中处理特征图的Transformer注意力模块替换为提出的多尺度可变形注意力模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。</p>
+<p>在编码器中，通过ResNet (transformed by a 1 × 1 convolution) 中的从 $C_3$阶段到$C_5$阶段的输出特征图中提取多尺度特征图$\{x^l\}^{L-1}_{l=1}(L = 4)$，其中$C_l$分辨率是输入图的$\frac{1}{2^l}$ 。 在最后的$C_5$级上通过 3 × 3 步长为 2 的卷积得到的最低分辨率特征图$x^L$，记为$C_6$。所有多尺度特征图的通道数为 C = 256 。注意：FPN 中自顶向下的结构没有被使用，因为我们提出的多尺度可变形注意力机制本身可以在多尺度特征图之间交换信息。多尺度特征图的构造如下图所示。注：添加FPN不会提高性能，因为本文所设计的结构能在不同层级之间交换信息，和FPN的功能相同</p>
+<p><img src="/2022/08/22/Deformable%20DETR/image-20220810101839490.png" alt="image-20220810101839490"></p>
+<p>在Deformable Transformer Encoder的应用中，输出是与输入具有相同分辨率的多尺度特征图。key和query均为多尺度特征图中的像素。对于每个查询像素，参考点为其本身。为了识别每个查询像素位于哪个特征级别（即属于目标物体的概率），除了位置嵌入外，我们在特征表示中添加了一个尺度级别的嵌入，记为$e_l$。不同于固定编码的位置嵌入，尺度级嵌入$\{e_l\}^L_{l=1}$随机初始化并与网络联合训练。</p>
+<h3 id="Deformable-Transformer-Decoder"><a href="#Deformable-Transformer-Decoder" class="headerlink" title="Deformable Transformer Decoder"></a>Deformable Transformer Decoder</h3><p>解码器中存在交叉注意力和自注意力模块，两种类型的注意力模块的query elements都是object query。</p>
+<p>在交叉注意力模块中，object query从特征图中提取特征，其中的key元素是编码器输出的特征图。</p>
+<p>在自注意力模块中，object query是相互作用的，其中的key元素是object query。由于我们提出的可变形注意力模块是为了处理卷积特征图作为key元素而设计的，因此我们只将每个交叉注意力模块替换为多尺度可变形注意力模块，而自注意力模块保持不变。对于每个object query，参考点的二维归一化坐标$p̂ _q$ 通过可学习的线性投影和sigmoid函数从其对象查询嵌入中预测。</p>
+<p>由于multi-scale deformable attention module提取参考点周围的图像特征，我们让检测头预测边界框作为参考点的相对偏移量，以进一步降低优化难度。将参考点作为箱体中心的初始猜测。检测头预测参考点的相对偏移量。这样，学习到的解码器注意力将与预测的边界框具有较强的相关性，这也加速了训练收敛。</p>
+<p>通过将DETR中的Transformer注意力模块替换为可变形注意力模块，我们建立了一个高效、快速收敛的检测系统，称为可变形DETR 。</p>
+<h3 id="多种计算方式之间关系"><a href="#多种计算方式之间关系" class="headerlink" title="多种计算方式之间关系"></a>多种计算方式之间关系</h3><p><img src="/2022/08/22/Deformable%20DETR/1858467-20220401094649223-612897571.png" alt="img"></p>
+<h3 id="deformable-DETR结构示意图"><a href="#deformable-DETR结构示意图" class="headerlink" title="deformable DETR结构示意图"></a>deformable DETR结构示意图</h3><p><img src="/2022/08/22/Deformable%20DETR/1858467-20220401094708641-447017032.png" alt="img"></p>
 
       
     </div>
@@ -1408,7 +2186,7 @@ <h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/VIT/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -1422,7 +2200,7 @@ <h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/" class="post-title-link" itemprop="url">YOLOv4总结</a>
+            <a href="/2022/08/22/VIT/" class="post-title-link" itemprop="url">VIT</a>
         </h2>
 
         <div class="post-meta">
@@ -1431,16 +2209,10 @@ <h2 class="post-title" itemprop="name headline">
                 <i class="far fa-calendar"></i>
               </span>
               <span class="post-meta-item-text">发表于</span>
+              
 
-              <time title="创建时间：2022-07-04 21:14:44" itemprop="dateCreated datePublished" datetime="2022-07-04T21:14:44+08:00">2022-07-04</time>
+              <time title="创建时间：2022-08-22 20:56:31 / 修改时间：21:35:42" itemprop="dateCreated datePublished" datetime="2022-08-22T20:56:31+08:00">2022-08-22</time>
             </span>
-              <span class="post-meta-item">
-                <span class="post-meta-item-icon">
-                  <i class="far fa-calendar-check"></i>
-                </span>
-                <span class="post-meta-item-text">更新于</span>
-                <time title="修改时间：2022-08-22 21:35:35" itemprop="dateModified" datetime="2022-08-22T21:35:35+08:00">2022-08-22</time>
-              </span>
 
           
 
@@ -1453,304 +2225,38 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h3 id="目标检测组成及常见技术"><a href="#目标检测组成及常见技术" class="headerlink" title="目标检测组成及常见技术"></a>目标检测组成及常见技术</h3><p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-dd7959839adc00c2803eb69574650a5a_720w.jpg" alt="img"></p>
-<p>yolov4原文中提及的目前常见的目标检测的方法:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-229510bb08fbe321ce6c041f75b676b5_720w.jpg" alt="img"></p>
-<p>可以理解为如下,目标检测网络一般由以下四个部分组成:</p>
-<ul>
-<li><p><strong>Input部分：</strong>Image，Patches，Images Pyramid(图像金字塔)</p>
-</li>
-<li><p><strong>Backbone部分</strong>(Backbone的作用是目标的特征提取,用来提取基础特征,一般是在不同图像细粒度上聚合并形成图像特征的卷积神经网络)： VGG16，ResNet-50，SpineNet，EfficientNet-B0 / B7，CSPResNeXt50，CSPDarknet53</p>
-</li>
-<li><p><strong>neck部分</strong>(neck的作用是对backbone提取到的重要特征进行加工及再利用,目标检测常在backbone和heads部分加入一些层,用来进行一系列混合和组合图像的特征,并将图像特征传递到heads层):</p>
-</li>
-<li><ul>
-<li>Additional blocks：SPP，ASPP，RFB，SAM</li>
-<li>Path-aggregation blocks：FPN，PAN，NAS-FPN，Fully-connected FPN，BiFPN，ASFF，SFAM</li>
-</ul>
-</li>
-<li><p><strong>Heads部分</strong>(heads的作用是根据传入的图像特征进行边界框的生成和类别的预测):</p>
-</li>
-<li><ul>
-<li><p><strong>Dense Predictions</strong>(one-stage)：</p>
-</li>
-<li><ul>
-<li>RPN，SSD，YOLO，RetinaNet （基于anchor）</li>
-<li>CornerNet，CenterNet，MatrixNet，FCOS（无anchor）</li>
-</ul>
-</li>
-<li><p><strong>Sparse Predictions</strong>(two-stages)：</p>
-</li>
-<li><ul>
-<li>Faster R-CNN，R-FCN，Mask R-CNN（基于anchor）</li>
-<li>RepPoints（无anchor）</li>
-</ul>
-</li>
-</ul>
-</li>
-</ul>
-<h3 id="BOF-bag-of-freebies"><a href="#BOF-bag-of-freebies" class="headerlink" title="BOF(bag of freebies)"></a>BOF(bag of freebies)</h3><p>BOF是指那些能够提高精度但不增加推断时间的技术(但有可能会增加训练时间)</p>
-<p>常见的BOF方法如下:</p>
-<ul>
-<li>数据增强.数据增广<ul>
-<li>模拟几何畸变:Random Scaling,Random Cropping,Random Flipping, Random Rotating</li>
-<li>模拟光照变化:brightness,contrast,hue,saturation(饱和度),noise</li>
-<li>模拟遮挡:Ramdom Rease,CutOut,Hide-and-Seek,Grid Mask</li>
-<li>利用多张图像进行增强:Mixup,CutMix</li>
-<li>风格迁移:Style Transfer GAN</li>
-</ul>
-</li>
-<li>网络正则化<ul>
-<li>Dropot,DropConect,DropBlock</li>
-</ul>
-</li>
-<li>处理数据分布不平衡<ul>
-<li>two-stage:Hard Negative Example Mining,Online Hard Example Mining</li>
-<li>one-stage:Focal Loss</li>
-</ul>
-</li>
-<li>one-hot类别之间没有关联<ul>
-<li>Label Smoothing,知识蒸馏</li>
-</ul>
-</li>
-<li>BBox回归的损失函数的设计:<ul>
-<li>IOU Loss,DIOU Loss,GIOU Loss,CIOU Loss</li>
-</ul>
-</li>
-</ul>
-<h3 id="BOS-bag-of-specials"><a href="#BOS-bag-of-specials" class="headerlink" title="BOS(bag of specials)"></a>BOS(bag of specials)</h3><p>BOS指的是那些增加少许推断代价,但是可以提高模型精度的方法.</p>
-<p>常见的BOS方法如下</p>
-<ul>
-<li>增大模型感受野<ul>
-<li>SPP,ASPP,RFB</li>
-</ul>
-</li>
-<li>引入注意力机制<ul>
-<li>Squeeze-and-Excitation(SE),Spatial Attention Module(SAM),modified SAM</li>
-</ul>
-</li>
-<li>特征融合,特征集成模块<ul>
-<li>Skip Connection,Hyper Column,FPN(SFAM,ASFF.BiFPN)</li>
-</ul>
-</li>
-<li>改变激活函数<ul>
-<li>Mish.Swish.Hard Swish.ReLu类</li>
-</ul>
-</li>
-<li>后处理方法<ul>
-<li>soft NMS,greedy NMS,DIOU NMS</li>
-</ul>
-</li>
-</ul>
-<h3 id="BOF和BOS中部分关键技术解析"><a href="#BOF和BOS中部分关键技术解析" class="headerlink" title="BOF和BOS中部分关键技术解析"></a>BOF和BOS中部分关键技术解析</h3><h4 id="数据增强"><a href="#数据增强" class="headerlink" title="数据增强"></a>数据增强</h4><h5 id="传统数据增强"><a href="#传统数据增强" class="headerlink" title="传统数据增强"></a>传统数据增强</h5><p>模拟几何畸变,模拟光照变换,是通过旋转,镜像,平移,改变图像亮度,色域直方图等方式进行数据的增强操作.</p>
-<h4 id="数据增强-模拟遮挡"><a href="#数据增强-模拟遮挡" class="headerlink" title="数据增强-模拟遮挡"></a>数据增强-模拟遮挡</h4><h5 id="Random-Erease"><a href="#Random-Erease" class="headerlink" title="Random Erease"></a>Random Erease</h5><p>方法Random Erease属于模拟遮挡,不需要额外的参数或者内存消耗,通过随机选择图像中的一个矩形区域,并用随机值覆盖图像,从而模拟目标物体部分被其它物体遮掩的情况；</p>
-<p>但其由于擦除的随机性,容易导致随机的填充区域将目标覆盖(例如7变成1)；当使用随机的像素值时可能会改变数据的均值和方差,从而导致测试表现不好；与其他数据增强技术同时使用时,先后顺序会对结果产生影响.</p>
-<h5 id="CutOut"><a href="#CutOut" class="headerlink" title="CutOut"></a>CutOut</h5><p>方法CutOut属于模拟遮挡,其为通过填充区域从而将区域的图像信息遮挡,从而提升模型的泛化能力.但相较于Random Reaerse的随机取区域,CutOut使用的是固定大小的正方形区域,并用全0代替随机值进行填充,并且允许正方形区域在图片外.</p>
-<p>但其会受到正方形边长设定的影响,其边长设定容易导致图像主要信息被覆盖或对信息完全不构成影响等效果.其在尺度不一的实际环境中可能会导致测试效果较差.且在使用cutout之前,应当首先进行图像的归一化,从而减少像素填充的影响.</p>
-<h5 id="Hide-and-Seek"><a href="#Hide-and-Seek" class="headerlink" title="Hide-and-Seek"></a>Hide-and-Seek</h5><p>方法Hide-and-Seek属于模拟遮挡,和上述两种方法的本质相同,可以看作是对CutOut,Random Erease方法的扩展,其核心原理就是把图像划分为若干小块的区域,然后随机删除.其理论依据为将一些区域进行填充迫使模型通过其它区域的特征进行物体的识别,从而增强特征的表现能力和学到的特征的的多样性,提高模型的泛化能力.</p>
-<p>其存在将主要物体完全遮掩的可能性,存在背景信息取代目标信息的可能性,且存在数据分布被改变的可能性.</p>
-<h5 id="Grid-Mask"><a href="#Grid-Mask" class="headerlink" title="Grid Mask"></a>Grid Mask</h5><p>Grid Mask通过生成一个和原图相同分辨率的Mask,然后将该Mask和原图相称得到一个图像来进行模拟遮挡的.其中Mask的设置是通过控制ratio来控制原图像的信息保留比例,d用来控制每个块的大小.Mask中的空值是固定间隔,固定大小的方块空值在空间内复制而得到的.用这种方法可以避免过度删除或保持连续区域.一方面,过度删除区域会导致完整目标被删除或上下文信息缺失,从而导致剩下的区域不足以表达目标信息.另一方面,区域保留过多会导致其泛用性较差.</p>
-<h4 id="数据增强-利用多张图片进行增强"><a href="#数据增强-利用多张图片进行增强" class="headerlink" title="数据增强-利用多张图片进行增强"></a>数据增强-利用多张图片进行增强</h4><h5 id="Mixup"><a href="#Mixup" class="headerlink" title="Mixup"></a>Mixup</h5><p>方法Mixup是一种运用在计算机视觉中的对图像进行混类增强的算法,其从每个batch中随机选择两张图像,以一定的比例混合形成新的图像.其混合方式为其标签和样本按随机比例进行混合,并将混合生成的图像进行训练.其公式如下所示,其中  $mixed_batch_x$是经过mixup处理之后得到的图片,而$mixed_batch_y$是mixup操作之后得到的标签,其中$\lambda$是比例系数.</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220526151020848.png" alt="image-20220526151020848"></p>
-<h5 id="CutMix"><a href="#CutMix" class="headerlink" title="CutMix"></a>CutMix</h5><p>方法cutmix是指切割出图片中的一小块,然后将这一小块贴到其他的图片之中,并且label依据同样的原理进行混合.其公式如下所示:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220526162414668.png" alt="image-20220526162414668"></p>
-<p>其中$X_A,X_B$是两张图片$Y_A,Y_B$是对应的label,$\lambda$是随机生成的权重.对于label而言当前图片内容在融合后面积的占比决定了label的值,假设分别用两张图的0.3和0.7融合在一起,原始label为[1,0]和[0,1],则融合之后的label为[0.3,0.7]</p>
-<p>cutmix最大程度的利用了统一张图像上的两种不同图像信息,具有较好的分类性能和目标定位功能</p>
-<h4 id="风格迁移GAN"><a href="#风格迁移GAN" class="headerlink" title="风格迁移GAN"></a>风格迁移GAN</h4><h5 id="Style-Transfer-GAN"><a href="#Style-Transfer-GAN" class="headerlink" title="Style Transfer GAN"></a>Style Transfer GAN</h5><p>因为在网络训练的过程中,网络常常会学习到细致的纹理特征,而不是我们常常所需要的形状特征,与我们的需求不符.因而我们使用Style Transfer GAN使图片的分割发生改变,改变图像的纹理特征而不改变图像的大致形状,从而进行数据增强,从而让模型学到纹理特征减少.提高模型的泛化能力.</p>
-<h4 id="网络正则化"><a href="#网络正则化" class="headerlink" title="网络正则化"></a>网络正则化</h4><p>机器学习中的一个核心问题是需要设计的神经网络不仅在训练数据上表现良好,并且能在新的输入上具有泛化性.网络正则化的目的是避免过拟合造成的高方差.其可以理解为通过给模型添加限制,使其在被限制的条件下进行特征的学习从而使模型具有较强的泛化能力.常见的正则化方法有:L0正则化,L1正则化,L2正则化,Dropout,DropConnect,DropBlock,早停法等.</p>
-<h5 id="Dropout"><a href="#Dropout" class="headerlink" title="Dropout"></a>Dropout</h5><p>dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的,更瘦的网络,这样降低了下一个节点对上一个节点的依赖,不会给上一层的某一个节点过高的权重,起到了压缩权重的作用。一般只在全连接层进行使用.</p>
-<h5 id="DropConnect"><a href="#DropConnect" class="headerlink" title="DropConnect"></a>DropConnect</h5><p>不同于Dropout的直接将节点的输出值置为1,DropConnect是将权值(即节点和节点之间的边)以(1-p)的概率乘以0.一般只在全连接层进行使用.</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/20160528171125066.png" alt="img"></p>
-<h5 id="DropBlock"><a href="#DropBlock" class="headerlink" title="DropBlock"></a>DropBlock</h5><p>Dropout在全连接层效果较好,但在卷积层效果不好,其原因是因为卷积层的特征图中相邻位置元素在空间上共享语义信息,所以尽管某个单元被drop,但其余单元可以将该信息补上,所以针对卷积神经网络,提出一钟结构形式的dropout来正则化,即dropblock.DropBlock则将整个局部空间进行删减丢弃,并将其运用在网络的每一个特征图上,并且可以在训练的不同阶段进行不同的设置.其效果比Dropout DropConnect好.</p>
-<h4 id="数据分布不平衡"><a href="#数据分布不平衡" class="headerlink" title="数据分布不平衡"></a>数据分布不平衡</h4><p>数据分布不均衡一般的处理办法可以分为两大类:1. 数据增强 2.损失函数权值均衡</p>
-<h5 id="TWO-STAGE"><a href="#TWO-STAGE" class="headerlink" title="TWO-STAGE"></a>TWO-STAGE</h5><h6 id="Hard-Negative-Example-Mining-困难负例样本挖掘"><a href="#Hard-Negative-Example-Mining-困难负例样本挖掘" class="headerlink" title="Hard Negative Example Mining(困难负例样本挖掘)"></a>Hard Negative Example Mining(困难负例样本挖掘)</h6><p>在目标检测中,检测的时候常常会遇到的问题是我们无法预知一张图片里面会存在多少个目标,所以目标检测框架常常会提出远高于实际数量的区域提议,但由于提出的区域太多,常常会使训练时大部分都是负样本,导致大量无意义的负样本在训练时对正样本产生了影响.根据Focal Loss的统计,通常包含少量信息的”easy examples”(负例) 与包含有用信息的”hard examples”(正例+难负例)的比例为100000:100.这会导致简单例的损失函数数值是难例的40倍.所以为了让模型正常训练,我们必须要通过某种方法抑制大量的简单负例,挖掘所有难例的信息,这是Hard Negative Example Mining的初衷.</p>
-<p>Hard Negative Example Mining的本质为在训练时,尽量多挖掘难负例加入负样本集,这样会比easy negative组成的负样本集效果更好.</p>
-<p>在RCNN中,采用了自举法(boootstrap)的方法:</p>
-<ul>
-<li>先用初始的正负样本训练分类器（此时为了平衡数据，使用的负样本也只是所有负样本的子集）</li>
-<li>用上一步训练好的分类器对样本进行分类,把其中错误分类的那些样本(hard negative)放入负样本子集</li>
-<li>继续训练分类器</li>
-<li>如此反复,直到达到停止条件(比如分类器性能不再提升).</li>
-</ul>
-<p>即可以理解为RCNN的Hard Negative Mining 可以理解为给模型定制一个错题集,在每轮训练中不断将错误的投入下一轮训练中,直到网络性能不能提升为止.</p>
-<h6 id="Online-Hard-Example-Mining"><a href="#Online-Hard-Example-Mining" class="headerlink" title="Online Hard Example Mining"></a>Online Hard Example Mining</h6><p>主要思想可以理解为:一个batch的输入经过网络的前向传播后，有一些困难样本loss较大，我们可以对loss进行降序排序，取前K个认为是hard example，然后有两种方案：</p>
-<ul>
-<li><p>第一个为最终loss只取前k个,其余置0,然后进行BP,其缺点为虽然置0,但内存中依然会为其分配内存</p>
-</li>
-<li><p>第二个方案的步骤如下所示:</p>
-<ul>
-<li>将Fast RCNN分成两个components：ConvNet和RoINet. ConvNet为共享的底层卷积层，RoINet为RoI Pooling后的层，包括全连接层；</li>
-<li>对于每张输入图像，经前向传播，用ConvNet获得feature maps（这里为RoI Pooling层的输入）；</li>
-<li>将事先计算好的proposals，经RoI Pooling层投影到feature maps上，获取固定的特征输出作为全连接层的输入；</li>
-</ul>
-<p>​     需要注意的是，论文说，为了减少显存以及后向传播的时间，这里的RoINet是有两个的，它们共享权重，</p>
-<p>​     RoINet1是只读（只进行forward），RoINet2进行forward和backward：</p>
-</li>
-</ul>
-<h5 id="ONE-STAGE"><a href="#ONE-STAGE" class="headerlink" title="ONE-STAGE"></a>ONE-STAGE</h5><h6 id="Focal-Loss"><a href="#Focal-Loss" class="headerlink" title="Focal Loss"></a>Focal Loss</h6><p>Focal Loss可以理解为一种处理样本分类不均衡的损失函数,其车中的点为根据样本分辨的难易程度给样本对应的损失添加权重,即给容易区分的样本添加较小的权重$a_1$,给难以区分的样本添加较大的权重$a_2$,那么损失函数的表达式可以写作:$L_{sum}=a_1<em>L_{易区分}+a_2</em>L_{难区分}$.其中$a_1$较小而$a_2$较大,所以损失函数中的难区分对象就将主导损失函数,即将损失函数的重点集中在难分辨的样本上,这种处理方法可以理解为Focal Loss.其中对于易分辨和难分辨的个体,我们用他们的置信度进行区分,分类置信度接近0或者1的样本称作易分辨样本,其余的称作难分辨样本.</p>
-<p>Focal Loss的公式如下:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220527153939965.png" alt="image-20220527153939965"></p>
-<p>其中$-log(p_t)$为标准交叉熵,$(1-p_t)^{\gamma}$ 为权重因子,对于$\gamma$取不同的值时.</p>
-<ul>
-<li>当 $\gamma=0$ 时，focal loss等于标准交叉熵函数。</li>
-<li>当 $\gamma&gt;0$时，因为$(1-p_t)&gt;=0$,所以focal loss的损失应该是小于等于标准交叉熵损失。所以，我们分析的重点应该放在难、易分辨样本损失在总损失中所占的比例。<br>即假设有两个$y=1$的样本，它们的分类置信度分别为0.9和0.6，取 $\gamma=2$ 。按照公式计算可得它们的损失分别为：$-(0.1)^2\log(0.9)$ 和 $ -(0.4)^2\log(0.6)$ .<br>将它们的权重相除：$\frac{0.16}{0.01}=16 $，可得到分类置信度为0.6的样本损失大大增强，分类置信度为0.9的样本损失大大抑制，从而使得损失函数专注于这些难分辨的样本上，这也是函数的中心思想。</li>
-</ul>
-<h4 id="one-hot类别之间没有关联"><a href="#one-hot类别之间没有关联" class="headerlink" title="one-hot类别之间没有关联"></a>one-hot类别之间没有关联</h4><p>One-hot是指将类别变量转换为机器学习易于利用的一种形式的过程.其只有一个值不为0,其余特征均为0.</p>
-<h5 id="Label-Smoothing"><a href="#Label-Smoothing" class="headerlink" title="Label Smoothing"></a>Label Smoothing</h5><p>多分类问题中,一般一个物体会输出对应于各个类别的置信度,然后将该置信度通过softmax便得到了该数据属于各个类别的概率.并使用cross-entropy进行loss的计算迭代.但cross-entropy和one-hot的结合使用会导致以下结果:</p>
-<ul>
-<li>真实标签跟其他标签之间的关系被忽略了，很多有用的知识无法学到；比如：“鸟”和“飞机”本来也比较像，因此如果模型预测觉得二者更接近，那么应该给予更小的loss；</li>
-<li>倾向于让模型更加“武断”，成为一个“非黑即白”的模型，导致泛化性能差；</li>
-<li>面对易混淆的分类任务、有噪音（误打标）的数据集时，更容易受影响</li>
-</ul>
-<p>label smoothing可以通过soft one-hot的方法解决上述问题,其加入了噪声,减少了真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果,增加label smoothing前后的概率分布改变如下:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-56899017cd0d5c113edc8002997381d8_720w.jpg" alt="img"></p>
-<p>交叉熵损失函数的改变如下:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-858823f138177de7f61b725b5075e491_720w.png" alt="img"></p>
-<p>最优预测概率分布如下:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-2eb621ebddc7bc3b2722cb6bf535de17_720w.jpg" alt="img"></p>
-<h5 id="知识蒸馏"><a href="#知识蒸馏" class="headerlink" title="知识蒸馏"></a>知识蒸馏</h5><p>知识蒸馏也是处理one-hot编码的一个思路.在传统的ont-hot或者硬编码过程中,一张图只存在一个标签,但忽略了标签和标签之间的关系,例如一张图片上的物体A与B很接近,那合理的分类输出应该是A最高,B次高.但使用了硬编码便会导致只输出了概率最大的类别特征,而忽略了物体与类别B的相似性,而转而告诉大家物体A与类别B与类别C的相似概率相同,这是不合常理的.而soft label则包含了更多了信息,给出了硬编码未曾给出的,物体与谁更像,不像谁,像和不像的概率等信息.且知识蒸馏引入了蒸馏温度T,从而将softmax变得更软,让其的非正确类别概率的信息暴露得更多,即让知识暴露得就越多.</p>
-<p>蒸馏温度T对softmax的影响如下图所示:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xpY2hvbmc=,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center.png" alt="(Wُ̑�ceQ�VGr�c��"></p>
-<p>当T越大的时候,类别之间的相似信息就保留得越多,当T=1的时候,即为softmax本身.</p>
-<p>在知识蒸馏的过程中存在两个网络,一个是复杂但高精度的模型Teacher模型,一个是精简但复杂度低,易部署的模型student,我们的目的是让教师网络通过hard target训练输出的soft target,作为学生网络的输入,其训练过程如下:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/f1e99d932a90ac1d4f94fdf55157cdfd.png" alt="img"></p>
-<p>在使用知识蒸馏的方法进行训练时,总的损失分为两个部分,分别为==student loss==和==distillation loss==,而最后的loss函数为student loss和distillation loss的加权求和.而在预测的时候,与Teacher模型无关,直接输入学生模型进行预测即可.</p>
-<p>这样的训练方式解决了使用one-hot编码时忽略了类间关系的问题,且压缩了模型,可以实现少样本的学习.</p>
-<p>soft targets与label smoothing相比,label smoothing将正确分类突出,而将其余错误类别拉成相同的,给予了其它类别一些分数从而避免模型过于自信,但忽略了类间关系,其对比可如下所见:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/adda1387a384d25ca220f4319a8d4613.png" alt="img"></p>
-<h4 id="BBox回归的损失函数的设计"><a href="#BBox回归的损失函数的设计" class="headerlink" title="BBox回归的损失函数的设计"></a>BBox回归的损失函数的设计</h4><h5 id="IOU-Loss"><a href="#IOU-Loss" class="headerlink" title="IOU Loss"></a>IOU Loss</h5><p>$IOU=\dfrac{ \vert A \cap B \vert}{ \vert A \cup B \vert}$</p>
-<p>IOU Loss的计算公式是直接将构成区域的四个点看为一个整体进行回归的,解决了传统的$L_1$,$L_2$损失未考虑坐标点之间相关性的问题,其计算公式可以简单的被看为</p>
-<p>$IOU Loss=1-IOU$</p>
-<p>但IOULoss存在以下缺点:</p>
-<ul>
-<li>但预测框与目标框不相交时,即$IOU(A,B)=0$时,不能反映$A,B$距离的远近,此时IOU Loss无法优化两个框不相交的情况</li>
-<li>假设预测框和目标框的大小都确定,其值只和其相交面积有关,但无法反映相交的方式.</li>
-</ul>
-<h5 id="GIOU-Loss"><a href="#GIOU-Loss" class="headerlink" title="GIOU Loss"></a>GIOU Loss</h5><p>对Ground Truth A和所得到的区域B求其的最小外接矩形C,并求A和B的IOU,$GIOU=IOU-\left(\dfrac{\vert C / A \cup B\vert}{\vert C\vert}\right)$</p>
-<p>其具有如下性质:</p>
-<ul>
-<li>当IoU值为1时，GIoU 为 1，即|A U B| = |A ∩ B|；</li>
-<li>Iou为0时，GIoU&lt;=0;</li>
-<li>-1&lt;= GIoU &lt;=1;</li>
-<li>GIou &lt;= IoU;</li>
-</ul>
-<p>由GIOU的计算过程可以得到,其的更新迭代过程中,若A与B相互包裹,则会导致其的外接矩形与$max(A,B)$相同,则GIOU退化为IOU,无法评估好坏.其次,其的训练过程首先需要其与目标框相交,所以其所需的训练轮次较多</p>
-<p>$GIOULoss=1-GIOU$</p>
-<h5 id="DIOU-Loss"><a href="#DIOU-Loss" class="headerlink" title="DIOU Loss"></a>DIOU Loss</h5><p>DIOU针对于GIOU的问题,提出了新的惩罚项,其表达式为$DIOU=IOU - \dfrac{\rho^2(A,B)}{c^2}$,其中的$\rho(A,B)$是指的是A框和B框中心点坐标的欧式距离,c是其外接矩形的对角线距离.$DIOULoss=1-DIOU$</p>
-<p>DIOU的惩罚项$\dfrac{\rho^2(A,B)}{c^2}$,其优化的直接目的是缩小惩罚项,即为减小两个矩形框中心点之间的欧式距离.比GIOU要更为直接,损失收敛速度更快.</p>
-<h5 id="CIOU-Loss"><a href="#CIOU-Loss" class="headerlink" title="CIOU Loss"></a>CIOU Loss</h5><p>边界框的回归应考虑三个比较重要的几何因素,即重叠面积,中心点距离和纵横比,在以前的各种IOULoss中,IOULoss,GIOULoss考虑重叠面积,DIOULoss考虑重叠面积和中心点距离,CIOULoss则同时考虑上述三点.</p>
-<p>CLOULoss的惩罚项如下所示:$R_{CIOU}=\dfrac{\rho^2(A,B)}{c^2}+\alpha v$,其中$\alpha$是一个正的权衡参数,v则衡量长宽比的一致性,其定义如下:</p>
-<p>$v=\dfrac{4}{\pi^2} \left(arctan\dfrac{w^{gt}}{h^{gt}}-arctan\dfrac{w}{h}\right)^2$</p>
-<p>$\alpha=\dfrac{v}{\left( 1-IOU\right)+v}$</p>
-<p>$CIOULoss=1-CLOU$</p>
-<p>对于IOULoss相关:</p>
-<ul>
-<li>IOU_Loss：主要考虑检测框和目标框重叠面积。</li>
-<li>GIOU_Loss：在IOU的基础上，解决边界框不重合时的问题。</li>
-<li>DIOU_Loss：在IOU和GIOU的基础上，考虑边界框中心点距离的信息。</li>
-<li>CIOU_Loss：在DIOU的基础上，考虑边界框宽高比的尺度信息。</li>
-</ul>
-<h4 id="增大模型感受野"><a href="#增大模型感受野" class="headerlink" title="增大模型感受野"></a>增大模型感受野</h4><h5 id="SPP"><a href="#SPP" class="headerlink" title="SPP"></a>SPP</h5><p>传统的CNN网络对图像的输入尺寸有要求,这是因为传统的CNN网络存在全连接层,全连接层的参数是上一层传入的特征个数,在传入的图像尺寸大小存在改变的情况下,该层学得的权重个数是不确定的,为了解决这个问题,SPP在全连接成之前加入了一个网络层,使其对任意的输入产生固定的输出.在SPP中,所添加的是一个pooling层,其的各种参数都是相对的,使最终pooling的结果是确定的,SPPNet思路是对于任意大小的feature map首先分成16、4、1个块，然后在每个块上最大池化，池化后的特征拼接得到一个固定维度的输出。以满足全连接层的需要。SPPNet理论上可以改进任何CNN网络，通过空间金字塔池化，使得CNN的特征不再是单一尺度的。<img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606162333329.png" alt="image-20220606162333329"></p>
-<h5 id="ASPP"><a href="#ASPP" class="headerlink" title="ASPP"></a>ASPP</h5><p>SPP可以理解为在普通的SPP的基础上,添加了膨胀因子并将输入通过ASPPPooling层,从而实现自由的多尺度特征提取.</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/7548f8d2dfdc4c34884860e5c6e4cdb9.png" alt="img"></p>
-<h5 id="RFB"><a href="#RFB" class="headerlink" title="RFB"></a>RFB</h5><p>RFB可以理解为在其每个分支上使用不同尺度的常规卷积+空洞卷积,通过各个分支上各自的不同参数来模拟人类视觉感知模式,其网络结构如下图所示:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YWl5Z2RJuWhq-WdkQ==,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="(Wُ̑�ceQ�VGr�c��"></p>
-<h4 id="引入注意力机制"><a href="#引入注意力机制" class="headerlink" title="引入注意力机制"></a>引入注意力机制</h4><p>注意力机制可以被认为是一种权重分配的机制和策略.</p>
-<h5 id="Squeeze-and-Excitation-SE"><a href="#Squeeze-and-Excitation-SE" class="headerlink" title="Squeeze-and-Excitation(SE)"></a>Squeeze-and-Excitation(SE)</h5><p>Squeeze-and-Excitation提出了一种新的网络模型的设计角度- 通过通道间的关系进行模型设计,这样提出的新的网络结构单元被叫作”Squeeze-and-Excitation”网络块,作者的定位是通过精确的建模卷积特征各个通道之间的作用关系来改善网络模型的表达能力。</p>
-<p>SE的示意图如下所示:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/20170928205849736.png" alt="img"></p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/20170928210056332.png" alt="img"></p>
-<h5 id="Spatial-Attention-Module-SAM"><a href="#Spatial-Attention-Module-SAM" class="headerlink" title="Spatial Attention Module(SAM)"></a>Spatial Attention Module(SAM)</h5><p>SAM就是用来对特征图内部的空间位置添加注意力机制的模块，假定输入的特征图还是C×H×W（也就是C张大小为H×W的特征图），这次我们对特征图的每个点（H×W内）进行通道数为C的最大值池化，这样最大值池化输出的特征图大小就是1×H×W，同时也进行通道数为C的平均值池化，输出的特征图大小也是1×H×W，将最大值池化输出的特征图和平均值池化输出的特征图进行拼接形成2×H×W的拼接特征图，然后通过1×1卷积进行通道降维成1×H×W的输出特征图，再经过Sigmoid激活形成空间注意力权重，然后和原来的C×H×W的特征图进行相乘。这样相当于给每张H×W的特征图乘于一个H×W的空间权重，从而形成空间注意力模块。<br><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YWl5Z2RJuWhq-WdkQ==,size_20,color_FFFFFF,t_70,g_se,x_16-16544820991039.png" alt="在这里插入图片描述"></p>
-<h5 id="modified-SAM"><a href="#modified-SAM" class="headerlink" title="modified SAM"></a>modified SAM</h5><p>Modified SAM是YOLOv4的一个创新点，称为像素注意力机制，它的思路也非常简单，就是把SAM模块的池化层全部去除，对C×H×W的特征图进行1×1卷积（既没有降通道也没有升通道），得到C×H×W的输出特征图，然后使用Sigmoid激活，再与原来的C×H×W进行像素点相乘。</p>
-<p>其示意图如下所示:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YWl5Z2RJuWhq-WdkQ==,size_20,color_FFFFFF,t_70,g_se,x_16-165448298270712.png" alt="在这里插入图片描述"></p>
-<p>YOLOV4里没有这样修改的好处的解释，这里只是个人见解：点卷积的一个特点是对信息进行跨通道的组合，原来的SAM里点卷积的对象是平均池化与最大值池化后的concat结果，在这里，点卷积能选择的只有2个通道，能选择的少。modified SAM利用这一点给卷积更多的通道去选择来组合更优的结果，并且是每个通道下都组合出一组更优的结果来和输入进行点乘，而SAM只组合出一组作为所有通道下的更优结果(SAM输入只有2通道，而且是均值池化和最大值池化，所以只能组合出一组，多组的结果就有问题了)，以一不好代表全部。</p>
-<h4 id="特征融合-特征集成模块"><a href="#特征融合-特征集成模块" class="headerlink" title="特征融合,特征集成模块"></a>特征融合,特征集成模块</h4><ul>
-<li>Skip Connection,Hyper Column,FPN(SFAM,ASFF.BiFPN)</li>
-</ul>
-<h4 id="改变激活函数"><a href="#改变激活函数" class="headerlink" title="改变激活函数"></a>改变激活函数</h4><ul>
-<li>Mish.Swish.Hard Swish.ReLu类</li>
-</ul>
-<h4 id="后处理方法"><a href="#后处理方法" class="headerlink" title="后处理方法"></a>后处理方法</h4><ul>
-<li>soft NMS,greedy NMS,DIOU NMS</li>
-</ul>
-<h3 id="YOLOv4最终采用方案"><a href="#YOLOv4最终采用方案" class="headerlink" title="YOLOv4最终采用方案"></a>YOLOv4最终采用方案</h3><p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606140600019.png" alt="image-20220606140600019"></p>
-<p>yolov4最后采用的结构为:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5peg5bC955qE5rKJ6buY,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
-<p>上图中部分组件:</p>
-<p>==CBM==：Yolo v4网络结构中的最小组件，其由Conv（卷积）+ BN + Mish激活函数组成。<br>==CBL==：Yolo v4网络结构中的最小组件，其由Conv（卷积）+ BN + Leaky relu激活函数组成。<br>==Res unit==：残差组件，借鉴ResNet网络中的残差结构，让网络可以构建的更深。<br>==CSPX==：借鉴CSPNet网络结构，由三个CBM卷积层和X个Res unint模块Concat组成。<br>==SPP==：采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合。</p>
-<p>张量拼接与张量相加<br>==Concat==：张量拼接，会扩充两个张量的维度，例如26×26×256和26×26×512两个张量拼接，结果是26×26×768。<br>==Add==：张量相加，张量直接相加，不会扩充维度，例如104×104×128和104×104×128相加，结果还是104×104×128。</p>
-<ul>
-<li><p>输入时采用了Mosaic数据增强,cmBN,SAT的方法</p>
-<ul>
-<li>Mosaic数据增强的使用主要是为了解决小目标的AP一般比中目标和大目标低很多的问题,但小目标分布并不均匀,且在训练集和测试集中分布不同.使用Mosaic数据增强的方法就是随机使用四张图片并进行随机的缩放和拼接,这样操作增加了很多小目标,让网络鲁棒性更好.</li>
-</ul>
-</li>
-<li><p>backbone 采用CSPDarknet53加一系列的trickrespond_bgd</p>
-<ul>
-<li><p>CSPNet全称是Cross Stage Partial Networks，也就是跨阶段局部网络。</p>
-</li>
-<li><p>CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题，将梯度的变化从头到尾地集成到特征图中，因此减少了模型的参数量和FLOPS数值，既保证了推理速度和准确率，又减小了模型尺寸。</p>
-</li>
-<li><p>CSPNet实际上是基于Densnet的思想，复制基础层的特征映射图，通过dense block 发送副本到下一个阶段，从而将基础层的特征映射图分离出来。</p>
-</li>
-<li><p>这样可以有效缓解梯度消失问题(通过非常深的网络很难去反推丢失信号) ，支持特征传播，鼓励网络重用特征，从而减少网络参数数量。</p>
-<p>CSP结构示意图如下:</p>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ4OTg0MTc0,size_16,color_FFFFFF,t_70.png" alt="在这里插入图片描述"></p>
+          <h2 id="VIT-An-image-is-worth-16-x-16-words-Transformer-for-image-recognition-at-scale"><a href="#VIT-An-image-is-worth-16-x-16-words-Transformer-for-image-recognition-at-scale" class="headerlink" title="(VIT) An image is worth 16 x 16 words: Transformer for image recognition at scale"></a>(VIT) An image is worth 16 x 16 words: Transformer for image recognition at scale</h2><h3 id="评价"><a href="#评价" class="headerlink" title="评价"></a>评价</h3><p>ViT是2020年Google团队提出的将Transformer应用在图像分类的模型，因其模型“简单”且效果好，可扩展性强，在数据量越大的前提下效果越好，从而成为了transformer在CV领域应用的里程碑著作。</p>
+<h3 id="结论"><a href="#结论" class="headerlink" title="结论"></a>结论</h3><p>当拥有足够多的数据进行预训练的时候，ViT的表现就会超过CNN，突破transformer缺少归纳偏置（即先验知识，如：卷及神经网络所默认的平移不变性等）的限制，可以在下游任务中获得较好的迁移效果。但是当训练数据集不够大的时候，ViT的表现通常比同等大小的ResNets要差一些。这是因为CNN具有两种归纳偏置，一种是局部性（locality/two-dimensional neighborhood structure），即图片上相邻的区域具有相似的特征；一种是平移不变形（translation equivariance）（即$f(g(x))=g(f(x))$),其中g代表卷积操作，f代表平移操作。当CNN具有以上两种归纳偏置，就有了很多先验信息，需要相对少的数据就可以学习一个比较好的模型。</p>
+<h3 id="结构"><a href="#结构" class="headerlink" title="结构"></a>结构</h3><p>ViT的整体结构如下图所示：</p>
+<p><img src="/2022/08/22/VIT/v2-5afd38bd10b279f3a572b13cda399233_720w.jpg" alt="img"></p>
+<p>整个ViT的运行流程如下所示：</p>
 <ul>
-<li>CSPDarknet53的激活函数使用Mish激活函数,其与leaky ReLu相比计算量较大,效果有所提升.但需要注意的是,只有在backbone之中的激活函数使用的是Mish,其余后续步骤使用的激活函数还是使用的leaky ReLu</li>
-<li>在backbone之中使用了dropblock,是一种缓解过拟合的正则化方法,其作用在任何卷积层之上.</li>
-<li>CBM是yolov4中的最小组件,由$Conv+Bn+Mish$组成,<ul>
-<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606151708955.png" alt="image-20220606151708955"></li>
-</ul>
-</li>
-<li>Res unit模块借鉴了ResNet的结构,直接将输入传到Res unit的输出端,其由经过两个CBM模块处理之后的结果和输入相加所得.<ul>
-<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606151722575.png" alt="image-20220606151722575"></li>
-</ul>
-</li>
-<li>CSP模块借鉴了上面所提到过的CSP的思想,由如下所示的部分所组成:<ul>
-<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606151847805.png" alt="image-20220606151847805"></li>
-<li>其由CBM和Res unit组件得到的结果concat而成.</li>
-</ul>
-</li>
-<li>最终的backbone分别输出$76<em>76,38</em>38,19*19$的feature map</li>
-</ul>
-</li>
-</ul>
+<li><p>假设输入图片大小为224x224,每个patch对应的像素为16x16，则对于每张图片而言，其生成的patch数量为$（224/16）×（224/16）=196$，即生成的patch序列长度为196，每个patch的大小为$16<em>16</em>3$，每个patch的元素总量为$768$。</p>
 </li>
-<li><p>neck 主要采用了SPP+PAN的思想</p>
+<li><p>对于ViT而言，其整体的结构和流程都是模仿transformer和bert的所以其分为以下几个部分：</p>
 <ul>
-<li>CBL模块和CBM模块类似,不过其的激活函数由Mish换成了Leaky ReLu,其余组件没有改变<ul>
-<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606152324192.png" alt="image-20220606152324192"></li>
-</ul>
-</li>
-<li>SPP模块的组成如下所示:<ul>
-<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA54yq5LiN54ix5Yqo6ISR,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></li>
-<li>其分别采用了$1<em>1,5</em>5,9<em>9,13</em>13$的最大池化的方式进行多尺度融合,并最终concat成为最终的feature map</li>
-</ul>
-</li>
-<li>PAN模块的组成如下所示:<ul>
-<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-b427ad60e3080fd4784df23e05ff675c_720w.jpg" alt="img"></li>
-<li>原本的PAN中,两个特征图相结合采用的是shortcut,但在yolov4中对其进行改进,采用的是concat操作,融合后的特征图尺寸有所改变:<ul>
-<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5peg5bC955qE5rKJ6buY,size_20,color_FFFFFF,t_70,g_se,x_16-16545031928827.png" alt="img"></li>
-</ul>
-</li>
-<li>SPP+PAN<ul>
-<li>SPP层自适应的进行池化提取特征,自顶向下传达强语义特征，而PAN则自底向上传达强定位特征，两两联手，从不同的主干层对不同的检测层进行参数聚合，加速了不同尺度特征的融合，进一步提高特征提取的能力。</li>
-</ul>
-</li>
+<li>Patch Embeding：上述所生成的每个patch通过投影层，投影成固定长度的向量，作为encoder的第一部分输入。其固定长度的向量的长度定义为768，所以输入的patch序列的维度为$196<em>768$，Patch Embedding的维度为$768</em>768$，最终得到的Patch Embedding的向量长度为$196*768$。</li>
+<li>Position Embedding：由于将图片分为多个patch之后，每个patch经过投影的过程中不引入位置编码信息，所以仿照bert引入position enbedding部分。其位置编码可以理解为是一个有N行（输入patch序列的长度），每行有768（embedding的维度）个元素的矩阵，其第i行就代表了第i个位置所对应的Position Embedding的值。将Patch Embedding与Position Embedding的值相加，由于维度都是$196*768$，所以加之后的维度相同</li>
+<li>$[cls]$:仿照bert中的$[cls]$，在196x768的基础上加一维，变成197x768，由于其具体的计算过程中是元素和元素之间两两计算，所以作者认为这样可以在计算过程中学到如何从其他元素上学到我们所需要的信息。并最终在经过Encoder部分的计算之后，取对应位置的输出进行分类。</li>
 </ul>
 </li>
+<li>Encoder：encoder部分由$Add/Norm+多头自注意力机制+Add/Norm+MLP$组成，其过程与transformer中的一致。其输入维度为$(196+1)*768$，经过Encoder之后输入维度与输入相同。所以支持多个Encoder块进行叠加。</li>
+<li>MLP Head：在MLP时，输入为197x768，并经过与bert相似的操作，将维度放大四倍再收缩回去，即变为$197<em>（768</em>4）$再缩小变为$197*768$。</li>
+<li>最终选取MLP的第0个位置处的元素（即为[cls]对应的位置处的元素）进行图片分类</li>
 </ul>
-</li>
-<li><p>Head 采用YOLOv3的Head</p>
+<p>最终的计算步骤如下图所示：</p>
+<p><img src="/2022/08/22/VIT/v2-ebf697b1994598019a6a59855dc0dbed_720w.png" alt="img"></p>
+<h3 id="讨论"><a href="#讨论" class="headerlink" title="讨论"></a>讨论</h3><h4 id="Position-Embedding"><a href="#Position-Embedding" class="headerlink" title="Position Embedding"></a>Position Embedding</h4><p>作者研究对比了多种位置编码方式：</p>
 <ul>
-<li>YOLOv4中$Loss=边框位置损失+类别损失+置信度损失$,其使用了CIOULoss替代了YOLOv3中的边框位置损失,其余部分没有分别,其损失函数如下:</li>
-</ul>
-</li>
+<li>1-D的位置编码</li>
+<li>2-D的位置编码</li>
+<li>相对位置编码</li>
 </ul>
-<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/123213123123.png" alt="(sd"></p>
-<p>其中置信度损失使用了focal loss</p>
+<p>作者实验结论为：不管使用哪种位置编码方式，模型的精度都很接近，甚至不适用位置编码，模型的性能损失也没有特别大。原因可能是ViT是作用在image patch上的，而不是image pixel，对网络来说这些patch之间的相对位置信息很容易理解，所以使用什么方式的位置编码影像都不大。</p>
+<p><img src="/2022/08/22/VIT/v2-99f02198921e7aed8162cd7af8a29805_720w.jpg" alt="img"></p>
+<h4 id="image-presentation"><a href="#image-presentation" class="headerlink" title="image presentation"></a>image presentation</h4><p>关于使用[cls]进行学习和直接对输出的结果通过average pooling进行学习的方法，通过实验表明两者区别不大。</p>
+<p><img src="/2022/08/22/VIT/v2-4a8b39b1d2dd43d1e9b16edbc38b1660_720w.jpg" alt="img"></p>
+<p>文章主要为了和bert类似，所以引入[cls]进行学习</p>
 
       
     </div>
@@ -1770,7 +2276,7 @@ <h3 id="YOLOv4最终采用方案"><a href="#YOLOv4最终采用方案" class="hea
   
   
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/DETR/">
 
     <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
       <meta itemprop="image" content="/images/avatar.gif">
@@ -1784,7 +2290,7 @@ <h3 id="YOLOv4最终采用方案"><a href="#YOLOv4最终采用方案" class="hea
       <header class="post-header">
         <h2 class="post-title" itemprop="name headline">
           
-            <a href="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/" class="post-title-link" itemprop="url">目标检测相关</a>
+            <a href="/2022/08/22/DETR/" class="post-title-link" itemprop="url">DETR</a>
         </h2>
 
         <div class="post-meta">
@@ -1793,16 +2299,10 @@ <h2 class="post-title" itemprop="name headline">
                 <i class="far fa-calendar"></i>
               </span>
               <span class="post-meta-item-text">发表于</span>
+              
 
-              <time title="创建时间：2022-04-19 10:53:23" itemprop="dateCreated datePublished" datetime="2022-04-19T10:53:23+08:00">2022-04-19</time>
+              <time title="创建时间：2022-08-22 20:56:17 / 修改时间：21:34:04" itemprop="dateCreated datePublished" datetime="2022-08-22T20:56:17+08:00">2022-08-22</time>
             </span>
-              <span class="post-meta-item">
-                <span class="post-meta-item-icon">
-                  <i class="far fa-calendar-check"></i>
-                </span>
-                <span class="post-meta-item-text">更新于</span>
-                <time title="修改时间：2023-06-12 16:31:51" itemprop="dateModified" datetime="2023-06-12T16:31:51+08:00">2023-06-12</time>
-              </span>
 
           
 
@@ -1815,180 +2315,71 @@ <h2 class="post-title" itemprop="name headline">
     <div class="post-body" itemprop="articleBody">
 
       
-          <h1 id="目标检测相关"><a href="#目标检测相关" class="headerlink" title="目标检测相关"></a>目标检测相关</h1><p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAUmFuYWxkX1hpZQ==,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/v2-e0a477f5a1fb362f72123676ef403894_720w.jpg" alt="img" style="zoom:150%;"></p>
-<p>传统的图片分类的深度学习的功能组成可以分为两个部分，一个为通过多重卷积层进行图片特征的学习，第二个为通过softmax进行图片的分类。</p>
-<h2 id="传统目标检测算法"><a href="#传统目标检测算法" class="headerlink" title="传统目标检测算法"></a>传统目标检测算法</h2><p>传统目标检测算法主要基于手工提取特征：算法流程如下：</p>
-<ol>
-<li>选取感兴趣的区域，选取可能包含物体的区域</li>
-<li>对可能包含物体的区域进行特征提取</li>
-<li>对提取的特征进行检测分类</li>
-</ol>
-<h3 id="Viola-Jones-Detector"><a href="#Viola-Jones-Detector" class="headerlink" title="Viola Jones Detector"></a>Viola Jones Detector</h3><p>VJ (Viola Jones)检测器采用滑动窗口的方式以检查目标是否存在窗口之中，该检测器看起来似乎很简单稳定，但由于计算量庞大导致时间复杂度极高，为了解决该项问题，VJ检测器通过合并三项技术极大提高了检测速度，这三项技术分别是：1)特征的快速计算方法-积分图，2)有效的分类器学习方法-AdaBoost，以及3)高效的分类策略-级联结构的设计。</p>
-<h3 id="HOG-Detector"><a href="#HOG-Detector" class="headerlink" title="HOG Detector"></a>HOG Detector</h3><p>HOG(Histogram of Oriented Gradients)检测器于2005年提出，是当时尺度特征不变性(Scale Invariant Feature Transform)和形状上下文(Shape Contexts)的重要改进，为了平衡特征不变性(包括平移，尺度，光照等)和非线性(区分不同的对象类别)，HOG通过在均匀间隔单元的密集网格上计算重叠的局部对比度归一化来提高检测准确性，因此HOG检测器是基于本地像素块进行特征直方图提取的一种算法，它在目标局部变形和受光照影响下都有很好的稳定性。HOG为后期很多检测方法奠定了重要基础，相关技术被广泛应用于计算机视觉各大应用。</p>
-<h3 id="DPM-Detector"><a href="#DPM-Detector" class="headerlink" title="DPM Detector"></a>DPM Detector</h3><p>作为VOC 2007-2009目标检测挑战赛的冠军，DPM(Deformable Parts Model)是目标检测传统算法中当之无愧的SOTA(State Of The Art)算法。DPM于2008年提出，相比于HOG，DPM作了很多改进，因此该算法可以看作HOG的延申算法。DPM算法由一个主过滤器(Root-filter)和多个辅过滤器(Part-filters)组成，通过硬负挖掘(Hard negative mining)，边框回归(Bounding box regression)和上下文启动(Context priming)技术改进检测精度。作为传统目标检测算法的SOTA，DPM方法运算速度快，能够适应物体形变，但它无法适应大幅度的旋转，因此稳定性差。</p>
-<h3 id="局限性"><a href="#局限性" class="headerlink" title="局限性"></a>局限性</h3><p>基于手工提取特征的传统目标检测算法主要有以下三个缺点：</p>
-<ol>
-<li>识别效果不够好，准确率不高</li>
-<li>计算量较大，运算速度慢</li>
-<li>可能产生多个正确识别的结果</li>
-</ol>
-<h2 id="深度学习目标检测算法"><a href="#深度学习目标检测算法" class="headerlink" title="深度学习目标检测算法"></a>深度学习目标检测算法</h2><p>算法大致性能可见<a target="_blank" rel="noopener" href="https://cv.gluon.ai/model_zoo/detection.html">链接</a></p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410144648473.png" alt="image-20220410144648473"></p>
-<p>Tips：Anchor的理解：anchor直译是锚，其在目标识别里面的本质即为一个多尺度的滑动窗口，在实际中大多为计算机随机生成的预测物体在哪的一个框。anchor boxes指预定义的框集合。</p>
-<h3 id="Anchor-Based"><a href="#Anchor-Based" class="headerlink" title="Anchor-Based"></a>Anchor-Based</h3><p>Tips：</p>
+          <h2 id="DETR-End-to-End-Object-Detection-with-Transformers"><a href="#DETR-End-to-End-Object-Detection-with-Transformers" class="headerlink" title="DETR: End-to-End Object Detection with Transformers"></a>DETR: End-to-End Object Detection with Transformers</h2><p>目标检测的目标是预测bounding boxes的集合和每个感兴趣物体的类别，之前的方法大都是采用间接的方法进行解决的，例如利用anchor，提出大量的region proposals或者window centers等，将问题视为回归或分类的问题。这些间接的方法都采用了很多的先验知识，并且这些先验的选取会严重的影响检测的效果。DETR将目标检测的问题视为集合预测的问题，真正建立了一个end-to-end的检测网络，并移除了许多需要手动设计的组件，例如NMS。</p>
+<h3 id="结构"><a href="#结构" class="headerlink" title="结构"></a>结构</h3><p><img src="/2022/08/22/DETR/image-20220808085358261.png" alt="image-20220808085358261"></p>
+<p>DETR的整体结构如上所示，其由backbone、transformer encoder、transformer decoder、预测前馈网络(FFNs)、辅助解码损失构成。</p>
+<p>其中基于CNN的backbone负责对输入图片进行特征的提取，encoder-decoder负责对backbone传入的图片特征和位置编码进行全局范围的特征的学习和注意力学习，然后最后使用FFNs进行最终目标的预测。</p>
+<h4 id="backbone"><a href="#backbone" class="headerlink" title="backbone"></a>backbone</h4><p>假定输入图像尺寸为$3 <em>H</em>W $，通过backbone进行特征的提取，从而生成一个尺寸为$C<em>H_0</em>W_0$的feature map。这个feature map的维度为C，在原文中使用的值是2048。每个feature map的尺寸大小为$H<em>W$，在原文中使用的尺寸为$\frac{H_0 }{32}</em>\frac{W_0 }{32}$。</p>
+<h3 id="Encoder"><a href="#Encoder" class="headerlink" title="Encoder"></a>Encoder</h3><h4 id="Encoder的输入"><a href="#Encoder的输入" class="headerlink" title="Encoder的输入"></a>Encoder的输入</h4><p>​    另外，由于transformer的过程中需要对输入元素进行注意力机制的计算，其计算复杂度为$O(n^2)$，所以backbone最后得出的特征需要首先通过$1<em>1$的卷积层进行降维。如原始的feature map的尺寸为$C</em>H<em>W$，经过$1</em>1$的卷积之后得到的大小为$D<em>H</em>W$。又由于transformer需要的是序列信息的输入，所以将三维的$D<em>H</em>W$进行压缩，压缩为$D*(HW)$。这样传入的序列，每个序列的长度为$HW$，共有$D$个序列。在原文中$D=256$</p>
+<p>​    由于在transformer的注意力机制的计算过程中，是对位置不敏感的，所以需要加入positional encoding代表其的空间信息。在原文的positional encoding的过程中，源码为：</p>
+<p><img src="/2022/08/22/DETR/image-20220808103125644.png" alt="image-20220808103125644"></p>
+<p><img src="/2022/08/22/DETR/image-20220808103146058.png" alt="image-20220808103146058"></p>
+<p>可见其为随机初始化的，然后将其进行复制从而扩展。最终的尺度也为$D*(HW)$</p>
+<h4 id="Encoder本身"><a href="#Encoder本身" class="headerlink" title="Encoder本身"></a>Encoder本身</h4><p>​    Encoder本身的结构的定义与经典transformer的相似，如下所示：</p>
+<p><img src="/2022/08/22/DETR/7.png" alt="DETR Transformer"></p>
+<h4 id="Decoder"><a href="#Decoder" class="headerlink" title="Decoder"></a>Decoder</h4><p>Decoder本身的架构也与transformer中的经典架构相似。其输入一部分为encoder部分的输出，尺度为$D<em>(HW)$，另一部分的输入为可学习的object query，其尺度为$N</em>D$，其中N为decoder最终输出的，一个远大于图像中可能存在的物体的数量，在原文中采用的是$N=100$。object query是一个随机初始化的向量，对训练之后得到的object query进行可视化，得到的结果如下所示：</p>
+<p><img src="/2022/08/22/DETR/10.png" alt="在这里插入图片描述"></p>
+<p>可得其是学到了从图片的哪个位置进行目标的搜寻的。</p>
+<p>target被初始化为0，其尺度为$D*N$。</p>
+<ul>
+<li>在self-attention部分，QKV均与target相关，$Q,K=target+query$，$V=target$</li>
+<li>在cross-attention部分，Q由self-attention的输出结合位置编码query得到，K由encoder部分的输出结合位置编码P E得到，即$K=memory+PE$，V不使用位置编码，即$V=memory$</li>
+</ul>
+<p>Decoder的输出尺度为$D*N$。</p>
+<h4 id="预测前馈网络-FFNs"><a href="#预测前馈网络-FFNs" class="headerlink" title="预测前馈网络(FFNs)"></a>预测前馈网络(FFNs)</h4><p>其本质上就是一个三层的前馈网络，用于进行类别的判断和bounding box的回归。</p>
+<ul>
+<li>用于为目标分类的逻辑回归层(线性映射+softmax)，定义为class_head=nn.Linear(d,num_classes+1)，这个加的1指的是<code>no object</code></li>
+<li>用于检测框回归的MLP，定义为<code>box_head=MLP(input_dim=d, hidden_dim=d,output_dim=4, num_layers=3)</code></li>
+</ul>
+<h4 id="辅助解码损失"><a href="#辅助解码损失" class="headerlink" title="辅助解码损失"></a>辅助解码损失</h4><p>在训练过程中，我们发现在解码器中使用辅助损耗[1]是很有帮助的，特别是有助于模型输出每个类的对象正确数量。每个解码器层的输出用共享层范数进行归一化，然后送到共享预测头(分类和盒预测)（The output of each decoder layer is normalized with a shared layer-norm then fed to the shared prediction heads (classification and box prediction).）。然后，我们像往常一样将匈牙利损失用于监督。</p>
+<h3 id="创新点"><a href="#创新点" class="headerlink" title="创新点"></a>创新点</h3><p>本文的创新点主要有如下亮点</p>
 <ul>
-<li>IoU-交并比，用来计算两个框之间的的相似度，0表示无重叠，1表示重合</li>
+<li>DETR将目标检测问题视为集合预测的问题，是NMS-free的，并完成了one-to-one label assignment</li>
+<li>DETR利用transformer将图像表示为固定大小的预测集合</li>
+<li>DETR使用基于集合的全局损失来强制进行独一无二的预测</li>
 </ul>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220409195243183.png" alt="image-20220409195243183"></p>
+<h3 id="损失计算"><a href="#损失计算" class="headerlink" title="损失计算"></a>损失计算</h3><p>在一次计算的过程中，DETR解码器会生成一个固定大小为N的预测集合（原文中设置N=100），N被设置为明确大于图像中物体数量的数值。</p>
+<ul>
+<li>我们假设$y$表示真实目标的集合，用$\hat{y}=\{\hat{y}\}^{N}_{i=1}$表示N个预测集合的结果。</li>
+<li>对真实目标的标签集合进行padding，加入no object，使得预测集合的数量和真实目标经过padding后的数量一致，为N。</li>
+<li><p>为了在两个集合之间找到一个二部图匹配，我们寻找一个使得N个元素的开销$σ̂ $最小的排列。</p>
 <ul>
-<li>NMS-非极大值抑制输出，每个锚框预测一个边缘框，NMS可以合并相似的预测：选中非背景类的最大预测值，去掉所有其他和它IoU值大于阈值的预测，重复进行直到所有预测要么被选中，要么被去掉。</li>
+<li>$σ̂ = arg min_{σ∈S_N}\sum^N_i L_{match} (y_i , ŷ_{σ(i)} )$</li>
+<li>其中 $L_{match} (y_i , ŷ_{σ(i)} )$是在真实目标集合和预测集合在索引为$σ(i)$的情况下的成对匹配成本，前人的工作证明匈牙利算法对这个问题能有效计算</li>
+<li>匹配的损失同时考虑了类别以及预测框和真实框的相似程度，每个真实目标元素$i$可以被看作为$y_i=(c_i,b_i)$，其中$c_i$是目标的类别标签（可能为$no\ object$），$b_i∈ [0, 1]^4$是一个定义了真实边框中心点的坐标和其到边缘框的宽和高的图像尺寸的参数。我们定义预测集合的编号为$σ(i)$的样本的类别$c_i$的可能性为$p̂ _{σ(i)} (c_i )$，定义预测框为$b̂ _{σ(i)}$。并由此我们定义$L_{match} (y_i , ŷ_{σ(i)} )$为:</li>
+<li><script type="math/tex; mode=display">
+L_{match} (y_i , ŷ_{σ(i)} )=−1_{c_i \neq ∅} p̂ _{σ(i)} (c_i ) + 1_{c_i  \neq ∅} L_{box}(b_i , b̂ _{σ(i)} )</script></li>
+<li>这种匹配方式与基于anchor和基于region proposal的作用相同，主要区别在于本文的方式需要找到一对一的匹配来直接进行集合预测而没有重复</li>
 </ul>
-<h4 id="Two-state"><a href="#Two-state" class="headerlink" title="Two-state"></a>Two-state</h4><p>二阶段检测算法主要分为以下两个阶段<br><strong>Stage1</strong>：从图像中生成region proposals<br><strong>Stage2</strong>：从region proposals生成最终的物体边框。</p>
-<h5 id="RCNN"><a href="#RCNN" class="headerlink" title="RCNN"></a>RCNN</h5><p>RCNN算法流程如下：</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">- 一张图片生成1k-2k个候选区域(使用Selective Search方法)，其候选区域通常是在多个尺度下生成选取的，具有不同的形状和大小。</span><br><span class="line">- 对每个候选区域，使用深度网络提取特征</span><br><span class="line">- 特征送入每一类的SVM分类器，判别是否属于该类</span><br><span class="line">- 使用回归精细修正候选框位置</span><br></pre></td></tr></table></figure>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410102221484.png" alt="image-20220410102221484"></p>
-<p>为了处理选取锚框大小不同的问题，使用兴趣区域（ROI）池化层，即将给定的任何一个锚框均匀分割成n*m块，输出每块中的最大值，不管锚框的大小，总是输出nm个值，样例如下：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/9d7d2cb8c875c42a1b87834fa38502f70d018a26.png" alt="img"></p>
-<p>兴趣区域汇聚层（RoI Pooing）与一般的汇聚层有什么不同：</p>
+</li>
+<li><p>对于上面步骤所表述的对所有匹配对的匈牙利损失如下所示，其与常规物体检测的损失定义类似：</p>
 <ul>
-<li>在一般的汇聚层中，通过设置汇聚窗口、填充和步幅的大小来间接控制输出形状</li>
-<li>在兴趣区域汇聚层中，对每个区域的输出形状是可以直接指定的 </li>
+<li><script type="math/tex; mode=display">
+L_{Hungarian}(y, ŷ) =\sum^N_{i=1}[ − log p̂ _{σ̂(i)} (c_i ) + 1_{c_i \neq ∅} L_{box} (b_i , b̂ _{σ̂ }(i))]</script><ul>
+<li>其中$σ̂(i)$是在损失计算的第一个公式中计算得出的最优项，并且在损失的计算中，物体与$no\ object$的损失与预测无关</li>
+</ul>
+</li>
 </ul>
-<p>网络结构：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220328191033301.png" alt="image-20220328191033301"></p>
-<p>问题：计算量大，导致测试速度慢、训练速度慢、训练所需空间大</p>
-<h5 id="Fast-RCNN"><a href="#Fast-RCNN" class="headerlink" title="Fast-RCNN"></a>Fast-RCNN</h5><p>RCNN的主要性能瓶颈在于其对于每一个提议区域，其CNN的前向传播是独立的。anchor之间通常有重叠，存在重复计算的情况。</p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">- 一张图片生成1k-2k个候选区域(使用Selective Search方法)</span><br><span class="line">- 将图片输入网络得到相应的特征图，将SS算法生成的候选框投影到特征图上获得相应的特征矩阵</span><br><span class="line">- 将每个特征矩阵通过ROI pooling缩放到7x7大小的特征图，接着将特征图展平通过一系列全连接层得到预测结果</span><br></pre></td></tr></table></figure>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/66a6d7b1dc3414493a3e7114c12d31bc483a7539.png" alt="img"></p>
-<p>Faste R-CNN 的改进是：</p>
+</li>
+<li><p>对于边缘框损失而言，其与边缘框有关且表示为$L_{box}$。本文直接提出了对目标的预测，为了解决所带来的物体大小所带来的对损失计算的影响，本文使用了$l_1\ loss$和广义的IOU loss的线性组合。即最终的$L_{IOU}(b_i,b̂ _{σ(i)})$公式表达如下：</p>
 <ul>
-<li>在拿到一张图片之后，首先使用 CNN 对图片进行特征提取（不是对图片中的锚框进行特征提取，而是对整张图片进行特征提取，仅在整张图像上执行卷积神经网络的前向传播），最终会得到一个 $7 <em> 7$ 或者 $14 </em> 14$ 的 feature map</li>
-<li>抽取完特征之后，再对图片进行锚框的选择（selective search），搜索到原始图片上的锚框之后将其（按照一定的比例）映射到 CNN 的输出上</li>
-<li>映射完锚框之后，再使用 RoI pooling 对 CNN 输出的 feature map 上的锚框进行特征抽取，生成固定长度的特征（将 n * m 的矩阵拉伸成为 nm 维的向量），之后再通过一个全连接层（这样就不需要使用SVM一个一个的操作，而是一次性操作了）对每个锚框进行预测：物体的类别和真实的边缘框的偏移</li>
-<li>Fast R-CNN 相对于 R-CNN 更快的原因是：Fast R-CNN 中的 CNN 不再对每个锚框抽取特征，而是对整个图片进行特征的提取（这样做的好处是：不同的锚框之间可能会有重叠的部分，如果对每个锚框都进行特征提取的话，可能会对重叠的区域进行多次重复的特征提取操作），然后再在整张图片的feature中找出原图中锚框对应的特征，最后一起做预测</li>
+<li><script type="math/tex; mode=display">
+L_{IOU}(b_i,b̂ _{σ(i)})=λ_{iou} L_{iou}(b_i , b̂ _{σ(i)} ) + λ_{L1} ||b i − b̂ _{σ(i)} ||_1 \\其中λ_{iou}、 λ_{L1} 为超参数</script></li>
 </ul>
-<p>网络结构：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220328200535046.png" alt="image-20220328200535046"></p>
-<h5 id="Faster-RCNN"><a href="#Faster-RCNN" class="headerlink" title="Faster-RCNN"></a>Faster-RCNN</h5><p>使用一个区域提议网络（即RPN）来替代Selective Search算法来获得更好的锚框。模型的其余部分保持不变，从而减少区域的生成数量并且同时保证精度。</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410142553061.png" alt="image-20220410142553061"></p>
-<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">- 将图片输入网络得到相应的特征图</span><br><span class="line">- 使用RPN结构生成候选框，将RPN生成的候选框投影到特征图上获得相应的特征矩阵，RPN可以看作一个小一点的，粗糙一点的目标检测算法，将提供给他的anchor box细化，生成数量较少的高质量的anchor。</span><br><span class="line">- 将每个特征矩阵通过ROI pooling缩放到7x7大小的特征图，接着将特征图展平通过一系列全连接层得到预测结果</span><br></pre></td></tr></table></figure>
-<ul>
-<li>Faster R-CNN 的改进：使用 RPN 神经网络来替代 selective search </li>
-<li>RoI 的输入是CNN 输出的 feature map 和生成的锚框</li>
-<li>RPN 的输入是 CNN 输出的 feature map，输出是一些比较高质量的锚框（可以理解为一个比较小而且比较粗糙的目标检测算法： CNN 的输出进入到 RPN 之后再做一次卷积，然后生成一些锚框（可以是 selective search 或者其他方法来生成初始的锚框），再训练一个二分类问题：预测锚框是否框住了真实的物体以及锚框到真实的边缘框的偏移，最后使用 NMS 进行去重，使得锚框的数量变少）</li>
-<li>RPN 的作用是生成大量结果很差的锚框，然后进行预测，最终输出比较好的锚框供后面的网络使用（预测出来的比较好的锚框会进入 RoI pooling，后面的操作与 Fast R-CNN 类似）</li>
-<li>通常被称为两阶段的目标检测算法：RPN 做小的目标检测（粗糙），整个网络再做一次大的目标检测（精准）<br>Faster R-CNN 目前来说是用的比较多的算法，准确率比较高，但是速度比较慢。</li>
-</ul>
-<h5 id="Mask-R-CNN"><a href="#Mask-R-CNN" class="headerlink" title="Mask R-CNN"></a>Mask R-CNN</h5><p>如果有像素级别的标号，使用FCN来利用这些信息，并且利用这些信息进一步的提升目标检测的精度。</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410143209642.png" alt="image-20220410143209642"></p>
-<p>Mask R-CNN 是基于 Faster R-CNN 修改而来的，改进在于</p>
-<ul>
-<li>假设有每个像素的标号的话，就可以对每个像素做预测（FCN）</li>
-<li>将兴趣区域汇聚层替换成了兴趣区域对齐层（RoI pooling -&gt; RoI align），使用双线性插值（bilinear interpolation）保留特征图上的空间信息，进而更适于像素级预测：对于pooling来说，假如有一个3 <em> 3的区域，需要对它进行2 </em> 2的RoI pooling操作，那么会进行取整从而切割成为不均匀的四个部分，然后进行 pooling 操作，这样切割成为不均匀的四部分的做法对于目标检测来说没有太大的问题，因为目标检测不是像素级别的，偏移几个像素对结果没有太大的影响。但是对于像素级别的标号来说，会产生极大的误差；RoI align 不管能不能整除，如果不能整除的话，会直接将像素切开，切开后的每一部分是原像素的加权（它的值是原像素的一部分）</li>
-<li>兴趣区域对齐层的输出包含了所有与兴趣区域的形状相同的特征图，它们不仅被用于预测每个兴趣区域的类别和边界框，还通过额外的全卷积网络预测目标的像素级位置 </li>
-</ul>
-<p>RCNN大类的总结：</p>
-<ul>
-<li>R-CNN 是最早、也是最有名的一类基于锚框和 CNN 的目标检测算法（R-CNN 可以认为是使用神经网络来做目标检测工作的奠基工作之一），它对图像选取若干提议区域，使用卷积神经网络对每个提议区域执行前向传播以抽取其特征，然后再用这些特征来预测提议区域的类别和边框</li>
-<li>Fast/Faster R-CNN持续提升性能：Fast R-CNN 只对整个图像做卷积神经网络的前向传播，还引入了兴趣区域汇聚层（RoI pooling），从而为具有不同形状的兴趣区域抽取相同形状的特征</li>
-<li>Faster R-CNN 将 Fast R-CNN 中使用的选择性搜索替换为参与训练的区域提议网络，这样可以在减少提议区域数量的情况下仍然保持目标检测的精度</li>
-<li>Mask R-CNN 在 Faster R-CNN 的基础上引入了一个全卷积网络，从而借助目标的像素级位置进一步提升目标检测的精度</li>
-<li>Faster R-CNN 和 Mask R-CNN 是在追求高精度场景下的常用算法（Mask R-CNN 需要有像素级别的标号，所以相对来讲局限性会大一点，在无人车领域使用的比较多）</li>
-</ul>
-<h4 id="One-state"><a href="#One-state" class="headerlink" title="One-state"></a>One-state</h4><p>one-state算法的特点是一步到位，速度相对较快，仅需要送入网络一次就可以预测出所有的边界框，经典的one - state算法包括YOLO，SSD，SqueezeDet和DetectNet，其主要思想为：均匀的在图像的不同位置进行密集，不同长宽比的抽样，然后利用CNN提取特征后直接进行分类与回归。但其正样本与负样本数据不均衡，导致模型准确度偏低</p>
-<h5 id="SSD"><a href="#SSD" class="headerlink" title="SSD"></a>SSD</h5><ul>
-<li>将输入图片通过一个基础网络进行特征的抽取，然后对生成的图片生成锚框，然后对每个锚框进行种类的预测和与真实边框的回归。</li>
-<li>对输入，将其通过卷积层，使其高宽减半，并对减半之后的图像生成锚框，并对每个锚框进行种类的预测和与真是边框的回归。网络底层拟合小物体，顶层拟合大物体。</li>
-<li>重复该流程</li>
-</ul>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410153453938.png" alt="image-20220410153453938"></p>
-<p>详细解释如下：</p>
-<ul>
-<li><p>输入图像之后，首先进入一个基础网络来抽取特征，抽取完特征之后对每个像素生成大量的锚框（每个锚框就是一个样本，然后预测锚框的类别以及到真实边界框的偏移）</p>
-</li>
-<li><p>SSD 在给定锚框之后直接对锚框进行预测，而不需要做两阶段（为什么 Faster RCNN 需要做两次，而 SSD 只需要做一次？SSD 通过做不同分辨率下的预测来提升最终的效果，越到底层的 feature map，就越大，越往上，feature map 越少，因此底层更加有利于小物体的检测，而上层更有利于大物体的检测）</p>
-</li>
-<li><p>SSD 不再使用 RPN 网络，而是直接在生成的大量样本（锚框）上做预测，看是否包含目标物体；如果包含目标物体，再预测该样本到真实边缘框的偏移</p>
-</li>
-</ul>
-<h5 id="YOLO系列-YOLOv1"><a href="#YOLO系列-YOLOv1" class="headerlink" title="YOLO系列-YOLOv1"></a>YOLO系列-YOLOv1</h5><p>yolo将物体检测的问题处理成回归问题，相对于滑动窗口方法和RPN的方法，yolo在每一次训练和预测中都是使用了整张图片的信息进行预测，且是端到端的网络。yolo的泛化性能较好。yolo会同时预测所有的候选框和类别的概率。</p>
-<ul>
-<li><p>将一幅图片分成SxS个网格，如果某个物体的中心落在这个网格中，则这个网格就负责预测这个物体。</p>
-</li>
-<li><p>每一个网格要预测B个bounding box，每个bounding box除了要预测位置之外，还要附带预测一个confidence，每个网格还要预测C个类别的分数。</p>
-<p>样例如下：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220411162751719.png" alt="image-20220411162751719"></p>
-<p>即，如果对于一幅图片，将其分为7x7个网格，取B=2,总共有20种物体的情况下，最后生成的数据为7x7x30的特征矩阵。其中有20个class scores，即每个7x7对应的网格对应于分类成为每种物体的概率20个，以及2个4+1，4即为坐标信息（x,y,w,h)，（x,y）为相对应于网格而言的中心坐标，(w,h)为相对于整张图片而言的宽和高，1为confidence，confidence定义为<img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220411163358736.png" alt="image-20220411163358736">，即预测的目标与真实的目标的IoU乘以是否存在物体的Pr（Object)，反映了这个框包含了一个物体的自信程度以及其预测的位置的准确程度。</p>
-</li>
-</ul>
-<p>YOLOv1网络结构示意图</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220411163937265.png" alt="image-20220411163937265"></p>
-<p>24个卷积层+2个全连接层。在3x3的卷积层之前使用1x1的卷积层，这样会减少参数数量。</p>
-<p>训练相关：使用预训练，使用224x224的图片（在ImageNet中有上百万张）进行预训练。 </p>
-<p>激活函数的选用：最后一层使用线性变换，其他层使用的是leaky ReLu，公式如下：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412193906840.png" alt="image-20220412193906840"></p>
-<p>损失函数：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220411164643885.png" alt="image-20220411164643885"></p>
-<p>tips:</p>
-<ul>
-<li>对于bounding box 损失：其中x，y为坐标，直接使用误差平方和，而w，h为对应于整张图片的宽和高，由于对于小目标和大目标而言，偏移相同的距离造成的影响是不一样的，所以不应该直接使用误差平方和，而是先开方，再使用误差平方和，这样可以使小目标在相较于大目标在偏移相同的距离的时候，其损失值更大。</li>
-<li>对于confidence损失和classes损失，分成正负样本分别使用误差平方和进行计算</li>
-<li><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412202919491.png" alt="image-20220412202919491">原文中参数设置如图，之所以$\lambda_{coord}$会是$\lambda_{noobj}$的十倍是因为我们更关心框选部分有物体的框，不那么关心没框到物体的框</li>
-<li><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412203615797.png" alt="image-20220412203615797">意为如果框是一个物体的时候为1，否则为0。</li>
-</ul>
-<p>在预测的时候，生成了SxSx（class num+B*（4+1））个框，过滤框的时候使用<img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412214139769.png" alt="image-20220412214139769">，与设定的阈值进行对比并进行NMS，剩下来的就是我们最终获得的目标。</p>
-<p>yolov1存在的问题：</p>
-<ul>
-<li><p>对群体性的密集小目标的检测性能差（理由：对每个网格只预测2个bounding box，且属于同一个类）</p>
-</li>
-<li><p>当目标出现了新的尺寸和比例，预测效果较差（理由：主要错误原因为定位不准确，是因为使用了直接预测目标的位置信息，而不是使用anchor从而预测回归参数，所以从yolov2开始，重新使用anchor）</p>
-</li>
-<li><p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412162538084.png" alt="image-20220412162538084"></p>
-<p>由于类别的预测是针对于每个网格而言的，所以当多个物体的中心出现重叠的时候会出现错误。</p>
-</li>
-<li><p>在判断某些物体时，有时不需要最后的高阶的特征，只需要较为底层，或者中层的特征就可以对物体进行判断。而yolov1的结构则全部使用了最抽象的特征进行判断，反而容易引入错误。</p>
-</li>
-</ul>
-<h5 id="YOLO系列-YOLOv2"><a href="#YOLO系列-YOLOv2" class="headerlink" title="YOLO系列-YOLOv2"></a>YOLO系列-YOLOv2</h5><p>yolov1主要存在的问题：定位误差大，召回率差。yolov2中相较于yolov1的各种尝试：</p>
-<ul>
-<li>Batch Normalization</li>
-<li>High Resolution Classifier</li>
-<li>Convolutional With Anchor Boxes</li>
-<li>Dimension Clusters</li>
-<li>Direct location prediction</li>
-<li>Fine-Grained Features</li>
-<li>Multi-Scale Training</li>
-</ul>
-<p><strong>Batch Normalization</strong>：显著的提升了训练收敛的速度，减少了所需的正则化程度。通过在每个卷积层之后添加BN层，模型提高了2％的map，且可以丢弃dropout层。</p>
-<p><strong>High Resolution Classifier</strong>：因为使用了pre train技术，在yolov1中我们使用的是Image Net的224x224图像进行训练，在预测的时候将输入的分辨率调为448x448。在yolov2中，使用448x448的Image Net的图片进行预训练，使map提升4％。</p>
-<p><strong>Convolutional With Anchor Boxes</strong>：在yolov1中对边界框的预测是直接用全连接层来预测的，是不基于anchor的。而这样会导致边界框的定位误差较大。所以yolov2认为，预测基于anchor的偏移会使这个问题较为简化，并且让这个网络更加容易学习收敛。所以YOLOV2采用了Faster R-CNN的方法，引入了anchor，在网络结构方面将原来网络的全连接层和最后一个pooling层去掉，使得最后的卷积层能输出更高分辨率的特征图。我们还缩减了网络，用416x416分辨率大小作为输入，而不是448x448。这样做的原因是希望得到的特征图有着奇数的宽和高，这样特征图的中心就只有一个，因为大的目标一般会占据图像的中心，所以最好在中心有一个单一的位置来预测这些目标。网络会经过32倍下采样，最后输入13x13大小的特征图使用anchor，模型的mAP值从69.5降到了69.2，下降了一丢丢，而召回率却从81%提高到了88%，模型的提升空间有了较大的提升。</p>
-<p><strong>Dimension Clusters:</strong>使用了anchor的聚类。yolo网络是去学习bounding box的改变，而anchor的初始值的好坏会导致学习的速度以及学习的最终结果。如果最开始就选用了较好的anchor则会使网络效果更好。所以yolov2使用k-means聚类算法对训练集的boxes进行聚类，寻找合适的anchor。</p>
-<p><strong>Direct location prediction</strong>：模型在基于anchor的训练的早期的大部分的不稳定性是来自于预测box的中心坐标，faster RCNN公式如下$x=(t_x<em>w_a)+x_a$ $y=(t_y</em>h_a)+y_a$ 但这个公式没有对$t_x t_y$的值有所限制，会导致一次迭代更新之后的box中心值偏离网格，到其余网格去。我们更希望每个anchor仅能预测当前对应网格的物体，所以yolov2更新了迭代预测的公式，采用相对于网格的坐标位置进行预测，公式如下：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413110720861.png" alt="image-20220413110720861"></p>
-<p>其中参数定义如下图：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/anchor.png" alt="anchor"></p>
-<p><strong>Fine-Grained Features</strong>：由于最终的feature map是13x13，其对于小物体的识别方面能力有所不够，所以需要上一层的size较大的feature map同样进行训练。所以添加了Passthrough layer，作用为将最终层前面一层26x26的feature map与最终的13x13的feature map进行连接，类似于ResNet和FPN的思想。</p>
-<p>其中Passthrough layer的具体操作方式如下所示：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413112932061.png" alt="image-20220413112932061"></p>
-<p>将一个4x4x1的特征转化为2x2x4的特征。</p>
-<p><strong>Multi-Scale Training</strong>：为了提升yolov2系统的鲁棒性，将输入图片的图像进行动态的调整，以完成图片的多尺度训练。在实际的操作过程中，每隔10次迭代便随机的选择一个新图像大小进行输入，选择的大小为32的倍数。32为输入到输出的放缩倍数，从320到608进行选择。</p>
-<p>yolov2的backbone采用了darknet-19 其在ImageNet上用224x224进行训练，在top -5 accuracy取得了91.2％的准确率，其网络结构如下：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413113649802.png" alt="image-20220413113649802"></p>
-<p>yolov2的整个模型框架如下所示：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413113811030.png" alt="image-20220413113811030"></p>
-<p>B=5 ClassNum=20 </p>
-<p>关于网络训练细节：权重衰退weight decay设置0.0005，momentum设置为0.9，学习率在前160次设置为0.001，在60次和90次的时候，学习率减为原来的十分之一，采用了Faster RCNN和SSD的数据增强策略，如随机裁剪，颜色偏移，在COCO和VOC上的训练策略相同</p>
-<h5 id="YOLO系列-YOLOv3"><a href="#YOLO系列-YOLOv3" class="headerlink" title="YOLO系列-YOLOv3"></a>YOLO系列-YOLOv3</h5><p>YOLOv3放弃了YOLOv2的Darknet-19作为backbone，而采用了Darknet-53进行图片的特征提取。</p>
-<p>Darknet-53的网络结构如下所示：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/70.png" alt="img"></p>
-<p>YOLOv3的网络结构如下所示：</p>
-<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413193915663.png" alt="image-20220413193915663"></p>
-<p>YOLOv3在三个不同的尺度下对box进行预测，每个尺度上预测3个box，而box的先验信息由k-means算法进行计算，以COCO数据集为例，其预测出的bounding box priors的值为<img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM3NTQxMDk3,size_16,color_FFFFFF,t_70.png" alt="img"></p>
-<p>predict one大小为13x13一般提取较大的物体特征，predict two大小为26x26一般提取中等的物体特征，predict three一般提取较小的物体特征。</p>
-<p>假设将一个图片分为NxN，则我们在一个scale的情况下，总共预测得到的参数为<br>$ NxNx3x(4+1+80) $，其中80是类别数，4是box偏移量，1是confidence，3是每一个scale预测3个bounding box。即在yolov3中，不是每个网格进行类别的预测，而是使用每个box进行类别的预测。</p>
-<p>yolo将最后的多分类任务转换为多个二分类的任务，并且损失函数使用二分类对应的交叉熵累计计算。</p>
-<p>YOLOv3使用上采样的方式，将图片更粗颗粒感的因素与更细颗粒感的因素相结合进行融合预测。</p>
+</li>
+</ul>
+<h3 id="优点"><a href="#优点" class="headerlink" title="优点"></a>优点</h3><p>DETR做到了真正没有非最大抑制（NMS）后处理，而且不需要anchor（锚点生成）等人工的先验知识。</p>
+<h3 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</h3><p>训练时间较长，对小目标的检测性能不是很高。</p>
 
       
     </div>
@@ -2007,7 +2398,7 @@ <h5 id="YOLO系列-YOLOv3"><a href="#YOLO系列-YOLOv3" class="headerlink" title
 
   
   <nav class="pagination">
-    <a class="extend prev" rel="prev" href="/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/">1</a><span class="page-number current">2</span><a class="page-number" href="/page/3/">3</a><a class="extend next" rel="next" href="/page/3/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
+    <a class="extend prev" rel="prev" href="/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/">1</a><span class="page-number current">2</span><a class="page-number" href="/page/3/">3</a><a class="page-number" href="/page/4/">4</a><a class="extend next" rel="next" href="/page/3/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
   </nav>
 
 
@@ -2073,7 +2464,7 @@ <h5 id="YOLO系列-YOLOv3"><a href="#YOLO系列-YOLOv3" class="headerlink" title
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/page/3/index.html b/page/3/index.html
index cf9e1d0..b51d62a 100644
--- a/page/3/index.html
+++ b/page/3/index.html
@@ -147,6 +147,1311 @@ <h1 class="site-title">凯_kaiii</h1>
       
   
   
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/Bert/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h2 class="post-title" itemprop="name headline">
+          
+            <a href="/2022/08/22/Bert/" class="post-title-link" itemprop="url">Bert</a>
+        </h2>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2022-08-22 20:56:02 / 修改时间：21:33:54" itemprop="dateCreated datePublished" datetime="2022-08-22T20:56:02+08:00">2022-08-22</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+          <h2 id="Bert-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding"><a href="#Bert-Pre-training-of-Deep-Bidirectional-Transformers-for-Language-Understanding" class="headerlink" title="(Bert)Pre-training of Deep Bidirectional Transformers for Language Understanding"></a>(Bert)Pre-training of Deep Bidirectional Transformers for Language Understanding</h2><h3 id="评价"><a href="#评价" class="headerlink" title="评价"></a>评价</h3><p>bert是一种预训练模型，在训练的过程中主要训练如下所示的两个子任务</p>
+<ul>
+<li>预测句子中被掩盖的词</li>
+<li>判断输入的两个句子是不是上下句</li>
+</ul>
+<p>然后在该预训练模型后面依据特定任务加上相应的微调即可完成NLP的下游任务，例如翻译、问答等。</p>
+<p>bert的架构是基于transformer的，其通过叠加transformer的encoder部分组成bert的整体框架，其encoder部分由一层多头自注意力机制、一层全链接网络、两层残差及标准化层组成，其中一个encoder部分的示意图如下所示：</p>
+<p><img src="/2022/08/22/Bert/image-20220802090401760.png" alt="image-20220802090401760"></p>
+<p>在论文中提出了两种大小的模型，大的模型有24层，每层16个attention。小的模型12层，每层12个attention。</p>
+<p>整个模型由模型输入、网络训练以及对每个具体任务的微调组成。</p>
+<h3 id="模型任务"><a href="#模型任务" class="headerlink" title="模型任务"></a>模型任务</h3><p>要了解模型的训练过程，首先需要对模型的训练任务有一定了解。模型的训练任务分为以下两个部分<strong>masked language model</strong>和<strong>next sentence prediction</strong>。</p>
+<ul>
+<li>masked language model：即随机掩盖掉输入中的部分单词，然后让模型通过上下文来预测该单词。<ul>
+<li>具体在bert中，选用了15%的token会被随机掩盖，这15%的token中80%用[MASK]这个token来代替，10%用随机的一个词来替换，10%保持这个词不变。这种设计使得模型具有捕捉上下文关系的能力，同时能够有利于token-level tasks例如序列标注。</li>
+<li>不将选中的token全都用[mask]替换的原因是，如果全部替换，会让模型学习到“如果当前词是 [MASK]，就根据其他词的信息推断这个词；如果当前词是一个正常的单词，就直接抄输入”，但是在模型微调的时候，并不会存在[mask]，所以会让模型在微调时失效。</li>
+</ul>
+</li>
+</ul>
+<p>示意图如下所示：</p>
+<p><img src="/2022/08/22/Bert/1620.jpeg" alt="img"></p>
+<ul>
+<li>next sentence prediction：给定两句话，判断第二句话是否紧跟在第一句话之后。<ul>
+<li>其任务具体为在所有样本中的50%的句子，选择其相应的下一句一起形成上下句，作为正样本；其余50%的句子随机选择一句非下一句一起形成上下句，作为负样本。且作者强调，应使用document-level的而不是sentence-level的样本，从而具备长序列特征的抽象能力。</li>
+</ul>
+</li>
+</ul>
+<p>示意图如下所示：</p>
+<p><img src="/2022/08/22/Bert/1620-16594041231163.jpeg" alt="img"></p>
+<h3 id="模型输入"><a href="#模型输入" class="headerlink" title="模型输入"></a>模型输入</h3><p>对于bert而言，其输入分为三部分：即Token Enbeddings，position embeddings，segment embeddings。其中由bert的设计，我们引入[CLS]作为输入的开始的起始符，引入[SEP]作为两个句子的分割符（next sentence prediction中输入为两句话，故引入[SEP]）。</p>
+<ul>
+<li>Token Enbeddings：为单词本身的向量表示。在bert中使用的是WordPiece方法，其是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。最终用30000左右的token表达了所有的词。</li>
+<li>position embedding：将单词的位置信息编码成特征向量。因为我们的网络结构没有RNN 或者LSTM，因此我们无法得到序列的位置信息，所以需要构建一个position embedding来表示位置信息。<ul>
+<li>构建position embedding有两种方法：BERT是初始化一个position embedding，然后通过训练将其学出来；而Transformer是通过制定规则来构建一个position embedding（sin、cos表示）</li>
+</ul>
+</li>
+<li>segment embedding：用于区分两个句子的向量表示。</li>
+</ul>
+<p>下图为模型输入的示意图：</p>
+<p><img src="/2022/08/22/Bert/embedding.png" alt="img"></p>
+<p>并最终将上述三种Embedding相加，作为最终的输入。</p>
+<h3 id="模型结构"><a href="#模型结构" class="headerlink" title="模型结构"></a>模型结构</h3><h4 id="不同结构的bert"><a href="#不同结构的bert" class="headerlink" title="不同结构的bert"></a>不同结构的bert</h4><p>对于bert而言，其主要的结构在于其encoder块的叠加，大的模型有24层，每层16个attention，隐藏层大小为1024，参数总量为340M。小的模型12层，每层12个attention，隐藏层大小为768，参数总量为110M。</p>
+<p>以小的模型为例，输入的size由WordPiece可得为30000。</p>
+<ul>
+<li>嵌入层：嵌入层可学习的参数量为：$30000*12$</li>
+<li>对于一个encoder块：<ul>
+<li>首先经过多头自注意力的计算，参数量为$(64<em>12)</em>(64<em>12)</em>4$</li>
+<li>然后经过全链接层的计算，参数量为$(64<em>12)</em>(64<em>12)</em>8$</li>
+<li>总共有12层，所以总共encoder部份的计算总量为$(64<em>12)</em>(64<em>12)</em>(4+8)*12$</li>
+</ul>
+</li>
+</ul>
+<p>总共的计算量为:</p>
+<p>$30k<em>(12</em>64)+(64<em>12)</em>(64<em>12)</em>(4+8)*12\approx110M$</p>
+<p>大模型同理。</p>
+<p>其所对应的Encoder块的计算原理如之前写的transformer所示。</p>
+<h4 id="BN-LN的选择"><a href="#BN-LN的选择" class="headerlink" title="BN/LN的选择"></a>BN/LN的选择</h4><p>对于BN、LN的选择，可直观的如下图所示：</p>
+<p><img src="/2022/08/22/Bert/BNLN.png" alt="img"></p>
+<p>可以简单的对其理解为，BN是对一个batch里面所有样本的同一个位置的特征做归一化，然后LN是对一个batch里面的一个样本的所有特征做归一化。</p>
+<p>所以LN更加符合对文本处理的直觉。</p>
+<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3><h4 id="模型特点"><a href="#模型特点" class="headerlink" title="模型特点"></a>模型特点</h4><ul>
+<li>使用transformer作为算法的主要框架，transformer能<strong>更彻底的捕捉语句中的双向关系</strong></li>
+<li>使用了mask language model 和next sentence prediction的多任务训练目标，<strong>是一个自监督的过程，不需要数据的标注</strong></li>
+<li>使用tpu这种强大的机器训练了大规模的预料，是NLP的很多任务达到了全新的高度。</li>
+</ul>
+<p>​    BERT本质上是在海量语料的基础上，通过自监督学习的方法为单词学习一个好的特征表示。该模型的优点是可以根据具体的人物进行微调，或者直接使用预训练的模型作为特征提取器。</p>
+<h4 id="可优化空间"><a href="#可优化空间" class="headerlink" title="可优化空间"></a>可优化空间</h4><p>（1）如何让模型有<strong>捕捉Token序列关系</strong>的能力，而不是简单依靠位置嵌入。</p>
+<p>（2）模型太大，太耗机器</p>
+
+      
+    </div>
+
+    
+    
+    
+      <footer class="post-footer">
+        <div class="post-eof"></div>
+      </footer>
+  </article>
+  
+  
+  
+
+      
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/08/22/transformer%E7%9B%B8%E5%85%B3/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h2 class="post-title" itemprop="name headline">
+          
+            <a href="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/" class="post-title-link" itemprop="url">transformer相关</a>
+        </h2>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+              
+
+              <time title="创建时间：2022-08-22 20:55:36 / 修改时间：21:34:52" itemprop="dateCreated datePublished" datetime="2022-08-22T20:55:36+08:00">2022-08-22</time>
+            </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+          <h2 id="Transformer相关"><a href="#Transformer相关" class="headerlink" title="Transformer相关"></a>Transformer相关</h2><p>要了解transformer，首先需要对其发展有一定的了解，即从RNN开始。</p>
+<h3 id="经典RNN（N-vs-N）"><a href="#经典RNN（N-vs-N）" class="headerlink" title="经典RNN（N vs N）"></a>经典RNN（N vs N）</h3><p>个人在搜寻资料过程中，认为以下两个链接讲得很好，就不再赘述，直接贴链接了。</p>
+<ul>
+<li><a target="_blank" rel="noopener" href="https://zhuanlan.zhihu.com/p/52119092">NLP中的RNN、Seq2Seq与attention注意力机制</a></li>
+<li><a target="_blank" rel="noopener" href="https://zhuanlan.zhihu.com/p/28054589">完全图解RNN、RNN变体、Seq2Seq、Attention机制</a></li>
+<li><a target="_blank" rel="noopener" href="https://blog.csdn.net/Tink1995/article/details/105012972">Attention详解</a></li>
+<li><a href="[https://blog.csdn.net/Tink1995/article/details/105080033?spm=1001.2101.3001.6650.1&amp;utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-1-105080033-blog-104374257.pc_relevant_vip_default&amp;depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-1-105080033-blog-104374257.pc_relevant_vip_default&amp;utm_relevant_index=2](https://blog.csdn.net/Tink1995/article/details/105080033?spm=1001.2101.3001.6650.1&amp;utm_medium=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~default-1-105080033-blog-104374257.pc_relevant_vip_default&amp;depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~default-1-105080033-blog-104374257.pc_relevant_vip_default&amp;utm_relevant_index=2">Transformer详解</a>)</li>
+</ul>
+<p>总而言之，经典RNN是存储并利用了历史信息的网络，其输入和输出必须相同。</p>
+<h3 id="seq2seq模型（N-vs-M）"><a href="#seq2seq模型（N-vs-M）" class="headerlink" title="seq2seq模型（N vs M）"></a>seq2seq模型（N vs M）</h3><p>seq2seq模型为RNN的一种变种，其输入输出不定，也叫做Encoder-Decoder模型，但其是不存在注意力机制的。</p>
+<p>Encoder和Decoder均可以看做一个独立的有记忆系统的网络（RNN、LSTM等）</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/v2-77e8a977fc3d43bec8b05633dc52ff9f_720w.jpg" alt="img"></p>
+<p>如上图所示，输入x1～x4，通过Encoder生成h1～h4。则最终生成的语义编码c依据其具体定义可得为h1～h4的组合，即可表示为$C=q(h1,h2,h3,h4)$，C最终为一个固定长度的语义向量。在Decoder阶段，将C作为输入，Decoder将其解码成所需的序列数据。解码过程如下所示：</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/1.png" alt="在这里插入图片描述"></p>
+<p>生成的语义编码C,在计算每一时刻的输出$y_t$的时候均作为独立的输入，即其对应的公式可表示为如下所示：</p>
+<script type="math/tex; mode=display">
+y_t=f(C,y_1,y_2.....y_{t-1})</script><p>有另一种解码方式是C只在$y_1$的时候作为输入，并不对其余的$y_t$输入。</p>
+<p>这两种解码方式均有以下缺点：</p>
+<ul>
+<li><p>在生成对应的$y_t$的时候，其使用的C是相同的，即无论生成哪个单词，其输入序列中的任意组成部分对目标的影响力是相同的，没有区别</p>
+</li>
+<li><p>将整个序列的信息压缩在了一个语义编码C中，导致序列长度极长，容易引起梯度消失，信息损失等问题。</p>
+</li>
+</ul>
+<h3 id="Attention-注意力机制"><a href="#Attention-注意力机制" class="headerlink" title="Attention 注意力机制"></a>Attention 注意力机制</h3><p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/v2-9407244671e4bc4fa32da7e66fba25bf_720w.jpg" alt="img"></p>
+<p>故引入Attention 注意力机制：’’机器学习’’翻译而得’machine learning’ ，我们显然希望在翻译得到machine的时候，机器的权重较大，得到learning的时候学习的权重较大。对应到上图及为红色的权重大。这样的权重机制便可理解为注意力机制</p>
+<p>对应的模型框图如下所示：</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/2.png" alt="在这里插入图片描述"></p>
+<p>即不再使用一个单一的语义编码C，而是使用多个$C_1,C_2..C_N$的编码，预测Y的时候，Y的注意力集中在语义编码$C_i$上，则使用对应的$C_i$，从而模拟人的注意力机制。那如何计算对应的$C_1,C_2..C_N$，假设$\alpha_{ij}$表示权值分布，$h_j$表示第j个输入对应的隐藏层输出，则$C_i$公式可如下所示：</p>
+<script type="math/tex; mode=display">
+C_i=\sum_{j=1}^n\alpha_{ij}h_j</script><p>那问题就转变为了$\alpha_{ij}$的计算</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/3.png" alt="在这里插入图片描述"></p>
+<p>$\alpha_{ij}$的计算：decoder上一时刻的输出值$Y_{i-1}$与上一时刻传入的隐藏层的值$S_{i-1}$进行计算生成$H_i$，然后计算$H_i$与$h_1，h_2，h_3…h_m$的相关性，得到相关性评分$[f_1,f_2,f_3…f_m]$，然后对$F_i$进行softmax就得到注意力分配$α_{ij}$。然后将encoder的输出值h与对应的概率分布αij进行点乘求和，就能得到注意力attention值了。</p>
+<h4 id="Attention机制的本质思想"><a href="#Attention机制的本质思想" class="headerlink" title="Attention机制的本质思想"></a>Attention机制的本质思想</h4><p>为更深刻的了解上述过程，Attention机制的本质思想可如下所示：</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/4.png" alt="在这里插入图片描述"></p>
+<p>即对于source而言，其由Key和Value构成的数据对构成，给定Target中的某个元素query，通过计算query与key的相似度从而得到query和key之间的相似性或者相关性，从而得到对应的权重系数。然后按照权重系数对value进行加权求和。</p>
+<p>上述所提到的相似度计算一般有如下三种方式：点积、cosine相似性和MLP网络，对应的计算公式如下所示：</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/20200322200849586.png" alt="在这里插入图片描述"></p>
+<h4 id="Attension框图"><a href="#Attension框图" class="headerlink" title="Attension框图"></a>Attension框图</h4><p>Attention过程总体上均可如下图所示：</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/5.png" alt="在这里插入图片描述"></p>
+<p>阶段1：Query与每一个Key计算相似性得到相似性评分s<br>阶段2：将s评分进行softmax转换成[0,1]之间的概率分布$\alpha$<br>阶段3：将[$\alpha_1,\alpha_2,\alpha_3….\alpha_n$]作为权值矩阵对Value进行加权求和得到最后的Attention值</p>
+<h4 id="Attension的优缺点"><a href="#Attension的优缺点" class="headerlink" title="Attension的优缺点"></a>Attension的优缺点</h4><ul>
+<li>优点：<ul>
+<li>速度快。Attention机制不再依赖于RNN，解决了RNN不能并行计算的问题。这里需要说明一下，基于Attention机制的seq2seq模型，因为是有监督的训练，所以咱们在训练的时候，在decoder阶段并不是说预测出了一个词，然后再把这个词作为下一个输入，因为有监督训练，咱们已经有了target的数据，所以是可以并行输入的，可以并行计算decoder的每一个输出，但是再做预测的时候，是没有target数据地，这个时候就需要基于上一个时间节点的预测值来当做下一个时间节点decoder的输入。所以节省的是训练的时间。</li>
+<li>效果好。效果好主要就是因为注意力机制，能够获取到局部的重要信息，能够抓住重点。</li>
+</ul>
+</li>
+<li>缺点：<ul>
+<li>1.只能在Decoder阶段实现并行运算，Encoder部分依旧采用的是RNN，LSTM这些按照顺序编码的模型，Encoder部分还是无法实现并行运算，不够完美。</li>
+<li>2.就是因为Encoder部分目前仍旧依赖于RNN，所以对于中长距离之间，两个词相互之间的关系没有办法很好的获取。</li>
+</ul>
+</li>
+</ul>
+<h3 id="Self-Attension"><a href="#Self-Attension" class="headerlink" title="Self-Attension"></a>Self-Attension</h3><p>针对于Attension的缺点，提出Self-Attension，其输入sourve与输出Target的内容是相同的，其具体的计算过程与基本原理与Attension是完全相同的，其的Key=Value=Query。其优点为：可以捕获句子中长距离的相互关联的特征，可以通过一个计算步骤直接将其联系起来。且其可以增加计算的并行性，一次性解决了Attension的两个缺点。</p>
+<h3 id="Transformer"><a href="#Transformer" class="headerlink" title="Transformer"></a>Transformer</h3><p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/6.png" alt="在这里插入图片描述"></p>
+<p>Transformer的结构如上所示，主要由四个部分组成：Input、Encoder、Decoder、Output。其中最为重要的为encoder和decoder部份。对于Transformer而言，其的超参数只有两个，一个为N，即Encoder block重复几次，另一个为每一层对应的长度，在transformer中，其将每一层的长度限制为512不变。所以整个Transformer中只有两个超参数。</p>
+<h4 id="Input"><a href="#Input" class="headerlink" title="Input"></a>Input</h4><p>对于Input部分，一般而言其输入都是将文字序列转化为vector，即经过word2vec、one-hot等形式的编码之后得到的向量。由于transformer的方法在整个计算过程中完全是基于self-Attension的，其整个计算过程中是没办法获取词语位置信息的。而词语的位置信息对句子的意思有巨大的影响。为了强调位置在输入之中的重要性，我们需要给每一个词向量添加一个位置编码，即上图中所示的Positional Encoding。</p>
+<p>Positional Encoding的常用方式有以下两种：</p>
+<ul>
+<li>通过数据学习的到positional Encoding ，如google所提出的bert</li>
+<li>通过正余弦位置编码等编码方式进行编码，如Attension is all you need中。位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，位置向量维度必须和词向量的维度一致。过程如上图，PE（positional encoding）计算公式如下：</li>
+</ul>
+<script type="math/tex; mode=display">
+P E (pos,2i) = sin(pos/10000^{2i/d_{model}} )\\
+P E (pos,2i+1) = cos(pos/10000^{2i/d_{model}} )</script><p>在上述公式中，pos为绝对位置，$d_{model}$为词向量的维度。</p>
+<h4 id="Encoder"><a href="#Encoder" class="headerlink" title="Encoder"></a>Encoder</h4><h5 id="Multi-Head-Attention"><a href="#Multi-Head-Attention" class="headerlink" title="Multi-Head Attention"></a>Multi-Head Attention</h5><p>假设经过Input之后输出的Embedding Vector为$X_1,X_2….$，在Attention计算的的时候，需要$X_i$所对应的Query、Keys、Values向量，这些向量由Input$X_i$与三个权值矩阵$W^Q,W^K,W^V$相乘求得，其对应图示如下所示：其中权值矩阵是可以通过学习优化的</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/7.png" alt="在这里插入图片描述"></p>
+<p>其中X的每一行代表一个输入，一行的长度代表了Embedding的长度。</p>
+<p>依据之前对attention的描述，以及上图的对$X,W,Q,K,V$的描述，我们可以类似的将其的计算过程表示为如下图所示：</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/attention.png" alt="在这里插入图片描述"></p>
+<p>其具体计算过程可概括如下：</p>
+<ol>
+<li>输入序列中每个单词之间的相关性得分，在Transformer中使用的是点积法，就是用Q中每一个向量与K中每一个向量计算点积，具体到矩阵的形式为：$s c o r e = Q ⋅ K^T$ socre是一个(2,2)的矩阵</li>
+<li>对于输入序列中每个单词之间的相关性得分进行归一化，归一化的目的主要是为了训练时梯度能够稳定。$score = score/\sqrt{d_k}$ ，dk就是K的维度</li>
+<li>通过softmax函数，将每个单词之间的得分向量转换成[0,1]之间的概率分布，同时更加凸显单词之间的关系。经过softmax后，score转换成一个值分布在[0,1]之间的(2,2)α概率分布矩阵</li>
+<li>根据每个单词之间的概率分布，然后乘上对应的Values值，α与V进行点积， $Z = softmax(score)\cdot V$，V的为维度是(2,64)，(2,2)x(2,64)最后得到的Z是(2,64)维的矩阵</li>
+</ol>
+<p>从self-attention到transformer中的multi-head attention，可以对其简单的理解为从：通过Embedding之后生成的vector X通过与多组的不同的权值矩阵$W^Q,W^K,W^V$相乘，求得多组的Query、keys、values。然后依据上述计算过程计算得出多个Z，然后将上述得到的多个Z矩阵进行拼接求得最终的输出矩阵。</p>
+<h5 id="Add-amp-Norm"><a href="#Add-amp-Norm" class="headerlink" title="Add  &amp; Norm"></a>Add  &amp; Norm</h5><p>在multihead attention之后的是Add &amp; Norm层，其中Add层采用的是resnet的想法，残差链接。Norm层采用的是Layer Normalization（LN）。一般常采用的还有另一种Normalization方法是Batch Normalization，其的对比如下图：</p>
+<p><img src="/2022/08/22/transformer%E7%9B%B8%E5%85%B3/BNLN.png" alt="在这里插入图片描述"></p>
+<h5 id="Feed-Forward-Networks"><a href="#Feed-Forward-Networks" class="headerlink" title="Feed-Forward Networks"></a>Feed-Forward Networks</h5><p>在Add&amp;Norm之后的是Feed-Forward Networks，即一个前馈神经网络，在Transformer中直接使用了一个两层的神经网络，激活函数使用的Relu引入非线性因素，并在最终计算之后的结果输入encoder中。其公式大致如下所示</p>
+<script type="math/tex; mode=display">
+FFN(x)=max(0,x W_1+b_1 )W_2     +b_2</script><h4 id="Decoder"><a href="#Decoder" class="headerlink" title="Decoder"></a>Decoder</h4><h5 id="Decoder在不同模式下的输入"><a href="#Decoder在不同模式下的输入" class="headerlink" title="Decoder在不同模式下的输入"></a>Decoder在不同模式下的输入</h5><p>Decoder在训练和预测的情况下，其对应的输入是有所不同的，如之前的transformer模型结构所示，其中的Outputs(shifted right)的输入只有在训练的时候输入。在训练的时候，假设任务为中译英，Inputs为我爱你，在训练的时候，Outputs则应输入I love you，而在预测的时候 ，Outputs初始输入为起始符，然后每次的输入是上一时刻的Transformer的输出。</p>
+<h5 id="Masked-Multi-Head-Attention"><a href="#Masked-Multi-Head-Attention" class="headerlink" title="Masked Multi-Head Attention"></a>Masked Multi-Head Attention</h5><p>与Encoder的Multi-Head Attention计算原理一样，只是多加了一个mask码。mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 padding mask 和 sequence mask。</p>
+<ol>
+<li><p>padding mask</p>
+<p>padding mask 实际上在encoder和decoder两个模块中都存在，padding mask主要处理的问题是输入序列长度不一致的问题。所以我们要对输入序列进行对齐。具体来说，就是给在较短的序列后面填充 0。但是如果输入的序列太长，则是截取左边的内容，把多余的直接舍弃。因为这些填充的位置，其实是没什么意义的，所以我们的attention机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。<br>具体的做法是，把这些位置的值加上一个非常大的负数(负无穷)，这样的话，经过 softmax，这些位置的概率就会接近0！</p>
+</li>
+<li><p>sequence mask</p>
+<p>sequence mask 只存在于decoder的第一个Masked Multi-Head Attention 中。这样做是为了使得 decoder 不能看见未来的信息。也就是对于一个序列中的第i个token解码的时候只能够依靠i时刻之前(包括i)的的输出，而不能依赖于i时刻之后的输出。因此我们要采取一个遮盖的方法(Mask)使得其在计算self-attention的时候只用i个时刻之前的token进行计算。<br>那么具体的做法为：产生一个上三角矩阵，上三角的值全为0。把这个矩阵作用在每一个序列上，就可以达到我们的目的。</p>
+</li>
+</ol>
+<h5 id="Add＆Normalize"><a href="#Add＆Normalize" class="headerlink" title="Add＆Normalize"></a>Add＆Normalize</h5><p>Add＆Normalize与Encoder中一样</p>
+<h5 id="Multi-Head-Attention-1"><a href="#Multi-Head-Attention-1" class="headerlink" title="Multi-Head Attention"></a>Multi-Head Attention</h5><p>这是decoder中的第二个Multi-Head Attention。这个Multi-Head Attention相对于encoder中的Multi-Head Attention而言，其不是Self Attention的。在decoder中，它的输入Query来自于Masked Multi-Head Attention的输出，Keys和Values来自于Encoder中最后一层的输出。</p>
+<p>对于decoder中的两个Multi-Head Attention而言：</p>
+<ul>
+<li>第一个Masked Multi-Head Attention是为了得到之前已经预测输出的信息，相当于记录当前时刻的输入之间的信息的意思。</li>
+<li>第二个Multi-Head Attention是为了通过当前输入的信息得到下一时刻的信息，也就是输出的信息，是为了表示当前的输入与经过encoder提取过的特征向量之间的关系来预测输出。</li>
+</ul>
+<p>经过了第二个Multi-Head Attention之后的Feed Forward Network与Encoder中一样，然后就是输出进入下一个decoder，如此经过6层decoder之后到达最后的输出层。</p>
+<h4 id="Output"><a href="#Output" class="headerlink" title="Output"></a>Output</h4><p>最终我们所得到的Decoder的输出为vector，我们将其通过Linear进行线性变换，然后经过SoftMax得到对应的概率分布，然后将其通过词典对应从而输出概率最大的对象作为我们的预测输出。</p>
+<h4 id="优点"><a href="#优点" class="headerlink" title="优点"></a>优点</h4><ol>
+<li>效果好且可以并行训练，速度快</li>
+<li>其设计已经足够有创新，因为其抛弃了在NLP中最根本的RNN或者CNN并且取得了非常不错的效果，算法的设计非常精彩</li>
+<li>Transformer的设计最大的带来性能提升的关键是将任意两个单词的距离是1，这对解决NLP中棘手的长期依赖问题是非常有效的。</li>
+<li>Transformer不仅仅可以应用在NLP的机器翻译领域，甚至可以不局限于NLP领域，是非常有科研潜力的一个方向。</li>
+</ol>
+<h4 id="缺点"><a href="#缺点" class="headerlink" title="缺点"></a>缺点</h4><ol>
+<li>完全基于self-attention，对于词语位置之间的信息有一定的丢失，虽然加入了positional encoding来解决这个问题，但也还存在着可以优化的地方。</li>
+<li>粗暴的抛弃RNN和CNN虽然非常炫技，但是它也使模型丧失了捕捉局部特征的能力，RNN + CNN + Transformer的结合可能会带来更好的效果。</li>
+</ol>
+
+      
+    </div>
+
+    
+    
+    
+      <footer class="post-footer">
+        <div class="post-eof"></div>
+      </footer>
+  </article>
+  
+  
+  
+
+      
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h2 class="post-title" itemprop="name headline">
+          
+            <a href="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/" class="post-title-link" itemprop="url">目标检测经典论文阅读</a>
+        </h2>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+
+              <time title="创建时间：2022-07-26 22:26:51" itemprop="dateCreated datePublished" datetime="2022-07-26T22:26:51+08:00">2022-07-26</time>
+            </span>
+              <span class="post-meta-item">
+                <span class="post-meta-item-icon">
+                  <i class="far fa-calendar-check"></i>
+                </span>
+                <span class="post-meta-item-text">更新于</span>
+                <time title="修改时间：2022-08-22 21:34:23" itemprop="dateModified" datetime="2022-08-22T21:34:23+08:00">2022-08-22</time>
+              </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+          <h2 id="SSD-Single-Shot-MultiBox-Detector"><a href="#SSD-Single-Shot-MultiBox-Detector" class="headerlink" title="(SSD) Single Shot MultiBox Detector"></a>(SSD) Single Shot MultiBox Detector</h2><h3 id="SSD主要有以下几个主要特点"><a href="#SSD主要有以下几个主要特点" class="headerlink" title="SSD主要有以下几个主要特点"></a>SSD主要有以下几个主要特点</h3><ul>
+<li>特征提取主干网络：VGG16，去除全连接层fc8，fc6 和 fc7层转换为卷积层，pool5不进行分辨率减小，在fc6上使用dilated convolution弥补损失的感受野；并且增加了一些分辨率递减的卷积层；</li>
+<li>SSD摈弃了proposal的生成阶段，使用anchor机制，这里的anchor就是位置和大小固定的box，可以理解成事先设置好的固定的proposal</li>
+<li>SSD使用不同深度的卷积层预测不同大小的目标，对于小目标使用分辨率较大的较低层，即在低层特征图上设置较小的anchor，高层的特征图上设置较大anchor</li>
+<li>预测模块：使用3x3的卷积对每个anchor的类别和位置直接进行回归</li>
+<li>SSD使用的data augmentation对效果影响很大</li>
+</ul>
+<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/v2-6c94c262502872e9d667cd03959d1f2e_720w.jpg" alt="img"></p>
+<h3 id="SSD训练时的流程："><a href="#SSD训练时的流程：" class="headerlink" title="SSD训练时的流程："></a>SSD训练时的流程：</h3><ul>
+<li>生成初始框<ul>
+<li>SSD的初始框不是自适应的，是根据预先设置好的anchor生成规则进行生成的，其无需利用输入图像的信息进行生成，这也导致有一部分的先验信息没有被利用到。</li>
+</ul>
+</li>
+<li>先验框匹配<ul>
+<li>即label assignment ，即为判断训练图片中的目标真实框与哪个先验框来进行匹配，从而使匹配的框进行位置的预测。SSD中使用的先验框匹配的方法是IOU。</li>
+</ul>
+</li>
+<li>损失计算<ul>
+<li>$L(x,c,l,g) = \frac{1}{N}(L_{conf}(x,c)+\alpha{L_{loc}(x,l,g)}$ 其中$N$为正样本的个数</li>
+<li>位置损失计算：$L_{loc}(x,l,g) = \sum^{N}_{i\in{Pos}}\sum_{m\in{cx,cy,w,h}}{x^k_{ij}smooth_{L_1}(l^m_i - g^m_j)}$</li>
+<li>类别损失计算：$L_{conf}(x,c) = - \sum^N_{i\in{Pos}}{x^p_{ij}log(C^p_i)}- \sum_{i\in{Neg}}{log(C^o_{i})} \quad where \quad C^p_{i}=\frac{exp(c^p_{i})}{\sum_{p}{exp(c^p_i)}}$</li>
+<li>$\alpha$设置为1</li>
+</ul>
+</li>
+</ul>
+<h2 id="（FPN）Feature-Pyramid-Networks-for-Object-Detection"><a href="#（FPN）Feature-Pyramid-Networks-for-Object-Detection" class="headerlink" title="（FPN）Feature Pyramid Networks for Object Detection"></a>（FPN）Feature Pyramid Networks for Object Detection</h2><h3 id="FPN解决的问题："><a href="#FPN解决的问题：" class="headerlink" title="FPN解决的问题："></a>FPN解决的问题：</h3><p>FPN是目前较为先进的一种目标检测中的neck结构（即图片经过特征提取网络backbone进行图片特征提取之后以及检测头head进行物体检测之间的承上启下的部分），其主要的作用是对提取到的特征进行再加工和合理利用。</p>
+<h3 id="FPN的结构以及相对于以前结构的改进："><a href="#FPN的结构以及相对于以前结构的改进：" class="headerlink" title="FPN的结构以及相对于以前结构的改进："></a>FPN的结构以及相对于以前结构的改进：</h3><ul>
+<li>(a)图像金字塔，即将图像做成不同的scale，然后不同scale的图像生成对应的不同scale的特征。<ul>
+<li>优点：每一种尺度的图像进行特征提取，能够产生多尺度的特征表示，并且所有等级的特征图都具有较强的语义信息，甚至包括一些高分辨率的特征图。</li>
+<li>缺点：<ul>
+<li>增加了时间成本</li>
+<li>内存需求巨大，从而导致用图像金字塔的形式训练一个端到端的深度神经网络变得不可行</li>
+<li>如果只在测试阶段使用图像金字塔，那么会由于训练时网络只是针对于某一个特点的分辨率进行训练，推理时产生“矛盾”。</li>
+</ul>
+</li>
+</ul>
+</li>
+<li>(b)像SPP net，Fast RCNN，Faster RCNN是采用这种方式，即仅采用网络最后一层的特征，==特征利用不充分，没有利用到多尺度的特征==。</li>
+<li>(c)像<strong>SSD（Single Shot Detector）</strong>采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。作者认为==SSD算法中没有用到足够低层的特征，而在作者看来足够低层的特征对于检测小物体是很有帮助的==。</li>
+<li>(d)FPN这种网络结构，能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。本文作者是采用这种方式，顶层特征通过上采样和低层特征做融合，而且每层都是独立预测的。后续例如YOLOv3 4都采用了类似的结构。</li>
+</ul>
+<p>即如下图所示：</p>
+<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/89b55dd2738f4f4c99fd315cd59304b3.png" alt="在这里插入图片描述"></p>
+<h3 id="FPN的主要组成部分及解析："><a href="#FPN的主要组成部分及解析：" class="headerlink" title="FPN的主要组成部分及解析："></a>FPN的主要组成部分及解析：</h3><p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/d12943d3e5da404b9fd07dad4617fb09.png" alt="在这里插入图片描述"></p>
+<p>FPN的主要由三部分组成：<strong>自底向上</strong>，<strong>自顶向下</strong>，<strong>横向连接</strong></p>
+<h4 id="自底向上"><a href="#自底向上" class="headerlink" title="自底向上"></a>自底向上</h4><p>自底向上的网络是前馈网络，即网络的backbone生成了feature map之后，通过step=2进行每一级的降采样。</p>
+<h4 id="自顶向下"><a href="#自顶向下" class="headerlink" title="自顶向下"></a>自顶向下</h4><p>自顶向下的过程是通过上采样的方式进行实现的，实现的方法为最近邻插值法，示意图如下：</p>
+<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/b3b55c106933490ea832bfcbe4f9b6ee.png" alt="在这里插入图片描述"></p>
+<h4 id="横向连接"><a href="#横向连接" class="headerlink" title="横向连接"></a>横向连接</h4><p>横向连接的实现方式如figure 3所示，为：首先自底向上的过程中生成的feature map经过1x1的卷积层改变特征图的通道数然后与自顶向下过程生成的feature map进行直接元素与元素的相加。</p>
+<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3><p>FPN（Feature Pyramid Network）算法同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果。并且预测是在每个融合后的特征层上单独进行的，这和常规的特征融合方式不同。</p>
+<h2 id="Retina-Net-Focal-Loss-for-Dense-Object-Detection"><a href="#Retina-Net-Focal-Loss-for-Dense-Object-Detection" class="headerlink" title="(Retina Net)Focal Loss for Dense Object Detection"></a>(Retina Net)Focal Loss for Dense Object Detection</h2><p>RetinaNet 本篇论文的主要贡献来自于其所提出的Focal Loss和参数初始化的设置，其所提出的Retina Net相对来说贡献并没有那么关键。</p>
+<h3 id="稠密-dense-预测与稀疏-sparse-预测"><a href="#稠密-dense-预测与稀疏-sparse-预测" class="headerlink" title="稠密(dense)预测与稀疏(sparse)预测"></a>稠密(dense)预测与稀疏(sparse)预测</h3><p>在目前的目标检测的算法框架中，一般把所有的目标检测分为两个类别，two-stage和one-stage。</p>
+<p>其中，RCNN类的经典目标识别算法是属于two-stage的。其主要的识别流程可以看做：首先传入一张图片，依据算法中所提出的目标框算法，如faster-RCNN的RPN算法，例如RCNN的selective search算法在目标图片中预测出大量的bbox（100k的数量级），然后依据其算法从其中筛选出评价较好的目标框（1～2k的数量级），将其送入检测头中进行检测。在这个过程中，RPN和SS提取出大量的bbox的过程就是稠密预测，然后从其中提取出得分比较高的bbox的过程就是稀疏预测。</p>
+<p>在one-stage的经典算法中，以yolov3为例，其生成anchor的过程可以大致描述为在backbone生成feature map之后，以三个层级的feature map内的每个点为中心进行anchor的预测，最后生成的anchor的数量级大致为30～100k左右。</p>
+<h3 id="one-stage和two-stage效果差异分析"><a href="#one-stage和two-stage效果差异分析" class="headerlink" title="one-stage和two-stage效果差异分析"></a>one-stage和two-stage效果差异分析</h3><p>作者想分析one-stage的密集预测精度没有two-stage的高的原因，发现极度不平衡的前背景数量是导致精度下降的原因。因此作者想通过修改标准交叉熵损失函数去改善这种不平衡关系。Focal Loss用来通过一组难训练的稀疏预测框进行训练，防止简单大量的负样本对训练造成影响。</p>
+<p>训练效率低：大多数位置都是非常简单的负样本，对训练没有大的作用。<br>大量简单负样本甚至会损坏模型。(degenerate models)Focal Loss</p>
+<p>作者研究中发现，正负样本极度不均衡的问题会导致以下两个问题：</p>
+<ol>
+<li>训练效率低：大多数位置都是非常简单的负样本，对训练没有大的作用。</li>
+<li>大量简单负样本甚至会损坏模型。(degenerate models)</li>
+</ol>
+<h3 id="Focal-Loss"><a href="#Focal-Loss" class="headerlink" title="Focal Loss"></a>Focal Loss</h3><p>Focal Loss 是用于解决在训练过程中前景和背景之间极度不平衡的问题。</p>
+<p>Focal Loss是基于Cross Entropy，在Cross Entropy的基础上改进而来的。Cross Entropy的公式如下所示：</p>
+<script type="math/tex; mode=display">
+CE(p,y)=\left\{
+                            \begin{aligned}
+                                        -log(p)&&if\ y=1\\  
+                                         -log(1-p) && otherwise
+                             \end{aligned}
+\right.</script><p>其中$y=1$ 表示是前景，p为模型预测为前景的概率，对其进行简化可得：</p>
+<script type="math/tex; mode=display">
+p_t=\left\{
+                            \begin{aligned}
+                                        p&&if\ y=1\\  
+                                        1-p&& otherwise
+                             \end{aligned}
+\right.</script><p>所以我们可得：$CE(p, y) = CE(p t ) = − log(p t )$</p>
+<p>一种普遍的解决分类不平衡的方法为引入权重因子$\alpha$,让目标为前景时加$\alpha$,当目标是背景时加$1-\alpha$，可得引入权重因子之后的CE Loss可以写作：$CE(p_t ) = −α_t log(p_t )$。</p>
+<p>最终作者提出的Focal Loss的公式是在CE的基础上增加了一个调节因子$(1-p_t)^{\gamma}$,其中$\gamma$被称作可调节聚焦因子，Focal Loss公式如下所示：$FL(p_t ) = −(1 − p_t )^γ log(p_t )$，在不同的$\gamma$值的情况下，对应的Loss值与Ground Truth值如下图所示，其中当$\gamma=0$时，对应的是标准的CE曲线。</p>
+<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/v2-6ec9b40f6d0d936735c1c5b000a11e6f_1440w.jpg" alt="CV论文精读系列之目标检测模型（六）RetinaNet (Focal Loss)"></p>
+<p>对上图进行分析可得，当正负样本极不平衡的时候，对于标准的CE而言，即使是预测为0.9的样本，其对应的loss也较高，数量积累之后对应的loss会占主导作用。为了减少这个情况，取$\gamma$值进行调节，当值越大的，容易样本就越不重要。实际使用过程中，引入权重因子$\alpha$，最终式为$FL(p_t ) = −α_t (1 − p_t )^γ log(p_t )$</p>
+<h2 id="EfficientDet-Scalable-and-Efficient-Object-Detection"><a href="#EfficientDet-Scalable-and-Efficient-Object-Detection" class="headerlink" title="(EfficientDet) Scalable and Efficient Object Detection"></a>(EfficientDet) Scalable and Efficient Object Detection</h2><p>EfficientDet以EfficientNet作为网络的backbone，因此，首先对EfficientNet做一个基本介绍</p>
+<h3 id="EfficientNet-Rethinking-Model-Scaling-for-Convolutional-Neural-Networks"><a href="#EfficientNet-Rethinking-Model-Scaling-for-Convolutional-Neural-Networks" class="headerlink" title="(EfficientNet)Rethinking Model Scaling for Convolutional Neural Networks"></a>(EfficientNet)Rethinking Model Scaling for Convolutional Neural Networks</h3><p>对于EfficientNet，该论文总共有两个较为重要的贡献点：</p>
+<ol>
+<li>提出了一种卷积神经网络的架构</li>
+<li>研究并提出了一种卷积神经网络的不需手动设定指标的模型缩放方法</li>
+</ol>
+<p>对于贡献点1而言，作者使用了NAS(神经架构搜索)的技术，设计了一个新的backbone，称为EfficientNet。其相对于以前的ConvNets实现了更好的准确性和效率。</p>
+<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/image-20220726203542698.png" alt="image-20220726203542698"></p>
+<p>对于贡献点2而言，作者认为，网络深度的增加、网络宽度的增加以及图像分辨率的增加均会提升卷积神经网络的精度。但若只是单尺度的提升，网络的识别精度提升是有限的，应三个尺度同时进行放缩才能在确定的计算资源的情况下实现最好的识别精度。</p>
+<p>作者提出两点对于模型放缩的观察：</p>
+<ul>
+<li>放缩网络的任何一个维度（宽度、深度、图像分辨率）都可以提升准确性，但对于更大型的网络其准确性增益会降低</li>
+<li>为了追求更好的精度和效率，在卷积网络的缩放过程中平衡网络宽度、深度和分辨率的各个维度至关重要</li>
+</ul>
+<p>基于上述的两点观察，以及卷积神经网络中计算资源占比最多的是卷积操作这一点先验，作者将模型的放缩定义如下：</p>
+<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/image-20220726091149041.png" alt="image-20220726091149041"></p>
+<p>且由于是卷积操作占所有操作中计算资源的大头，所以模型的深度对于计算而言大致为线性关系，而图像的分辨率和宽度对于计算而言为平方的关系，所以其定义中的约束条件如上所示。当满足<script type="math/tex">\alpha*\beta^2*\gamma^2\approx2</script>的前提下，我们可以通过设定$\phi$来控制计算资源大致上扩充到之前的$2^\phi$倍。</p>
+<p>EfficientDet的主要贡献点有如下两个：</p>
+<ul>
+<li>提出了BiFPN，一种新的特征融合的方法，是FPN的加强版</li>
+<li>与EfficientNet相似的，提出了混合缩放。将EfficientNet中模型放缩的思维迁移到目标识别中。</li>
+</ul>
+<h4 id="BiFPN"><a href="#BiFPN" class="headerlink" title="BiFPN"></a>BiFPN</h4><p>常见的Neck阶段的特征融合方法如下所示：<img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/12321312.png" alt="在这里插入图片描述"></p>
+<p>作者认为，多尺度特征融合的存在存在如下问题：</p>
+<ul>
+<li>各个尺度的特征信息不一致，但在实践中却占有相同权重</li>
+<li>改进的特征融合算法的计算量过大且特征融合效果不算好</li>
+</ul>
+<p>所以基于以上两点，作者提出BiFPN，BiFPN相较于FPN而言有以下三点改进：</p>
+<ul>
+<li><strong>增加残差链接</strong>：意在通过简单的残差操作，增强特征的表示能力</li>
+<li><strong>移除单输入边的结点</strong>：因为但输入边的结点没有进行特征融合，故具有的信息比较少，对于最后的融合没有什么贡献度，相反，移除还能减少计算量。</li>
+<li><strong>权值融合：</strong>简单来说，就是针对融合的各个尺度特征增加一个权重，调节每个尺度的贡献度，其中，作者对比了Unbounded fusion、Softmax-based fusion和Fast normalized fusion，并最终选用了Fast-softmax.</li>
+</ul>
+<h4 id="混合缩放"><a href="#混合缩放" class="headerlink" title="混合缩放"></a>混合缩放</h4><p>本文还提出了一种混合缩放技术来全面地提升所有主干网络深度/宽度/分辨率、BiFPN和box/class检测网络，其思想与EfficientNet相同，不再赘述，其结果如下图所示：</p>
+<p><img src="/2022/07/26/SSD%20Single%20Shot%20MultiBox%20Detector/v2-f59c80f65952ec08747236c0d6f509ce_720w.jpg" alt="img"></p>
+
+      
+    </div>
+
+    
+    
+    
+      <footer class="post-footer">
+        <div class="post-eof"></div>
+      </footer>
+  </article>
+  
+  
+  
+
+      
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/07/25/Label%20Assignment/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h2 class="post-title" itemprop="name headline">
+          
+            <a href="/2022/07/25/Label%20Assignment/" class="post-title-link" itemprop="url">Label Assignment</a>
+        </h2>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+
+              <time title="创建时间：2022-07-25 22:26:51" itemprop="dateCreated datePublished" datetime="2022-07-25T22:26:51+08:00">2022-07-25</time>
+            </span>
+              <span class="post-meta-item">
+                <span class="post-meta-item-icon">
+                  <i class="far fa-calendar-check"></i>
+                </span>
+                <span class="post-meta-item-text">更新于</span>
+                <time title="修改时间：2022-08-22 21:34:13" itemprop="dateModified" datetime="2022-08-22T21:34:13+08:00">2022-08-22</time>
+              </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+          <h2 id="Label-Assignment-是什么"><a href="#Label-Assignment-是什么" class="headerlink" title="Label Assignment 是什么"></a>Label Assignment 是什么</h2><p>Label Assignment 也称为Target Assignment，可理解为网络提供正负样本进行学习，让网络学习我们所要完成的目标的“正确”和“错误”的概念.</p>
+<p>例如在目标检测的相关任务中，以下图为例任务为检出其中的蛙人、数字和字母，我们所期望的检测结果为：</p>
+<p><img src="/2022/07/25/Label%20Assignment/objectDetect.png" alt="HT_2022_004_00543" style="zoom:50%;"></p>
+<p>但是实际的检测效果可能为：</p>
+<p><img src="/2022/07/25/Label%20Assignment/objectDetect_bad.png" alt="HT_2022_004_00543" style="zoom:50%;"></p>
+<p>显然我们需要告诉网络，我们所需要的是第一张图而不是第二张，因为其包裹对象完整，而不是不完整或存在位置偏移的第二张图。而这个<strong>告诉</strong>的动作本质上就是Label Assignment的任务。</p>
+<p>然而在实际的目标检测过程中，一张图中会有多个类别的目标，多个GT，Label Assignment的过程会十分复杂。只要是一个检测器，其只要需要划分正负样本就可以看作一个label assignment的过程。label assignment已经作为检测网络的最核心的问题之一，建立GT和预测之间的对应关系（类别，Box，置信度）的好坏会直接影响到网络的效果。</p>
+<p>Label Assignment一般可以分为两个方面的内容，一为学习目标的表示，一为正负样本的匹配，即可以理解为我们输出的预测框该怎么框，以及我们输出的预测框与GT的对应关系。</p>
+<h3 id="学习目标的表示"><a href="#学习目标的表示" class="headerlink" title="学习目标的表示"></a>学习目标的表示</h3><p>对于学习目标的表示，基于网络的不同，先验的不同，学习目标的表示也各不相同。</p>
+<h4 id="基于anchor的目标检测"><a href="#基于anchor的目标检测" class="headerlink" title="基于anchor的目标检测"></a>基于anchor的目标检测</h4><p>基于anchor的目标检测大都采用bounding box的方法，即在此类方法中的学习目标是anchor的坐标，通过anchor作为分类和框回归的先验。</p>
+<h4 id="基于set-prediction的目标检测"><a href="#基于set-prediction的目标检测" class="headerlink" title="基于set-prediction的目标检测"></a>基于set-prediction的目标检测</h4><p>基于set-prediction的目标检测的代表为DETR，其将transformer引入目标检测，将任务视为一个图像到集合的问题，避免了人工设计anchor，转而embedding，让网络自己去学习anchor，学习embedding</p>
+<h4 id="基于key-point、anchor-point等方式目标检测"><a href="#基于key-point、anchor-point等方式目标检测" class="headerlink" title="基于key-point、anchor-point等方式目标检测"></a>基于key-point、anchor-point等方式目标检测</h4><h3 id="学习正负样本的匹配"><a href="#学习正负样本的匹配" class="headerlink" title="学习正负样本的匹配"></a>学习正负样本的匹配</h3><h4 id="正负样本匹配的定义"><a href="#正负样本匹配的定义" class="headerlink" title="正负样本匹配的定义"></a>正负样本匹配的定义</h4><p><img src="/2022/07/25/Label%20Assignment/v2-bcce6dc999beb25f778a50e094bbfe8a_720w.jpg" alt="img"></p>
+<p>如上图所示，我们关注的目标为人和推车，假设黄框为Ground Truth，蓝绿色为算法自动生成的anchor，那么将自动生成的anchor与推车的ground truth之间做匹配的过程，判断哪个anchor应该标注为正样本，哪些anchor应该标注为负样本的过程就是正负样本匹配的过程</p>
+<h4 id="Faster-RCNN"><a href="#Faster-RCNN" class="headerlink" title="Faster-RCNN"></a>Faster-RCNN</h4><p>以Faster-RCNN类的目标检测器为例，其通过RPN生成anchor，若目标图像中有两个目标物体，我们需要将生成的成千上万个anchor与真实目标的ground truth做匹配，其分配策略为基于IoU的分配策略，首先计算anchor与ground truth之间的IoU，IoU&gt;fg_thres(0.7)作为正样本，IoU&lt;bg_thres(0.3)作为负样本，IoU在bg_thres~fg_thres(0.3~0.7)之间作为ignore样本(不参与训练)，并使用NMS进行过滤</p>
+<p>但这样的存在问题：</p>
+<ol>
+<li>IoU不能代表anchor的定位能力，IoU在0.3以下的anchor也可能被回归到0.7以上；</li>
+<li>IoU为0.95和0.75的anchor有优劣之分，但一刀砍策略无法体现它们的区别；</li>
+<li>anchor是预定义的，所以无法保证每个ground truth都能匹配很好的anchor，导致不同ground truth分配到的anchor不均衡。</li>
+</ol>
+<p>后续针对上述问题，提出了算法如下：（更新后的IOU算法：CIOU DIOU等）</p>
+<h4 id="TopK"><a href="#TopK" class="headerlink" title="TopK"></a>TopK</h4><p>用于解决问题3</p>
+<p><strong>分配策略</strong>：对每个ground truth，找到与它IoU为TopK的anchor作为正样本；可以看作通过动态改变IoU阈值来划分正负样本，同时保证不同大小的目标都能得到一定数量的anchor进行训练。</p>
+<h4 id="Learning-from-Noisy-Anchor"><a href="#Learning-from-Noisy-Anchor" class="headerlink" title="Learning from Noisy Anchor"></a>Learning from Noisy Anchor</h4><p>用于解决问题2</p>
+<p><strong>核心思想</strong>：提出一个评价anchor质量的指标cleanliness，根据回归后IoU以及分类置信度得出，用于判断一个正anchor是否是noisy的。</p>
+<p><strong>分配策略</strong>：cleanliness可以代替0/1作为分类标签加入focal loss，同时还作为权重加权回归，即质量好的anchor多回归，质量不好(noisy)的anchor少回归。</p>
+<h4 id="HAMBox"><a href="#HAMBox" class="headerlink" title="HAMBox"></a>HAMBox</h4><p>用于解决问题1</p>
+<p><strong>核心思想</strong>：提出一种anchor补偿策略，动态地把那些本身和ground truth重叠度不高但回归结果很好的anchor设为正样本。</p>
+<p><strong>分配策略</strong>：与TopK类似，在训练中对每个ground truth动态地补偿k个anchor作为正样本，这些anchor根据回归结果好坏选出。</p>
+<h4 id="ATSS（该论文证明了回归的方式，数据的表示方式不影响训练效果，影响训练效果的是正负样本的分配）"><a href="#ATSS（该论文证明了回归的方式，数据的表示方式不影响训练效果，影响训练效果的是正负样本的分配）" class="headerlink" title="ATSS（该论文证明了回归的方式，数据的表示方式不影响训练效果，影响训练效果的是正负样本的分配）"></a>ATSS（该论文证明了回归的方式，数据的表示方式不影响训练效果，影响训练效果的是正负样本的分配）</h4><p><strong>核心思想</strong>：从统计意义上思考正负样本的定义，把每个ground truth周围的anchor与它的IoU进行统计可以形成一个分布，通过取这个分布上的某个分位数来决定每个ground truth的IoU阈值</p>
+<p><strong>分配策略</strong>：</p>
+<ol>
+<li>对于每个输出的检测层，选计算每个anchor的中心点和目标的中心点的L2距离，选取K个anchor中心点离目标中心点最近的anchor为候选正样本（candidate positive samples）</li>
+<li>计算每个候选正样本和groundtruth之间的IOU，计算这组IOU的均值和方差根据方差和均值，设置选取正样本的阈值：t=m+g ；m为均值，g为方差</li>
+<li>根据每一层的t从其候选正样本中选出真正需要加入训练的正样本然后进行训练</li>
+</ol>
+<p>普遍思路：1、如何度量一个anchor的好坏 2、如何将anchor（GT）分配给GT（anchor）使网络学习最大化</p>
+<p>其余方法：OTA、DETR、OneNet、E2E with FCN</p>
+<h2 id="A-Dual-Weighting-Label-Assignment-Scheme-for-Object-Detection"><a href="#A-Dual-Weighting-Label-Assignment-Scheme-for-Object-Detection" class="headerlink" title="A Dual Weighting Label Assignment Scheme for Object Detection"></a>A Dual Weighting Label Assignment Scheme for Object Detection</h2><p>2022 cvpr 一种用于目标检测的双加权标签分配方案</p>
+<h3 id="摘要"><a href="#摘要" class="headerlink" title="摘要"></a>摘要</h3><p>标签分配是要给每一个训练样本分配一个正损失权重和一个负损失权重，这两个权重会在目标检测的过程中发挥重要的作用。现存的标签分配方法大都专注于正权重的设计而负权重只是直接从正权重的基础上推导而来，这样的机制限制了检测器的性能。<strong>本文拓展研究了一种新型的权重范式$dual\ weighting(DW)$,$DW$分别指定了正权重和负权重。一个样本的正权重由其的分类和定位分数的一致性来决定，负权重被分解为两个部分：一个样本为负样本的可能性以及其为负样本的前提下其的重要性。</strong>这样的权重策略更灵活的区分重要以及不那么重要的样本，并最终导致物体检测的有效性的增加。</p>
+<h3 id="简介及相关工作"><a href="#简介及相关工作" class="headerlink" title="简介及相关工作"></a>简介及相关工作</h3><p>目标检测作为一项基础的视觉任务，其已经吸引了很多研究者数十年的注意力。目前最为先进$(SOTA)$的目标检测大都通过预先定义的anchor来预测类别属性和回归偏移来执行密集检测。Anchor作为一个基础的检测单元，需要被分配合适的分类和回归的标签去监督整个训练过程。这样的标签分配的过程可以看作为为每个anchor分配损失权重的过程，一个anchor的分类损失（回归损失类似）可以简单的表示为：</p>
+<p>  $ \mathcal {L}_{cls}= - w_{pos} \times \ln {(s)} - w_{neg} \times \ln {(1-s)}$</p>
+<p>其中$w_{pos}$和$w_{neg}$分别为正权重和负权重，$s$是预测的分类分数。基于$w_{pos}$和$w_{neg}$的设计，标签分类的方法可以大致的分为两类，分别为hard LA和soft LA。</p>
+<h4 id="hard-LA"><a href="#hard-LA" class="headerlink" title="hard LA"></a>hard LA</h4><p>hard LA假设每个anchor要么是正要么是负的，这意味着$w_{pos} , w_{neg} ∈ {0, 1}  $并且$w_{pos} + w_{neg} =1$，这个策略的核心策略是找到一个合适的边界去将anchor分为positive set和negative set。基于这样的分割策略，可以细分为静态的与动态的。</p>
+<h5 id="静态-hard-LA"><a href="#静态-hard-LA" class="headerlink" title="静态 hard LA"></a>静态 hard LA</h5><p>​    静态 hard LA采取了预先定义好的指标来进行区分。</p>
+<ul>
+<li>IoU以及IoU类（RCNN类）</li>
+<li>anchor中心到对应的GT中心点的距离（FCOS、Foveabox）</li>
+</ul>
+<p>​    问题/缺陷：<strong>静态匹配策略忽略了具有不同大小和形状的对象的划分边界可能会有所不同。</strong></p>
+<h5 id="动态-hard-LA"><a href="#动态-hard-LA" class="headerlink" title="动态 hard LA"></a>动态 hard LA</h5><ul>
+<li>ATSS</li>
+<li>Prediction-aware assignment strategies</li>
+<li>OTA</li>
+<li>Transformer-based detectors</li>
+</ul>
+<p>问题/缺陷：<strong>动态和静态的分配策略都忽略了样本不是相同重要的事实</strong></p>
+<p>分析目标检测的评价指标我们可以发现，<strong>最优预测不仅应该具有较高的分类分数，还应该具有准确的定位</strong>，这意味着在训练中，<strong>分类头和回归头之间具有较高一致性的Anchor应该更为重要</strong>。</p>
+<h4 id="soft-LA"><a href="#soft-LA" class="headerlink" title="soft LA"></a>soft LA</h4><p>基于以上的问题、缺陷以及分析，我们可以发现soft LA的策略更加适合。</p>
+<ul>
+<li>GFL</li>
+<li>VFL<ul>
+<li>上述两种方法是经典的基于IoUs并通过乘以一个调制因子转化成为目标标签的soft LA方法。</li>
+</ul>
+</li>
+<li>Focal Loss</li>
+<li>Generalized focal loss</li>
+<li>Varifocal loss</li>
+<li>FreeAnchor、Autoassign</li>
+</ul>
+<p>现有的方法大都集中于正权重的设计，然而负权重仅仅由正权重得出。这样的方法会限制检测器的学习能力，这是因为负样本权重只提供了很少的新监督信息。这样的耦合权重设计机制会导致细腻度不够。</p>
+<p>如下图所示：</p>
+<p><img src="/2022/07/25/Label%20Assignment/image-20220713133757496.png" alt="image-20220713133757496"></p>
+<p>对于左上图而言，假设其为目标物体，假设分别有四个anchor分别为A、B、C、D，其对应的与GT的IoU和Score如右上图所示，则常见的soft LA的算法得到的$w_{pos}  \  w_{neg} $如上图下部分所示。框A、B、C、D有不同的预测结果，，然而GFL和VFL算法分配了几乎相同的权重给（B、C、D）。由于在现存的soft LA算法中负权重与正权重高度相关耦合，所以具有不同特点的anchor有的时候会被赋予基本上相同的正负权重，从而影响检测器的有效性。</p>
+<p>为了给检测器提供更具有分辨性能的监督信号，我们提出了$dual \  weighting (DW)$，一种新的LA算法，从不同的角度分别指定正权重和负权重，并使其互为补充。</p>
+<p>正权重：正权重动态的被从类别检测头中包含的置信度分数以及回归检测头中包含的回归分数决定的</p>
+<p>负权重：对于每个anchor而言，负样本被分为两部分，1、这个样本是负样本的可能性2、其是负样本的情况下，他的重要性 并由这两部份相乘得到。</p>
+<p>通过这样的方式，在推理的时候，有更高分类分数和更精确的定位的bounding boxes会更容易在NMS之后剩下，而其余的会排序较后并会被筛除。根据上图所示，DW给四个不同的anchor分配了几乎不同的正、负权重，这样可以提供给检测器更加精细的监督特征。</p>
+<p>并附加设计了一个边框修正模块去提供给我们的权重一个更加精确的回归分数。基于粗略回归图设计了一个回归优化算法。通过引入适当的计算负担，得到了更精确的回归.</p>
+<h3 id="方法"><a href="#方法" class="headerlink" title="方法"></a>方法</h3><h4 id="动机和框架"><a href="#动机和框架" class="headerlink" title="动机和框架"></a>动机和框架</h4><p>要与NMS相容，一个好的稠密检测器应该可以预测同时具有好的分类分数和精确定位的边缘框，然而如果训练样本都一致的被对待，就容易出现以下问题：有最高分类分数的通常不是拥有最好位置回归的边缘框。特别是在IoU的评判标准下，这样的问题会严重影响检测器的效果。soft LA尝试着评价分类和回归的一致性，当使用soft LA时，一个anchor的loss，可表示如下：</p>
+<p>$L_{cls}= -w_{pos} \times ln(s)-w_{neg}\times ln(1-s)$</p>
+<p>$L_{reg}= w_{reg} \times l_{reg}(b,b^`)$</p>
+<p>其中$s$是预测的类别分数,$b$和$b^`$是预测的边缘框和GT，$l_{reg}$是回归损失函数，例如$L_1 \ loss$ ，IoU Loss等等。在类别预测和回归中的不一致可以通过给一致性较好的anchor分配更大的$w_{pos}\ w_{neg}$来解决。因此这些经过较好训练的anchor就会在预测的时候预测更高的分类分数和更精确的定位，</p>
+<p>现有的工作大都将$w_{pos}$与$w_{neg}$设定为相同的值，并主要注重于如何去定义其的一致性以及整合其到损失函数中，下表整理了在最近的代表性工作中，pos anchor的$w_{pos}\ w_{neg}$的公式。</p>
+<p><img src="Label Assignment/url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F0412%2F938a56efj00ra7am0002fd200u000b6g00id006u.jpeg" alt="img"></p>
+<p>我们可以发现现有的方法中通常定义一个度量因素t作为分类和定位之间的一致性的程度的表示。然后将不一致性度量因素定义为（1-t），并最终通过增加比例因子$((s-t)^2,s^2,t)$整合到正损失和负损失之中去。</p>
+<p>与之前的$w_{pos}\ w_{neg}$高度相关的方法不同，我们提出的方法将$w_{pos}\ w_{neg}$分别使用预测感知的方法进行测试</p>
+<p>即：pos加权函数以预测的cls得分s和预测框与GT目标之间的IoU作为输入，并通过估计cls与reg head之间的一致性程度来设置pos权重。 neg加权函数采用与pos加权函数相同的输入，但将负样本权重表示为以下2项的乘法：Anchor是负样本的概率以及其为负样本时的重要性。这样，具有相似pos权值的模糊Anchor可以接收到具有不同负样本权值的更细粒度的监督信号，这是现有方法中是没有的。</p>
+<p>该方法的流程示意图如下：</p>
+<p><img src="/2022/07/25/Label%20Assignment/image-20220714104625755.png" alt="image-20220714104625755" style="zoom:200%;"></p>
+<p>即首先通过选择GT中心附近的Anchor（中心先验），为每个GT目标构建一个候选正样本集合。候选集合外的Anchor被认为是负样本，不会参与加权函数的设计过程，因为它们的统计数据(如IoU，cls分数)在早期训练阶段非常混乱。候选集内的Anchor将被分配到$w_{pos}\ w_{neg} \ w_{reg}$三个权重上，以更有效地监督训练过程。</p>
+<h4 id="pos加权函数"><a href="#pos加权函数" class="headerlink" title="pos加权函数"></a>pos加权函数</h4><p>一个样本的正加权函数应当反映其在分类和定位两方面上的准确检测物体的能力。本文通过分析物体检测的评价指标分析得出影响其的因素。在进行COCO数据集上进行测试期间，对一个类别的所有预测应该通过一个排序指标被合适的排序。现存的方法大都使用分类分数或分类和预测的IoU作为排序指标。每个边界框的正确性将从排名列表的开头开始检查。一个预测将被定义为一个正确的预测的条件如下：</p>
+<ul>
+<li>预测的边界框和最近的GT之间的IoU大于预先设定的阈值$\theta$</li>
+<li>在本预测框之前没有排名更靠前的预测框满足上一个条件</li>
+</ul>
+<p>即只有第一个具有大于阈值$\theta$的IoU的边界框会被定义为pos detection。其他的框对于这个GT而言都会被认为是假阳性。</p>
+<p>我们可以研究得到，高的排名分数和高IoU都是pos预测的充要条件，这表明同时满足这两个条件的anchor会在测试阶段更容易被定义为pos prediction，因此其在训练阶段就应该具有更高的重要性。从这个角度分析，$w_{pos}$应当与IoU和排名分数正相关，即</p>
+<p>$w_{pos} ∝ IoU\ and\ w_{pos} ∝ s$</p>
+<p>我们定义一致性度量t如下所示,t是为了衡量两个条件之间的对齐度：</p>
+<p>$t=s\times IoU^{\beta}$</p>
+<p>其中，$\beta$被用来平衡这两个条件。</p>
+<p>为了使正权重在不同的anchor中有较大的变化，从而提供较为高细腻度的监督信息，添加一个指数项的调制因子：</p>
+<p>$w_{pos}=e^{ut}  \times t$</p>
+<p>其中u是一个超参数，控制不同pos权重的相对差距，最后，每个实例的每个Anchor的pos权值由候选集内的所有pos权值之和进行归一化。</p>
+<h4 id="neg加权函数"><a href="#neg加权函数" class="headerlink" title="neg加权函数"></a>neg加权函数</h4><p>虽然pos权重可以表明具有高的cls分数和大的IoUs的一致Anchor，但不一致Anchor的重要性不能用pos权重来区分。如本文首图所示，Anchor D的位置更好(IoU大于θ)，但cls得分较低，而Anchor B的位置较差(IoU小于θ)，但cls得分较高。它们可能具有相同的一致性程度度量t，这不能反映它们的差异。为了为检测器提供更多的鉴别监督信息，本文建议通过为它们分配区别更明显的负权重来忠实地表明它们的重要性，这定义为以下2项的乘法。</p>
+<h5 id="样本作为负样本的概率"><a href="#样本作为负样本的概率" class="headerlink" title="样本作为负样本的概率"></a>样本作为负样本的概率</h5><p>根据COCO的衡量指标，小于$\theta$的IoU是将一个预测判断为错误的充分条件。这意味着一个不能满足IoU衡量标准预测边缘框即使有高的类别分数也会被定义为neg detection。所以，IoU是决定一个样本是否为neg detection的唯一的因素，我们定义其为$P_{neg}$</p>
+<p>依据COCO数据集的衡量标准采取IoU从0.5到0.95去衡量AP，本文定义$P_{neg}$应当满足如下规则：</p>
+<script type="math/tex; mode=display">
+P_{neg} = \begin {cases} 1, & \textit {if } \; \text {IoU $<$ 0.5}, \\ [0,1], & \textit {if } \; \text {IoU $\in $ [0.5,0.95]}, \\ 0, & \textit {if } \; \text {IoU $>$ 0.95}, \end {cases} \label {eq5}</script><p>在区间[0.5,0.95]内定义的任何单调递减函数都适用于上式。为简单起见，将$P_{neg}$实例化为以下函数：</p>
+<p>$  P_{neg} = -k \times IoU ^ {\gamma _1} + b, \quad \textit {if } \text { IoU $\in $ [0.5,0.95]} $</p>
+<p>其通过点（0.5,1）和（0.95,0）。一旦确定$\gamma _1$，参数k和b可以用未确定系数的方法得到。图3绘制了$  P_{neg} $和IoU在具有不同$\gamma _1$值的曲线。</p>
+<p><img src="/2022/07/25/Label%20Assignment/v2-14dc210edad1c4ba4fec5ae5635e98bd_720w.jpg" alt="img"></p>
+<h5 id="样本作为负样本的前提下的重要程度"><a href="#样本作为负样本的前提下的重要程度" class="headerlink" title="样本作为负样本的前提下的重要程度"></a>样本作为负样本的前提下的重要程度</h5><p>在推理的时候，Rank列表中的负样本预测不会影响召回率，但会降低精度。所以负样本边界框的Rank应该尽可能落后，也就是说，它们的Rank分数应该尽可能小。基于这一点，Rank得分较高的负样本预测比Rank得分较低的负样本预测更重要，因为它们是网络优化的困难样本。</p>
+<p>因此我们定义$I_{neg}$为负样本的重要程度，其应该是排名分s的函数，特别的，我们定义其为：</p>
+<p>$I_{neg}=s^{\gamma_2}$</p>
+<p>其中$\gamma_2$是表明对重要的负样本应该给予多少优先考虑的一个因素</p>
+<p>所以最终，我们定义neg weight为$w_{neg}=P_{neg}\times I_{neg}$,整合之后如下：</p>
+<script type="math/tex; mode=display">
+\small { w_{neg}= \begin {cases} s^{\gamma _2}, & \textit {if } \; \text {IoU $<$ 0.5}, \\ (-k \times IoU^{\gamma _{1}}+b) \times s^{\gamma _{2}}, & \textit {if } \; \text {IoU $\in $ [0.5,0.95]}, \\ 0, & \textit {if } \; \text {IoU $>$ 0.95}, \end {cases} }</script><p>我们分析可得：$w_{neg}$与IoU呈负相关，但与s呈正相关。可以看出，对于2个pos权重相同的Anchor，IoU较小的Anchor的neg权重较大。 $w_{neg}$的定义与推理过程很好地兼容，它可以进一步区分具有几乎相同pos权重的模糊Anchor。</p>
+<h5 id="边框修正"><a href="#边框修正" class="headerlink" title="边框修正"></a>边框修正</h5><p>由于pos和neg都以IoU作为输入，所以更准确的IoU可以促使更高质量的样本，有利于学习更强的特征。本文提出一个Box Refinement操作，基于预测偏移图$O ∈ R^{H×W ×4 }$其中$ O(j, i) = {∆l, ∆t, ∆r, ∆b}$ 表示从当前Anchor中心到最左边的l、最上面的r、最右边的r和最下面的b边的预测距离。由于靠近物体边界的点更有可能预测准确的位置，所以作者设计了一个可学习的预测模块基于粗边界框为每边生成一个边界点。</p>
+<p>如下图示意所示：</p>
+<p><img src="/2022/07/25/Label%20Assignment/v2-262a6397bb3c6fcd0d2a0d712ad31b3c_720w.jpg" alt="img"></p>
+<p>四个边界点的坐标定义如下：</p>
+<p>$B_{l}=\left (j+\Delta _{l}^{y}, i-\Delta l+\Delta _{l}^{x}\right )$<br>$B_{t}=\left (j-\Delta t+\Delta _{t}^{y}, i+\Delta _{t}^{x}\right )$<br>$B_{r}=\left (j+\Delta _{r}^{y}, i+\Delta r +\Delta _{r}^{x}\right )$<br>$B_{b}=\left (j+\Delta b+\Delta _{b}^{y}, i+\Delta _{b}^{x}\right )$</p>
+<p>其中的$\Delta$都是上述模块的输出，且偏移图更新为</p>
+<script type="math/tex; mode=display">
+O^{\prime }(j, i)=\left \{\hspace {-1.mm}\begin {array}{l} \Delta l+\Delta _{l}^{x}+O(B_{l},0), \; \Delta t+\Delta _{t}^{y}+O(B_{t},1) \\ \Delta r+\Delta _{r}^{x}+O(B_{r},2), \; \Delta b+\Delta _{b}^{y}+O(B_{b},3) \end {array}\hspace {-1.mm}\right \}</script><h5 id="损失函数"><a href="#损失函数" class="headerlink" title="损失函数"></a>损失函数</h5><p>本文所提出的DW可以被应用在大多数现存的稠密检测器上，下面以FCOS应用DW为例。 按照惯例将中心度分支和分类分支的输出乘以最终的分类分数，损失函数如下所示：</p>
+<p>$  \mathcal {L}_{det}=\mathcal {L}_{cls}+\beta \mathcal {L}_{reg}$</p>
+<p>其中$\beta$是一个平衡因子，与$t = s \times IoU^ \beta  $中的$\beta$相同。对上式进行进一步解释可得：</p>
+<script type="math/tex; mode=display">
+\small { \begin {aligned} \mathcal {L}_{c l s}&=\sum \nolimits _{n=1}^{N} -w_{p o s}^{n} \times \ln \left (s^{n}\right )-w_{n e g}^{n} \times \ln \left (1-s^{n}\right ) \\ &+\sum \nolimits _{m=1}^{M} F L\left (s^{m}, 0\right ), \\ \mathcal {L}_{reg}&=\sum \nolimits _{n=1}^{N} w_{pos}^{n} \times GIoU\left (b, b^{\prime }\right ), \end {aligned} }</script><p>其中N和M分别是Anchor的总数，FL是Focal Loss，GIoU回归损失，s时预测的cls得分，b和b’分别是预测框和GT的位置。</p>
+<h3 id="实验"><a href="#实验" class="headerlink" title="实验"></a>实验</h3><p>使用的数据集为MS-COCO，其包含115k的train set，5k的val set和20k的tset set。对其进行了消融实验，并通过AP（平均精度）来对其性能进行衡量。</p>
+<p>使用ImageNet上预训练的ResNet-50和FPN作为实验的backbone，绝大多是使用12个epoch的训练，初始学习率为0.01,并在第8和第11个epoch后衰减十倍，在消融实验中，都使用800像素大小的图片进行训练。所有的实验都使用SGDM在8个GPU，总batchsize为16上运行。推理的时候，threshold设定背景框为0.05，并移除阈值为0.6的冗余框，得到最终的预测结果，超参数设置为：$γ_1=2$ , $γ_2=2$ , $β=5$ , $μ=5$</p>
+<h4 id="消融实验"><a href="#消融实验" class="headerlink" title="消融实验"></a>消融实验</h4><h5 id="1、正样本加权的超参数"><a href="#1、正样本加权的超参数" class="headerlink" title="1、正样本加权的超参数"></a>1、正样本加权的超参数</h5><p><img src="/2022/07/25/Label%20Assignment/v2-e0b9d845e784f904b8f6bcec964a22cb_720w.jpg" alt="img"></p>
+<p>pos权重有2个超参数：$\beta$和$u$</p>
+<ul>
+<li>$\beta$在一致性度量t中平衡了cls得分和IoU之间的贡献。随着$\beta$值的增加，IoU的贡献程度也在增加。</li>
+<li>$u$控制着pos权重的相对尺度。与较不一致的样本相比，更大的$u$使最一致的样本具有相对较大的pos权重。</li>
+</ul>
+<p>在表中展示了通过改变 $\beta$从3到7和$u$从3到8来改变DW的性能。可以看到，当  $\beta$ 为5，$u$为5时，效果最好。 $\beta$和$u$的其他组合会使AP性能从0.1降至0.7。因此，在其余所有实验中，将  $\beta$和$u$设为5。</p>
+<h5 id="2、负样本加权的超参数"><a href="#2、负样本加权的超参数" class="headerlink" title="2、负样本加权的超参数"></a>2、负样本加权的超参数</h5><p><img src="/2022/07/25/Label%20Assignment/v2-09fd13f1d0709079d09e145dc6880e28_720w.jpg" alt="img"></p>
+<p>作者还进行了几个实验来研究DW对超参数 $\gamma _1$和$\gamma _2$的鲁棒性，这些参数用于调节负样本权重的相对尺度。使用不同的  $\gamma _1$和 $\gamma _2$组合得到的AP结果范围为41~41.5，如表所示。这意味着DW的性能对这2个超参数不敏感。因此，在所有的实验中都采用了 $\gamma _1=2, \gamma _2=2$</p>
+<h5 id="3、候选集的构建"><a href="#3、候选集的构建" class="headerlink" title="3、候选集的构建"></a>3、候选集的构建</h5><p><img src="/2022/07/25/Label%20Assignment/v2-e609b081788ca0d076f841911e3fbd66_720w.jpg" alt="img"></p>
+<p>作为目标检测的常见做法，Soft LA只应用于候选集的Anchor。作者测试了3种候选集的构建方法，它们都是基于从Anchor到相应的GT中心的距离r（由特征stride归一化）。</p>
+<ul>
+<li>第1种方法是选择距离小于阈值的Anchor。</li>
+<li>第2种方法是从FPN的每个级别中选择最前k个最近的Anchor。</li>
+<li>第3种方法是给每个Anchor一个Soft中心权重 $e^{-r^2}$，并将其与$w_{pos}$相乘。</li>
+</ul>
+<p>结果如表4所示。可以看出，AP性能在41.1~41.5之间略有波动，这表明我们的DW对候选袋的分离方法具有鲁棒性。</p>
+<h5 id="4、负样本加权函数的设计"><a href="#4、负样本加权函数的设计" class="headerlink" title="4、负样本加权函数的设计"></a>4、负样本加权函数的设计</h5><p><img src="/2022/07/25/Label%20Assignment/v2-754d5b17ec7d646d36d44bb42657df8c_720w.jpg" alt="img"></p>
+<p>本文通过用其他替代方法来研究负权重函数的影响，如表所示。可以看到，只使用pos权重会将性能降低到39.5，这表明对于一些低质量的Anchor，只分配它们小的$w_{pos}$不足以降低它们的Rank分数。它们可以被强制赋予更大的$w_{neg}$从而使排名下降，从而在测试期间带来更高的AP。</p>
+<p>在不使用$I_{neg} , P_{neg}$的情况下，分别得到了40.5AP和40.0AP，这验证了这两项都是必要的。正如现有方法所做的，试图用 $1−w_{pos}$ 替换$w_{pos}$ 实现了40.7AP的性能，比标准DW的低0.8点。</p>
+<h5 id="5、Box-Refinement"><a href="#5、Box-Refinement" class="headerlink" title="5、Box Refinement"></a>5、Box Refinement</h5><p>在没有Box Refinement的情况下，DW方法达到41.5AP，这是第1个在不增加FCOS-ResNet-50的情况下，在COCO上实现超过41AP性能的方法。通过Box Refinement，DW可达到42.2AP，如表6所示。表7还显示，Box Refinement可以持续地提高具有不同Backbone的DW的性能。</p>
+<h5 id="6、加权策略"><a href="#6、加权策略" class="headerlink" title="6、加权策略"></a>6、加权策略</h5><p>为了证明DW策略的有效性，将其与其他使用不同加权策略的LA方法进行了比较。结果如表所示。前5行是Hard LA方法，而其他的则是Soft LA方法。</p>
+<p><img src="/2022/07/25/Label%20Assignment/v2-4db83f6b986f5e87b8794488b8216ad5_720w.jpg" alt="img"></p>
+<p>Hard LA的最佳性能是通过OTA，40.7AP。由于OTA将LA作为一个最优规划问题，它将增加训练时间的20%以上。GFLv2利用一个额外复杂的分支来估计定位质量，并在Soft LA方法中获得了41.1AP的第2名性能。</p>
+<p>与将权重分配给损失的主流方法不同，将自动分配权重分配给cls分数，并在训练期间通过它们的梯度更新它们。作者尝试分离自动分配中的权重并分配给损失，但只得到39.8和36.6AP，分别比原始性能低0.6和3.8分。这意味着自动分配中的加权方案在适应主流实践时不能很好地工作。</p>
+<h4 id="与SOTA方法对比"><a href="#与SOTA方法对比" class="headerlink" title="与SOTA方法对比"></a>与SOTA方法对比</h4><p><img src="/2022/07/25/Label%20Assignment/v2-1365a72879d6593ed1070cc695d66c55_720w.jpg" alt="img"></p>
+<h3 id="讨论"><a href="#讨论" class="headerlink" title="讨论"></a>讨论</h3><h4 id="DW的可视化"><a href="#DW的可视化" class="headerlink" title="DW的可视化"></a>DW的可视化</h4><p>下图为DW和目前现有的方法的可视化图</p>
+<p><img src="/2022/07/25/Label%20Assignment/v2-df32a561f9b4fd2187410fc2e63614dd_720w.jpg" alt="img"></p>
+<p>对上图进行分析可得，DW中的正权重和副权重大都集中于GT的中心，而GFL和VFL分配权重大都在更宽的范围。这种差异意味着DW可以更多地关注重要的样本，并减少容易获得的样本的贡献，比如那些在物体边界附近的样本。这就是为什么DW对candidate bag的选择更稳健。</p>
+<p>我们还可以看到，中心区域的锚在DW中有不同的(pos，neg)重量对。相比之下，GFL和VFL中的阴性权重与pos权重高度相关。而DW变化则相对较大</p>
+<h4 id="DW目前存在的问题"><a href="#DW目前存在的问题" class="headerlink" title="DW目前存在的问题"></a>DW目前存在的问题</h4><p>虽然DW可以很好地区分不同Anchor对一个物体的重要性，但它会同时减少训练样本的数量，如图5所示。这可能会影响对小目标的训练效果。如表7所示，DW对小目标的改进不如对大目标的改进高。为了缓解这一问题，作者可以根据目标大小动态设置不同的$w_{pos}$超参数，以平衡大小目标之间的训练样本。</p>
+<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3><p>我们提出了一种名为双重加权（DW）的自适应标签分配方案，以训练准确的密集对象检测器。 DW 打破了以往密集检测器中耦合加权的惯例，它通过从不同方面估计一致性和不一致性指标，为每个锚点动态分配单独的 pos 和 neg 权重。还开发了一种新的框细化操作来直接细化回归图上的框。 DW 与评估指标高度兼容。在 MS COCO 基准上的实验验证了 DW 在各种主干下的有效性。无论有没有框细化，带有 ResNet-50 的 DW 分别达到了 41.5 AP 和 42.2 AP，记录了新的 state-of-the-art。作为一种新的标签分配策略，DW 还展示了对不同检测头的良好泛化性能。</p>
+
+      
+    </div>
+
+    
+    
+    
+      <footer class="post-footer">
+        <div class="post-eof"></div>
+      </footer>
+  </article>
+  
+  
+  
+
+      
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h2 class="post-title" itemprop="name headline">
+          
+            <a href="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/" class="post-title-link" itemprop="url">YOLOv4总结</a>
+        </h2>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+
+              <time title="创建时间：2022-07-04 21:14:44" itemprop="dateCreated datePublished" datetime="2022-07-04T21:14:44+08:00">2022-07-04</time>
+            </span>
+              <span class="post-meta-item">
+                <span class="post-meta-item-icon">
+                  <i class="far fa-calendar-check"></i>
+                </span>
+                <span class="post-meta-item-text">更新于</span>
+                <time title="修改时间：2022-08-22 21:35:35" itemprop="dateModified" datetime="2022-08-22T21:35:35+08:00">2022-08-22</time>
+              </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+          <h3 id="目标检测组成及常见技术"><a href="#目标检测组成及常见技术" class="headerlink" title="目标检测组成及常见技术"></a>目标检测组成及常见技术</h3><p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-dd7959839adc00c2803eb69574650a5a_720w.jpg" alt="img"></p>
+<p>yolov4原文中提及的目前常见的目标检测的方法:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-229510bb08fbe321ce6c041f75b676b5_720w.jpg" alt="img"></p>
+<p>可以理解为如下,目标检测网络一般由以下四个部分组成:</p>
+<ul>
+<li><p><strong>Input部分：</strong>Image，Patches，Images Pyramid(图像金字塔)</p>
+</li>
+<li><p><strong>Backbone部分</strong>(Backbone的作用是目标的特征提取,用来提取基础特征,一般是在不同图像细粒度上聚合并形成图像特征的卷积神经网络)： VGG16，ResNet-50，SpineNet，EfficientNet-B0 / B7，CSPResNeXt50，CSPDarknet53</p>
+</li>
+<li><p><strong>neck部分</strong>(neck的作用是对backbone提取到的重要特征进行加工及再利用,目标检测常在backbone和heads部分加入一些层,用来进行一系列混合和组合图像的特征,并将图像特征传递到heads层):</p>
+</li>
+<li><ul>
+<li>Additional blocks：SPP，ASPP，RFB，SAM</li>
+<li>Path-aggregation blocks：FPN，PAN，NAS-FPN，Fully-connected FPN，BiFPN，ASFF，SFAM</li>
+</ul>
+</li>
+<li><p><strong>Heads部分</strong>(heads的作用是根据传入的图像特征进行边界框的生成和类别的预测):</p>
+</li>
+<li><ul>
+<li><p><strong>Dense Predictions</strong>(one-stage)：</p>
+</li>
+<li><ul>
+<li>RPN，SSD，YOLO，RetinaNet （基于anchor）</li>
+<li>CornerNet，CenterNet，MatrixNet，FCOS（无anchor）</li>
+</ul>
+</li>
+<li><p><strong>Sparse Predictions</strong>(two-stages)：</p>
+</li>
+<li><ul>
+<li>Faster R-CNN，R-FCN，Mask R-CNN（基于anchor）</li>
+<li>RepPoints（无anchor）</li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+<h3 id="BOF-bag-of-freebies"><a href="#BOF-bag-of-freebies" class="headerlink" title="BOF(bag of freebies)"></a>BOF(bag of freebies)</h3><p>BOF是指那些能够提高精度但不增加推断时间的技术(但有可能会增加训练时间)</p>
+<p>常见的BOF方法如下:</p>
+<ul>
+<li>数据增强.数据增广<ul>
+<li>模拟几何畸变:Random Scaling,Random Cropping,Random Flipping, Random Rotating</li>
+<li>模拟光照变化:brightness,contrast,hue,saturation(饱和度),noise</li>
+<li>模拟遮挡:Ramdom Rease,CutOut,Hide-and-Seek,Grid Mask</li>
+<li>利用多张图像进行增强:Mixup,CutMix</li>
+<li>风格迁移:Style Transfer GAN</li>
+</ul>
+</li>
+<li>网络正则化<ul>
+<li>Dropot,DropConect,DropBlock</li>
+</ul>
+</li>
+<li>处理数据分布不平衡<ul>
+<li>two-stage:Hard Negative Example Mining,Online Hard Example Mining</li>
+<li>one-stage:Focal Loss</li>
+</ul>
+</li>
+<li>one-hot类别之间没有关联<ul>
+<li>Label Smoothing,知识蒸馏</li>
+</ul>
+</li>
+<li>BBox回归的损失函数的设计:<ul>
+<li>IOU Loss,DIOU Loss,GIOU Loss,CIOU Loss</li>
+</ul>
+</li>
+</ul>
+<h3 id="BOS-bag-of-specials"><a href="#BOS-bag-of-specials" class="headerlink" title="BOS(bag of specials)"></a>BOS(bag of specials)</h3><p>BOS指的是那些增加少许推断代价,但是可以提高模型精度的方法.</p>
+<p>常见的BOS方法如下</p>
+<ul>
+<li>增大模型感受野<ul>
+<li>SPP,ASPP,RFB</li>
+</ul>
+</li>
+<li>引入注意力机制<ul>
+<li>Squeeze-and-Excitation(SE),Spatial Attention Module(SAM),modified SAM</li>
+</ul>
+</li>
+<li>特征融合,特征集成模块<ul>
+<li>Skip Connection,Hyper Column,FPN(SFAM,ASFF.BiFPN)</li>
+</ul>
+</li>
+<li>改变激活函数<ul>
+<li>Mish.Swish.Hard Swish.ReLu类</li>
+</ul>
+</li>
+<li>后处理方法<ul>
+<li>soft NMS,greedy NMS,DIOU NMS</li>
+</ul>
+</li>
+</ul>
+<h3 id="BOF和BOS中部分关键技术解析"><a href="#BOF和BOS中部分关键技术解析" class="headerlink" title="BOF和BOS中部分关键技术解析"></a>BOF和BOS中部分关键技术解析</h3><h4 id="数据增强"><a href="#数据增强" class="headerlink" title="数据增强"></a>数据增强</h4><h5 id="传统数据增强"><a href="#传统数据增强" class="headerlink" title="传统数据增强"></a>传统数据增强</h5><p>模拟几何畸变,模拟光照变换,是通过旋转,镜像,平移,改变图像亮度,色域直方图等方式进行数据的增强操作.</p>
+<h4 id="数据增强-模拟遮挡"><a href="#数据增强-模拟遮挡" class="headerlink" title="数据增强-模拟遮挡"></a>数据增强-模拟遮挡</h4><h5 id="Random-Erease"><a href="#Random-Erease" class="headerlink" title="Random Erease"></a>Random Erease</h5><p>方法Random Erease属于模拟遮挡,不需要额外的参数或者内存消耗,通过随机选择图像中的一个矩形区域,并用随机值覆盖图像,从而模拟目标物体部分被其它物体遮掩的情况；</p>
+<p>但其由于擦除的随机性,容易导致随机的填充区域将目标覆盖(例如7变成1)；当使用随机的像素值时可能会改变数据的均值和方差,从而导致测试表现不好；与其他数据增强技术同时使用时,先后顺序会对结果产生影响.</p>
+<h5 id="CutOut"><a href="#CutOut" class="headerlink" title="CutOut"></a>CutOut</h5><p>方法CutOut属于模拟遮挡,其为通过填充区域从而将区域的图像信息遮挡,从而提升模型的泛化能力.但相较于Random Reaerse的随机取区域,CutOut使用的是固定大小的正方形区域,并用全0代替随机值进行填充,并且允许正方形区域在图片外.</p>
+<p>但其会受到正方形边长设定的影响,其边长设定容易导致图像主要信息被覆盖或对信息完全不构成影响等效果.其在尺度不一的实际环境中可能会导致测试效果较差.且在使用cutout之前,应当首先进行图像的归一化,从而减少像素填充的影响.</p>
+<h5 id="Hide-and-Seek"><a href="#Hide-and-Seek" class="headerlink" title="Hide-and-Seek"></a>Hide-and-Seek</h5><p>方法Hide-and-Seek属于模拟遮挡,和上述两种方法的本质相同,可以看作是对CutOut,Random Erease方法的扩展,其核心原理就是把图像划分为若干小块的区域,然后随机删除.其理论依据为将一些区域进行填充迫使模型通过其它区域的特征进行物体的识别,从而增强特征的表现能力和学到的特征的的多样性,提高模型的泛化能力.</p>
+<p>其存在将主要物体完全遮掩的可能性,存在背景信息取代目标信息的可能性,且存在数据分布被改变的可能性.</p>
+<h5 id="Grid-Mask"><a href="#Grid-Mask" class="headerlink" title="Grid Mask"></a>Grid Mask</h5><p>Grid Mask通过生成一个和原图相同分辨率的Mask,然后将该Mask和原图相称得到一个图像来进行模拟遮挡的.其中Mask的设置是通过控制ratio来控制原图像的信息保留比例,d用来控制每个块的大小.Mask中的空值是固定间隔,固定大小的方块空值在空间内复制而得到的.用这种方法可以避免过度删除或保持连续区域.一方面,过度删除区域会导致完整目标被删除或上下文信息缺失,从而导致剩下的区域不足以表达目标信息.另一方面,区域保留过多会导致其泛用性较差.</p>
+<h4 id="数据增强-利用多张图片进行增强"><a href="#数据增强-利用多张图片进行增强" class="headerlink" title="数据增强-利用多张图片进行增强"></a>数据增强-利用多张图片进行增强</h4><h5 id="Mixup"><a href="#Mixup" class="headerlink" title="Mixup"></a>Mixup</h5><p>方法Mixup是一种运用在计算机视觉中的对图像进行混类增强的算法,其从每个batch中随机选择两张图像,以一定的比例混合形成新的图像.其混合方式为其标签和样本按随机比例进行混合,并将混合生成的图像进行训练.其公式如下所示,其中  $mixed_batch_x$是经过mixup处理之后得到的图片,而$mixed_batch_y$是mixup操作之后得到的标签,其中$\lambda$是比例系数.</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220526151020848.png" alt="image-20220526151020848"></p>
+<h5 id="CutMix"><a href="#CutMix" class="headerlink" title="CutMix"></a>CutMix</h5><p>方法cutmix是指切割出图片中的一小块,然后将这一小块贴到其他的图片之中,并且label依据同样的原理进行混合.其公式如下所示:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220526162414668.png" alt="image-20220526162414668"></p>
+<p>其中$X_A,X_B$是两张图片$Y_A,Y_B$是对应的label,$\lambda$是随机生成的权重.对于label而言当前图片内容在融合后面积的占比决定了label的值,假设分别用两张图的0.3和0.7融合在一起,原始label为[1,0]和[0,1],则融合之后的label为[0.3,0.7]</p>
+<p>cutmix最大程度的利用了统一张图像上的两种不同图像信息,具有较好的分类性能和目标定位功能</p>
+<h4 id="风格迁移GAN"><a href="#风格迁移GAN" class="headerlink" title="风格迁移GAN"></a>风格迁移GAN</h4><h5 id="Style-Transfer-GAN"><a href="#Style-Transfer-GAN" class="headerlink" title="Style Transfer GAN"></a>Style Transfer GAN</h5><p>因为在网络训练的过程中,网络常常会学习到细致的纹理特征,而不是我们常常所需要的形状特征,与我们的需求不符.因而我们使用Style Transfer GAN使图片的分割发生改变,改变图像的纹理特征而不改变图像的大致形状,从而进行数据增强,从而让模型学到纹理特征减少.提高模型的泛化能力.</p>
+<h4 id="网络正则化"><a href="#网络正则化" class="headerlink" title="网络正则化"></a>网络正则化</h4><p>机器学习中的一个核心问题是需要设计的神经网络不仅在训练数据上表现良好,并且能在新的输入上具有泛化性.网络正则化的目的是避免过拟合造成的高方差.其可以理解为通过给模型添加限制,使其在被限制的条件下进行特征的学习从而使模型具有较强的泛化能力.常见的正则化方法有:L0正则化,L1正则化,L2正则化,Dropout,DropConnect,DropBlock,早停法等.</p>
+<h5 id="Dropout"><a href="#Dropout" class="headerlink" title="Dropout"></a>Dropout</h5><p>dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的,更瘦的网络,这样降低了下一个节点对上一个节点的依赖,不会给上一层的某一个节点过高的权重,起到了压缩权重的作用。一般只在全连接层进行使用.</p>
+<h5 id="DropConnect"><a href="#DropConnect" class="headerlink" title="DropConnect"></a>DropConnect</h5><p>不同于Dropout的直接将节点的输出值置为1,DropConnect是将权值(即节点和节点之间的边)以(1-p)的概率乘以0.一般只在全连接层进行使用.</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/20160528171125066.png" alt="img"></p>
+<h5 id="DropBlock"><a href="#DropBlock" class="headerlink" title="DropBlock"></a>DropBlock</h5><p>Dropout在全连接层效果较好,但在卷积层效果不好,其原因是因为卷积层的特征图中相邻位置元素在空间上共享语义信息,所以尽管某个单元被drop,但其余单元可以将该信息补上,所以针对卷积神经网络,提出一钟结构形式的dropout来正则化,即dropblock.DropBlock则将整个局部空间进行删减丢弃,并将其运用在网络的每一个特征图上,并且可以在训练的不同阶段进行不同的设置.其效果比Dropout DropConnect好.</p>
+<h4 id="数据分布不平衡"><a href="#数据分布不平衡" class="headerlink" title="数据分布不平衡"></a>数据分布不平衡</h4><p>数据分布不均衡一般的处理办法可以分为两大类:1. 数据增强 2.损失函数权值均衡</p>
+<h5 id="TWO-STAGE"><a href="#TWO-STAGE" class="headerlink" title="TWO-STAGE"></a>TWO-STAGE</h5><h6 id="Hard-Negative-Example-Mining-困难负例样本挖掘"><a href="#Hard-Negative-Example-Mining-困难负例样本挖掘" class="headerlink" title="Hard Negative Example Mining(困难负例样本挖掘)"></a>Hard Negative Example Mining(困难负例样本挖掘)</h6><p>在目标检测中,检测的时候常常会遇到的问题是我们无法预知一张图片里面会存在多少个目标,所以目标检测框架常常会提出远高于实际数量的区域提议,但由于提出的区域太多,常常会使训练时大部分都是负样本,导致大量无意义的负样本在训练时对正样本产生了影响.根据Focal Loss的统计,通常包含少量信息的”easy examples”(负例) 与包含有用信息的”hard examples”(正例+难负例)的比例为100000:100.这会导致简单例的损失函数数值是难例的40倍.所以为了让模型正常训练,我们必须要通过某种方法抑制大量的简单负例,挖掘所有难例的信息,这是Hard Negative Example Mining的初衷.</p>
+<p>Hard Negative Example Mining的本质为在训练时,尽量多挖掘难负例加入负样本集,这样会比easy negative组成的负样本集效果更好.</p>
+<p>在RCNN中,采用了自举法(boootstrap)的方法:</p>
+<ul>
+<li>先用初始的正负样本训练分类器（此时为了平衡数据，使用的负样本也只是所有负样本的子集）</li>
+<li>用上一步训练好的分类器对样本进行分类,把其中错误分类的那些样本(hard negative)放入负样本子集</li>
+<li>继续训练分类器</li>
+<li>如此反复,直到达到停止条件(比如分类器性能不再提升).</li>
+</ul>
+<p>即可以理解为RCNN的Hard Negative Mining 可以理解为给模型定制一个错题集,在每轮训练中不断将错误的投入下一轮训练中,直到网络性能不能提升为止.</p>
+<h6 id="Online-Hard-Example-Mining"><a href="#Online-Hard-Example-Mining" class="headerlink" title="Online Hard Example Mining"></a>Online Hard Example Mining</h6><p>主要思想可以理解为:一个batch的输入经过网络的前向传播后，有一些困难样本loss较大，我们可以对loss进行降序排序，取前K个认为是hard example，然后有两种方案：</p>
+<ul>
+<li><p>第一个为最终loss只取前k个,其余置0,然后进行BP,其缺点为虽然置0,但内存中依然会为其分配内存</p>
+</li>
+<li><p>第二个方案的步骤如下所示:</p>
+<ul>
+<li>将Fast RCNN分成两个components：ConvNet和RoINet. ConvNet为共享的底层卷积层，RoINet为RoI Pooling后的层，包括全连接层；</li>
+<li>对于每张输入图像，经前向传播，用ConvNet获得feature maps（这里为RoI Pooling层的输入）；</li>
+<li>将事先计算好的proposals，经RoI Pooling层投影到feature maps上，获取固定的特征输出作为全连接层的输入；</li>
+</ul>
+<p>​     需要注意的是，论文说，为了减少显存以及后向传播的时间，这里的RoINet是有两个的，它们共享权重，</p>
+<p>​     RoINet1是只读（只进行forward），RoINet2进行forward和backward：</p>
+</li>
+</ul>
+<h5 id="ONE-STAGE"><a href="#ONE-STAGE" class="headerlink" title="ONE-STAGE"></a>ONE-STAGE</h5><h6 id="Focal-Loss"><a href="#Focal-Loss" class="headerlink" title="Focal Loss"></a>Focal Loss</h6><p>Focal Loss可以理解为一种处理样本分类不均衡的损失函数,其车中的点为根据样本分辨的难易程度给样本对应的损失添加权重,即给容易区分的样本添加较小的权重$a_1$,给难以区分的样本添加较大的权重$a_2$,那么损失函数的表达式可以写作:$L_{sum}=a_1<em>L_{易区分}+a_2</em>L_{难区分}$.其中$a_1$较小而$a_2$较大,所以损失函数中的难区分对象就将主导损失函数,即将损失函数的重点集中在难分辨的样本上,这种处理方法可以理解为Focal Loss.其中对于易分辨和难分辨的个体,我们用他们的置信度进行区分,分类置信度接近0或者1的样本称作易分辨样本,其余的称作难分辨样本.</p>
+<p>Focal Loss的公式如下:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220527153939965.png" alt="image-20220527153939965"></p>
+<p>其中$-log(p_t)$为标准交叉熵,$(1-p_t)^{\gamma}$ 为权重因子,对于$\gamma$取不同的值时.</p>
+<ul>
+<li>当 $\gamma=0$ 时，focal loss等于标准交叉熵函数。</li>
+<li>当 $\gamma&gt;0$时，因为$(1-p_t)&gt;=0$,所以focal loss的损失应该是小于等于标准交叉熵损失。所以，我们分析的重点应该放在难、易分辨样本损失在总损失中所占的比例。<br>即假设有两个$y=1$的样本，它们的分类置信度分别为0.9和0.6，取 $\gamma=2$ 。按照公式计算可得它们的损失分别为：$-(0.1)^2\log(0.9)$ 和 $ -(0.4)^2\log(0.6)$ .<br>将它们的权重相除：$\frac{0.16}{0.01}=16 $，可得到分类置信度为0.6的样本损失大大增强，分类置信度为0.9的样本损失大大抑制，从而使得损失函数专注于这些难分辨的样本上，这也是函数的中心思想。</li>
+</ul>
+<h4 id="one-hot类别之间没有关联"><a href="#one-hot类别之间没有关联" class="headerlink" title="one-hot类别之间没有关联"></a>one-hot类别之间没有关联</h4><p>One-hot是指将类别变量转换为机器学习易于利用的一种形式的过程.其只有一个值不为0,其余特征均为0.</p>
+<h5 id="Label-Smoothing"><a href="#Label-Smoothing" class="headerlink" title="Label Smoothing"></a>Label Smoothing</h5><p>多分类问题中,一般一个物体会输出对应于各个类别的置信度,然后将该置信度通过softmax便得到了该数据属于各个类别的概率.并使用cross-entropy进行loss的计算迭代.但cross-entropy和one-hot的结合使用会导致以下结果:</p>
+<ul>
+<li>真实标签跟其他标签之间的关系被忽略了，很多有用的知识无法学到；比如：“鸟”和“飞机”本来也比较像，因此如果模型预测觉得二者更接近，那么应该给予更小的loss；</li>
+<li>倾向于让模型更加“武断”，成为一个“非黑即白”的模型，导致泛化性能差；</li>
+<li>面对易混淆的分类任务、有噪音（误打标）的数据集时，更容易受影响</li>
+</ul>
+<p>label smoothing可以通过soft one-hot的方法解决上述问题,其加入了噪声,减少了真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果,增加label smoothing前后的概率分布改变如下:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-56899017cd0d5c113edc8002997381d8_720w.jpg" alt="img"></p>
+<p>交叉熵损失函数的改变如下:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-858823f138177de7f61b725b5075e491_720w.png" alt="img"></p>
+<p>最优预测概率分布如下:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-2eb621ebddc7bc3b2722cb6bf535de17_720w.jpg" alt="img"></p>
+<h5 id="知识蒸馏"><a href="#知识蒸馏" class="headerlink" title="知识蒸馏"></a>知识蒸馏</h5><p>知识蒸馏也是处理one-hot编码的一个思路.在传统的ont-hot或者硬编码过程中,一张图只存在一个标签,但忽略了标签和标签之间的关系,例如一张图片上的物体A与B很接近,那合理的分类输出应该是A最高,B次高.但使用了硬编码便会导致只输出了概率最大的类别特征,而忽略了物体与类别B的相似性,而转而告诉大家物体A与类别B与类别C的相似概率相同,这是不合常理的.而soft label则包含了更多了信息,给出了硬编码未曾给出的,物体与谁更像,不像谁,像和不像的概率等信息.且知识蒸馏引入了蒸馏温度T,从而将softmax变得更软,让其的非正确类别概率的信息暴露得更多,即让知识暴露得就越多.</p>
+<p>蒸馏温度T对softmax的影响如下图所示:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAQ2xpY2hvbmc=,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center.png" alt="(Wُ̑�ceQ�VGr�c��"></p>
+<p>当T越大的时候,类别之间的相似信息就保留得越多,当T=1的时候,即为softmax本身.</p>
+<p>在知识蒸馏的过程中存在两个网络,一个是复杂但高精度的模型Teacher模型,一个是精简但复杂度低,易部署的模型student,我们的目的是让教师网络通过hard target训练输出的soft target,作为学生网络的输入,其训练过程如下:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/f1e99d932a90ac1d4f94fdf55157cdfd.png" alt="img"></p>
+<p>在使用知识蒸馏的方法进行训练时,总的损失分为两个部分,分别为==student loss==和==distillation loss==,而最后的loss函数为student loss和distillation loss的加权求和.而在预测的时候,与Teacher模型无关,直接输入学生模型进行预测即可.</p>
+<p>这样的训练方式解决了使用one-hot编码时忽略了类间关系的问题,且压缩了模型,可以实现少样本的学习.</p>
+<p>soft targets与label smoothing相比,label smoothing将正确分类突出,而将其余错误类别拉成相同的,给予了其它类别一些分数从而避免模型过于自信,但忽略了类间关系,其对比可如下所见:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/adda1387a384d25ca220f4319a8d4613.png" alt="img"></p>
+<h4 id="BBox回归的损失函数的设计"><a href="#BBox回归的损失函数的设计" class="headerlink" title="BBox回归的损失函数的设计"></a>BBox回归的损失函数的设计</h4><h5 id="IOU-Loss"><a href="#IOU-Loss" class="headerlink" title="IOU Loss"></a>IOU Loss</h5><p>$IOU=\dfrac{ \vert A \cap B \vert}{ \vert A \cup B \vert}$</p>
+<p>IOU Loss的计算公式是直接将构成区域的四个点看为一个整体进行回归的,解决了传统的$L_1$,$L_2$损失未考虑坐标点之间相关性的问题,其计算公式可以简单的被看为</p>
+<p>$IOU Loss=1-IOU$</p>
+<p>但IOULoss存在以下缺点:</p>
+<ul>
+<li>但预测框与目标框不相交时,即$IOU(A,B)=0$时,不能反映$A,B$距离的远近,此时IOU Loss无法优化两个框不相交的情况</li>
+<li>假设预测框和目标框的大小都确定,其值只和其相交面积有关,但无法反映相交的方式.</li>
+</ul>
+<h5 id="GIOU-Loss"><a href="#GIOU-Loss" class="headerlink" title="GIOU Loss"></a>GIOU Loss</h5><p>对Ground Truth A和所得到的区域B求其的最小外接矩形C,并求A和B的IOU,$GIOU=IOU-\left(\dfrac{\vert C / A \cup B\vert}{\vert C\vert}\right)$</p>
+<p>其具有如下性质:</p>
+<ul>
+<li>当IoU值为1时，GIoU 为 1，即|A U B| = |A ∩ B|；</li>
+<li>Iou为0时，GIoU&lt;=0;</li>
+<li>-1&lt;= GIoU &lt;=1;</li>
+<li>GIou &lt;= IoU;</li>
+</ul>
+<p>由GIOU的计算过程可以得到,其的更新迭代过程中,若A与B相互包裹,则会导致其的外接矩形与$max(A,B)$相同,则GIOU退化为IOU,无法评估好坏.其次,其的训练过程首先需要其与目标框相交,所以其所需的训练轮次较多</p>
+<p>$GIOULoss=1-GIOU$</p>
+<h5 id="DIOU-Loss"><a href="#DIOU-Loss" class="headerlink" title="DIOU Loss"></a>DIOU Loss</h5><p>DIOU针对于GIOU的问题,提出了新的惩罚项,其表达式为$DIOU=IOU - \dfrac{\rho^2(A,B)}{c^2}$,其中的$\rho(A,B)$是指的是A框和B框中心点坐标的欧式距离,c是其外接矩形的对角线距离.$DIOULoss=1-DIOU$</p>
+<p>DIOU的惩罚项$\dfrac{\rho^2(A,B)}{c^2}$,其优化的直接目的是缩小惩罚项,即为减小两个矩形框中心点之间的欧式距离.比GIOU要更为直接,损失收敛速度更快.</p>
+<h5 id="CIOU-Loss"><a href="#CIOU-Loss" class="headerlink" title="CIOU Loss"></a>CIOU Loss</h5><p>边界框的回归应考虑三个比较重要的几何因素,即重叠面积,中心点距离和纵横比,在以前的各种IOULoss中,IOULoss,GIOULoss考虑重叠面积,DIOULoss考虑重叠面积和中心点距离,CIOULoss则同时考虑上述三点.</p>
+<p>CLOULoss的惩罚项如下所示:$R_{CIOU}=\dfrac{\rho^2(A,B)}{c^2}+\alpha v$,其中$\alpha$是一个正的权衡参数,v则衡量长宽比的一致性,其定义如下:</p>
+<p>$v=\dfrac{4}{\pi^2} \left(arctan\dfrac{w^{gt}}{h^{gt}}-arctan\dfrac{w}{h}\right)^2$</p>
+<p>$\alpha=\dfrac{v}{\left( 1-IOU\right)+v}$</p>
+<p>$CIOULoss=1-CLOU$</p>
+<p>对于IOULoss相关:</p>
+<ul>
+<li>IOU_Loss：主要考虑检测框和目标框重叠面积。</li>
+<li>GIOU_Loss：在IOU的基础上，解决边界框不重合时的问题。</li>
+<li>DIOU_Loss：在IOU和GIOU的基础上，考虑边界框中心点距离的信息。</li>
+<li>CIOU_Loss：在DIOU的基础上，考虑边界框宽高比的尺度信息。</li>
+</ul>
+<h4 id="增大模型感受野"><a href="#增大模型感受野" class="headerlink" title="增大模型感受野"></a>增大模型感受野</h4><h5 id="SPP"><a href="#SPP" class="headerlink" title="SPP"></a>SPP</h5><p>传统的CNN网络对图像的输入尺寸有要求,这是因为传统的CNN网络存在全连接层,全连接层的参数是上一层传入的特征个数,在传入的图像尺寸大小存在改变的情况下,该层学得的权重个数是不确定的,为了解决这个问题,SPP在全连接成之前加入了一个网络层,使其对任意的输入产生固定的输出.在SPP中,所添加的是一个pooling层,其的各种参数都是相对的,使最终pooling的结果是确定的,SPPNet思路是对于任意大小的feature map首先分成16、4、1个块，然后在每个块上最大池化，池化后的特征拼接得到一个固定维度的输出。以满足全连接层的需要。SPPNet理论上可以改进任何CNN网络，通过空间金字塔池化，使得CNN的特征不再是单一尺度的。<img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606162333329.png" alt="image-20220606162333329"></p>
+<h5 id="ASPP"><a href="#ASPP" class="headerlink" title="ASPP"></a>ASPP</h5><p>SPP可以理解为在普通的SPP的基础上,添加了膨胀因子并将输入通过ASPPPooling层,从而实现自由的多尺度特征提取.</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/7548f8d2dfdc4c34884860e5c6e4cdb9.png" alt="img"></p>
+<h5 id="RFB"><a href="#RFB" class="headerlink" title="RFB"></a>RFB</h5><p>RFB可以理解为在其每个分支上使用不同尺度的常规卷积+空洞卷积,通过各个分支上各自的不同参数来模拟人类视觉感知模式,其网络结构如下图所示:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YWl5Z2RJuWhq-WdkQ==,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="(Wُ̑�ceQ�VGr�c��"></p>
+<h4 id="引入注意力机制"><a href="#引入注意力机制" class="headerlink" title="引入注意力机制"></a>引入注意力机制</h4><p>注意力机制可以被认为是一种权重分配的机制和策略.</p>
+<h5 id="Squeeze-and-Excitation-SE"><a href="#Squeeze-and-Excitation-SE" class="headerlink" title="Squeeze-and-Excitation(SE)"></a>Squeeze-and-Excitation(SE)</h5><p>Squeeze-and-Excitation提出了一种新的网络模型的设计角度- 通过通道间的关系进行模型设计,这样提出的新的网络结构单元被叫作”Squeeze-and-Excitation”网络块,作者的定位是通过精确的建模卷积特征各个通道之间的作用关系来改善网络模型的表达能力。</p>
+<p>SE的示意图如下所示:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/20170928205849736.png" alt="img"></p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/20170928210056332.png" alt="img"></p>
+<h5 id="Spatial-Attention-Module-SAM"><a href="#Spatial-Attention-Module-SAM" class="headerlink" title="Spatial Attention Module(SAM)"></a>Spatial Attention Module(SAM)</h5><p>SAM就是用来对特征图内部的空间位置添加注意力机制的模块，假定输入的特征图还是C×H×W（也就是C张大小为H×W的特征图），这次我们对特征图的每个点（H×W内）进行通道数为C的最大值池化，这样最大值池化输出的特征图大小就是1×H×W，同时也进行通道数为C的平均值池化，输出的特征图大小也是1×H×W，将最大值池化输出的特征图和平均值池化输出的特征图进行拼接形成2×H×W的拼接特征图，然后通过1×1卷积进行通道降维成1×H×W的输出特征图，再经过Sigmoid激活形成空间注意力权重，然后和原来的C×H×W的特征图进行相乘。这样相当于给每张H×W的特征图乘于一个H×W的空间权重，从而形成空间注意力模块。<br><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YWl5Z2RJuWhq-WdkQ==,size_20,color_FFFFFF,t_70,g_se,x_16-16544820991039.png" alt="在这里插入图片描述"></p>
+<h5 id="modified-SAM"><a href="#modified-SAM" class="headerlink" title="modified SAM"></a>modified SAM</h5><p>Modified SAM是YOLOv4的一个创新点，称为像素注意力机制，它的思路也非常简单，就是把SAM模块的池化层全部去除，对C×H×W的特征图进行1×1卷积（既没有降通道也没有升通道），得到C×H×W的输出特征图，然后使用Sigmoid激活，再与原来的C×H×W进行像素点相乘。</p>
+<p>其示意图如下所示:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YWl5Z2RJuWhq-WdkQ==,size_20,color_FFFFFF,t_70,g_se,x_16-165448298270712.png" alt="在这里插入图片描述"></p>
+<p>YOLOV4里没有这样修改的好处的解释，这里只是个人见解：点卷积的一个特点是对信息进行跨通道的组合，原来的SAM里点卷积的对象是平均池化与最大值池化后的concat结果，在这里，点卷积能选择的只有2个通道，能选择的少。modified SAM利用这一点给卷积更多的通道去选择来组合更优的结果，并且是每个通道下都组合出一组更优的结果来和输入进行点乘，而SAM只组合出一组作为所有通道下的更优结果(SAM输入只有2通道，而且是均值池化和最大值池化，所以只能组合出一组，多组的结果就有问题了)，以一不好代表全部。</p>
+<h4 id="特征融合-特征集成模块"><a href="#特征融合-特征集成模块" class="headerlink" title="特征融合,特征集成模块"></a>特征融合,特征集成模块</h4><ul>
+<li>Skip Connection,Hyper Column,FPN(SFAM,ASFF.BiFPN)</li>
+</ul>
+<h4 id="改变激活函数"><a href="#改变激活函数" class="headerlink" title="改变激活函数"></a>改变激活函数</h4><ul>
+<li>Mish.Swish.Hard Swish.ReLu类</li>
+</ul>
+<h4 id="后处理方法"><a href="#后处理方法" class="headerlink" title="后处理方法"></a>后处理方法</h4><ul>
+<li>soft NMS,greedy NMS,DIOU NMS</li>
+</ul>
+<h3 id="YOLOv4最终采用方案"><a href="#YOLOv4最终采用方案" class="headerlink" title="YOLOv4最终采用方案"></a>YOLOv4最终采用方案</h3><p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606140600019.png" alt="image-20220606140600019"></p>
+<p>yolov4最后采用的结构为:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5peg5bC955qE5rKJ6buY,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p>上图中部分组件:</p>
+<p>==CBM==：Yolo v4网络结构中的最小组件，其由Conv（卷积）+ BN + Mish激活函数组成。<br>==CBL==：Yolo v4网络结构中的最小组件，其由Conv（卷积）+ BN + Leaky relu激活函数组成。<br>==Res unit==：残差组件，借鉴ResNet网络中的残差结构，让网络可以构建的更深。<br>==CSPX==：借鉴CSPNet网络结构，由三个CBM卷积层和X个Res unint模块Concat组成。<br>==SPP==：采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合。</p>
+<p>张量拼接与张量相加<br>==Concat==：张量拼接，会扩充两个张量的维度，例如26×26×256和26×26×512两个张量拼接，结果是26×26×768。<br>==Add==：张量相加，张量直接相加，不会扩充维度，例如104×104×128和104×104×128相加，结果还是104×104×128。</p>
+<ul>
+<li><p>输入时采用了Mosaic数据增强,cmBN,SAT的方法</p>
+<ul>
+<li>Mosaic数据增强的使用主要是为了解决小目标的AP一般比中目标和大目标低很多的问题,但小目标分布并不均匀,且在训练集和测试集中分布不同.使用Mosaic数据增强的方法就是随机使用四张图片并进行随机的缩放和拼接,这样操作增加了很多小目标,让网络鲁棒性更好.</li>
+</ul>
+</li>
+<li><p>backbone 采用CSPDarknet53加一系列的trickrespond_bgd</p>
+<ul>
+<li><p>CSPNet全称是Cross Stage Partial Networks，也就是跨阶段局部网络。</p>
+</li>
+<li><p>CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题，将梯度的变化从头到尾地集成到特征图中，因此减少了模型的参数量和FLOPS数值，既保证了推理速度和准确率，又减小了模型尺寸。</p>
+</li>
+<li><p>CSPNet实际上是基于Densnet的思想，复制基础层的特征映射图，通过dense block 发送副本到下一个阶段，从而将基础层的特征映射图分离出来。</p>
+</li>
+<li><p>这样可以有效缓解梯度消失问题(通过非常深的网络很难去反推丢失信号) ，支持特征传播，鼓励网络重用特征，从而减少网络参数数量。</p>
+<p>CSP结构示意图如下:</p>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ4OTg0MTc0,size_16,color_FFFFFF,t_70.png" alt="在这里插入图片描述"></p>
+<ul>
+<li>CSPDarknet53的激活函数使用Mish激活函数,其与leaky ReLu相比计算量较大,效果有所提升.但需要注意的是,只有在backbone之中的激活函数使用的是Mish,其余后续步骤使用的激活函数还是使用的leaky ReLu</li>
+<li>在backbone之中使用了dropblock,是一种缓解过拟合的正则化方法,其作用在任何卷积层之上.</li>
+<li>CBM是yolov4中的最小组件,由$Conv+Bn+Mish$组成,<ul>
+<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606151708955.png" alt="image-20220606151708955"></li>
+</ul>
+</li>
+<li>Res unit模块借鉴了ResNet的结构,直接将输入传到Res unit的输出端,其由经过两个CBM模块处理之后的结果和输入相加所得.<ul>
+<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606151722575.png" alt="image-20220606151722575"></li>
+</ul>
+</li>
+<li>CSP模块借鉴了上面所提到过的CSP的思想,由如下所示的部分所组成:<ul>
+<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606151847805.png" alt="image-20220606151847805"></li>
+<li>其由CBM和Res unit组件得到的结果concat而成.</li>
+</ul>
+</li>
+<li>最终的backbone分别输出$76<em>76,38</em>38,19*19$的feature map</li>
+</ul>
+</li>
+</ul>
+</li>
+<li><p>neck 主要采用了SPP+PAN的思想</p>
+<ul>
+<li>CBL模块和CBM模块类似,不过其的激活函数由Mish换成了Leaky ReLu,其余组件没有改变<ul>
+<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/image-20220606152324192.png" alt="image-20220606152324192"></li>
+</ul>
+</li>
+<li>SPP模块的组成如下所示:<ul>
+<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA54yq5LiN54ix5Yqo6ISR,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></li>
+<li>其分别采用了$1<em>1,5</em>5,9<em>9,13</em>13$的最大池化的方式进行多尺度融合,并最终concat成为最终的feature map</li>
+</ul>
+</li>
+<li>PAN模块的组成如下所示:<ul>
+<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/v2-b427ad60e3080fd4784df23e05ff675c_720w.jpg" alt="img"></li>
+<li>原本的PAN中,两个特征图相结合采用的是shortcut,但在yolov4中对其进行改进,采用的是concat操作,融合后的特征图尺寸有所改变:<ul>
+<li><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5peg5bC955qE5rKJ6buY,size_20,color_FFFFFF,t_70,g_se,x_16-16545031928827.png" alt="img"></li>
+</ul>
+</li>
+<li>SPP+PAN<ul>
+<li>SPP层自适应的进行池化提取特征,自顶向下传达强语义特征，而PAN则自底向上传达强定位特征，两两联手，从不同的主干层对不同的检测层进行参数聚合，加速了不同尺度特征的融合，进一步提高特征提取的能力。</li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li><p>Head 采用YOLOv3的Head</p>
+<ul>
+<li>YOLOv4中$Loss=边框位置损失+类别损失+置信度损失$,其使用了CIOULoss替代了YOLOv3中的边框位置损失,其余部分没有分别,其损失函数如下:</li>
+</ul>
+</li>
+</ul>
+<p><img src="/2022/07/04/YOLOv4%E6%80%BB%E7%BB%93/123213123123.png" alt="(sd"></p>
+<p>其中置信度损失使用了focal loss</p>
+
+      
+    </div>
+
+    
+    
+    
+      <footer class="post-footer">
+        <div class="post-eof"></div>
+      </footer>
+  </article>
+  
+  
+  
+
+      
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h2 class="post-title" itemprop="name headline">
+          
+            <a href="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/" class="post-title-link" itemprop="url">目标检测相关</a>
+        </h2>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+
+              <time title="创建时间：2022-04-19 10:53:23" itemprop="dateCreated datePublished" datetime="2022-04-19T10:53:23+08:00">2022-04-19</time>
+            </span>
+              <span class="post-meta-item">
+                <span class="post-meta-item-icon">
+                  <i class="far fa-calendar-check"></i>
+                </span>
+                <span class="post-meta-item-text">更新于</span>
+                <time title="修改时间：2023-06-12 16:31:51" itemprop="dateModified" datetime="2023-06-12T16:31:51+08:00">2023-06-12</time>
+              </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+          <h1 id="目标检测相关"><a href="#目标检测相关" class="headerlink" title="目标检测相关"></a>目标检测相关</h1><p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAUmFuYWxkX1hpZQ==,size_20,color_FFFFFF,t_70,g_se,x_16.png" alt="img"></p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/v2-e0a477f5a1fb362f72123676ef403894_720w.jpg" alt="img" style="zoom:150%;"></p>
+<p>传统的图片分类的深度学习的功能组成可以分为两个部分，一个为通过多重卷积层进行图片特征的学习，第二个为通过softmax进行图片的分类。</p>
+<h2 id="传统目标检测算法"><a href="#传统目标检测算法" class="headerlink" title="传统目标检测算法"></a>传统目标检测算法</h2><p>传统目标检测算法主要基于手工提取特征：算法流程如下：</p>
+<ol>
+<li>选取感兴趣的区域，选取可能包含物体的区域</li>
+<li>对可能包含物体的区域进行特征提取</li>
+<li>对提取的特征进行检测分类</li>
+</ol>
+<h3 id="Viola-Jones-Detector"><a href="#Viola-Jones-Detector" class="headerlink" title="Viola Jones Detector"></a>Viola Jones Detector</h3><p>VJ (Viola Jones)检测器采用滑动窗口的方式以检查目标是否存在窗口之中，该检测器看起来似乎很简单稳定，但由于计算量庞大导致时间复杂度极高，为了解决该项问题，VJ检测器通过合并三项技术极大提高了检测速度，这三项技术分别是：1)特征的快速计算方法-积分图，2)有效的分类器学习方法-AdaBoost，以及3)高效的分类策略-级联结构的设计。</p>
+<h3 id="HOG-Detector"><a href="#HOG-Detector" class="headerlink" title="HOG Detector"></a>HOG Detector</h3><p>HOG(Histogram of Oriented Gradients)检测器于2005年提出，是当时尺度特征不变性(Scale Invariant Feature Transform)和形状上下文(Shape Contexts)的重要改进，为了平衡特征不变性(包括平移，尺度，光照等)和非线性(区分不同的对象类别)，HOG通过在均匀间隔单元的密集网格上计算重叠的局部对比度归一化来提高检测准确性，因此HOG检测器是基于本地像素块进行特征直方图提取的一种算法，它在目标局部变形和受光照影响下都有很好的稳定性。HOG为后期很多检测方法奠定了重要基础，相关技术被广泛应用于计算机视觉各大应用。</p>
+<h3 id="DPM-Detector"><a href="#DPM-Detector" class="headerlink" title="DPM Detector"></a>DPM Detector</h3><p>作为VOC 2007-2009目标检测挑战赛的冠军，DPM(Deformable Parts Model)是目标检测传统算法中当之无愧的SOTA(State Of The Art)算法。DPM于2008年提出，相比于HOG，DPM作了很多改进，因此该算法可以看作HOG的延申算法。DPM算法由一个主过滤器(Root-filter)和多个辅过滤器(Part-filters)组成，通过硬负挖掘(Hard negative mining)，边框回归(Bounding box regression)和上下文启动(Context priming)技术改进检测精度。作为传统目标检测算法的SOTA，DPM方法运算速度快，能够适应物体形变，但它无法适应大幅度的旋转，因此稳定性差。</p>
+<h3 id="局限性"><a href="#局限性" class="headerlink" title="局限性"></a>局限性</h3><p>基于手工提取特征的传统目标检测算法主要有以下三个缺点：</p>
+<ol>
+<li>识别效果不够好，准确率不高</li>
+<li>计算量较大，运算速度慢</li>
+<li>可能产生多个正确识别的结果</li>
+</ol>
+<h2 id="深度学习目标检测算法"><a href="#深度学习目标检测算法" class="headerlink" title="深度学习目标检测算法"></a>深度学习目标检测算法</h2><p>算法大致性能可见<a target="_blank" rel="noopener" href="https://cv.gluon.ai/model_zoo/detection.html">链接</a></p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410144648473.png" alt="image-20220410144648473"></p>
+<p>Tips：Anchor的理解：anchor直译是锚，其在目标识别里面的本质即为一个多尺度的滑动窗口，在实际中大多为计算机随机生成的预测物体在哪的一个框。anchor boxes指预定义的框集合。</p>
+<h3 id="Anchor-Based"><a href="#Anchor-Based" class="headerlink" title="Anchor-Based"></a>Anchor-Based</h3><p>Tips：</p>
+<ul>
+<li>IoU-交并比，用来计算两个框之间的的相似度，0表示无重叠，1表示重合</li>
+</ul>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220409195243183.png" alt="image-20220409195243183"></p>
+<ul>
+<li>NMS-非极大值抑制输出，每个锚框预测一个边缘框，NMS可以合并相似的预测：选中非背景类的最大预测值，去掉所有其他和它IoU值大于阈值的预测，重复进行直到所有预测要么被选中，要么被去掉。</li>
+</ul>
+<h4 id="Two-state"><a href="#Two-state" class="headerlink" title="Two-state"></a>Two-state</h4><p>二阶段检测算法主要分为以下两个阶段<br><strong>Stage1</strong>：从图像中生成region proposals<br><strong>Stage2</strong>：从region proposals生成最终的物体边框。</p>
+<h5 id="RCNN"><a href="#RCNN" class="headerlink" title="RCNN"></a>RCNN</h5><p>RCNN算法流程如下：</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">- 一张图片生成1k-2k个候选区域(使用Selective Search方法)，其候选区域通常是在多个尺度下生成选取的，具有不同的形状和大小。</span><br><span class="line">- 对每个候选区域，使用深度网络提取特征</span><br><span class="line">- 特征送入每一类的SVM分类器，判别是否属于该类</span><br><span class="line">- 使用回归精细修正候选框位置</span><br></pre></td></tr></table></figure>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410102221484.png" alt="image-20220410102221484"></p>
+<p>为了处理选取锚框大小不同的问题，使用兴趣区域（ROI）池化层，即将给定的任何一个锚框均匀分割成n*m块，输出每块中的最大值，不管锚框的大小，总是输出nm个值，样例如下：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/9d7d2cb8c875c42a1b87834fa38502f70d018a26.png" alt="img"></p>
+<p>兴趣区域汇聚层（RoI Pooing）与一般的汇聚层有什么不同：</p>
+<ul>
+<li>在一般的汇聚层中，通过设置汇聚窗口、填充和步幅的大小来间接控制输出形状</li>
+<li>在兴趣区域汇聚层中，对每个区域的输出形状是可以直接指定的 </li>
+</ul>
+<p>网络结构：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220328191033301.png" alt="image-20220328191033301"></p>
+<p>问题：计算量大，导致测试速度慢、训练速度慢、训练所需空间大</p>
+<h5 id="Fast-RCNN"><a href="#Fast-RCNN" class="headerlink" title="Fast-RCNN"></a>Fast-RCNN</h5><p>RCNN的主要性能瓶颈在于其对于每一个提议区域，其CNN的前向传播是独立的。anchor之间通常有重叠，存在重复计算的情况。</p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">- 一张图片生成1k-2k个候选区域(使用Selective Search方法)</span><br><span class="line">- 将图片输入网络得到相应的特征图，将SS算法生成的候选框投影到特征图上获得相应的特征矩阵</span><br><span class="line">- 将每个特征矩阵通过ROI pooling缩放到7x7大小的特征图，接着将特征图展平通过一系列全连接层得到预测结果</span><br></pre></td></tr></table></figure>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/66a6d7b1dc3414493a3e7114c12d31bc483a7539.png" alt="img"></p>
+<p>Faste R-CNN 的改进是：</p>
+<ul>
+<li>在拿到一张图片之后，首先使用 CNN 对图片进行特征提取（不是对图片中的锚框进行特征提取，而是对整张图片进行特征提取，仅在整张图像上执行卷积神经网络的前向传播），最终会得到一个 $7 <em> 7$ 或者 $14 </em> 14$ 的 feature map</li>
+<li>抽取完特征之后，再对图片进行锚框的选择（selective search），搜索到原始图片上的锚框之后将其（按照一定的比例）映射到 CNN 的输出上</li>
+<li>映射完锚框之后，再使用 RoI pooling 对 CNN 输出的 feature map 上的锚框进行特征抽取，生成固定长度的特征（将 n * m 的矩阵拉伸成为 nm 维的向量），之后再通过一个全连接层（这样就不需要使用SVM一个一个的操作，而是一次性操作了）对每个锚框进行预测：物体的类别和真实的边缘框的偏移</li>
+<li>Fast R-CNN 相对于 R-CNN 更快的原因是：Fast R-CNN 中的 CNN 不再对每个锚框抽取特征，而是对整个图片进行特征的提取（这样做的好处是：不同的锚框之间可能会有重叠的部分，如果对每个锚框都进行特征提取的话，可能会对重叠的区域进行多次重复的特征提取操作），然后再在整张图片的feature中找出原图中锚框对应的特征，最后一起做预测</li>
+</ul>
+<p>网络结构：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220328200535046.png" alt="image-20220328200535046"></p>
+<h5 id="Faster-RCNN"><a href="#Faster-RCNN" class="headerlink" title="Faster-RCNN"></a>Faster-RCNN</h5><p>使用一个区域提议网络（即RPN）来替代Selective Search算法来获得更好的锚框。模型的其余部分保持不变，从而减少区域的生成数量并且同时保证精度。</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410142553061.png" alt="image-20220410142553061"></p>
+<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">- 将图片输入网络得到相应的特征图</span><br><span class="line">- 使用RPN结构生成候选框，将RPN生成的候选框投影到特征图上获得相应的特征矩阵，RPN可以看作一个小一点的，粗糙一点的目标检测算法，将提供给他的anchor box细化，生成数量较少的高质量的anchor。</span><br><span class="line">- 将每个特征矩阵通过ROI pooling缩放到7x7大小的特征图，接着将特征图展平通过一系列全连接层得到预测结果</span><br></pre></td></tr></table></figure>
+<ul>
+<li>Faster R-CNN 的改进：使用 RPN 神经网络来替代 selective search </li>
+<li>RoI 的输入是CNN 输出的 feature map 和生成的锚框</li>
+<li>RPN 的输入是 CNN 输出的 feature map，输出是一些比较高质量的锚框（可以理解为一个比较小而且比较粗糙的目标检测算法： CNN 的输出进入到 RPN 之后再做一次卷积，然后生成一些锚框（可以是 selective search 或者其他方法来生成初始的锚框），再训练一个二分类问题：预测锚框是否框住了真实的物体以及锚框到真实的边缘框的偏移，最后使用 NMS 进行去重，使得锚框的数量变少）</li>
+<li>RPN 的作用是生成大量结果很差的锚框，然后进行预测，最终输出比较好的锚框供后面的网络使用（预测出来的比较好的锚框会进入 RoI pooling，后面的操作与 Fast R-CNN 类似）</li>
+<li>通常被称为两阶段的目标检测算法：RPN 做小的目标检测（粗糙），整个网络再做一次大的目标检测（精准）<br>Faster R-CNN 目前来说是用的比较多的算法，准确率比较高，但是速度比较慢。</li>
+</ul>
+<h5 id="Mask-R-CNN"><a href="#Mask-R-CNN" class="headerlink" title="Mask R-CNN"></a>Mask R-CNN</h5><p>如果有像素级别的标号，使用FCN来利用这些信息，并且利用这些信息进一步的提升目标检测的精度。</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410143209642.png" alt="image-20220410143209642"></p>
+<p>Mask R-CNN 是基于 Faster R-CNN 修改而来的，改进在于</p>
+<ul>
+<li>假设有每个像素的标号的话，就可以对每个像素做预测（FCN）</li>
+<li>将兴趣区域汇聚层替换成了兴趣区域对齐层（RoI pooling -&gt; RoI align），使用双线性插值（bilinear interpolation）保留特征图上的空间信息，进而更适于像素级预测：对于pooling来说，假如有一个3 <em> 3的区域，需要对它进行2 </em> 2的RoI pooling操作，那么会进行取整从而切割成为不均匀的四个部分，然后进行 pooling 操作，这样切割成为不均匀的四部分的做法对于目标检测来说没有太大的问题，因为目标检测不是像素级别的，偏移几个像素对结果没有太大的影响。但是对于像素级别的标号来说，会产生极大的误差；RoI align 不管能不能整除，如果不能整除的话，会直接将像素切开，切开后的每一部分是原像素的加权（它的值是原像素的一部分）</li>
+<li>兴趣区域对齐层的输出包含了所有与兴趣区域的形状相同的特征图，它们不仅被用于预测每个兴趣区域的类别和边界框，还通过额外的全卷积网络预测目标的像素级位置 </li>
+</ul>
+<p>RCNN大类的总结：</p>
+<ul>
+<li>R-CNN 是最早、也是最有名的一类基于锚框和 CNN 的目标检测算法（R-CNN 可以认为是使用神经网络来做目标检测工作的奠基工作之一），它对图像选取若干提议区域，使用卷积神经网络对每个提议区域执行前向传播以抽取其特征，然后再用这些特征来预测提议区域的类别和边框</li>
+<li>Fast/Faster R-CNN持续提升性能：Fast R-CNN 只对整个图像做卷积神经网络的前向传播，还引入了兴趣区域汇聚层（RoI pooling），从而为具有不同形状的兴趣区域抽取相同形状的特征</li>
+<li>Faster R-CNN 将 Fast R-CNN 中使用的选择性搜索替换为参与训练的区域提议网络，这样可以在减少提议区域数量的情况下仍然保持目标检测的精度</li>
+<li>Mask R-CNN 在 Faster R-CNN 的基础上引入了一个全卷积网络，从而借助目标的像素级位置进一步提升目标检测的精度</li>
+<li>Faster R-CNN 和 Mask R-CNN 是在追求高精度场景下的常用算法（Mask R-CNN 需要有像素级别的标号，所以相对来讲局限性会大一点，在无人车领域使用的比较多）</li>
+</ul>
+<h4 id="One-state"><a href="#One-state" class="headerlink" title="One-state"></a>One-state</h4><p>one-state算法的特点是一步到位，速度相对较快，仅需要送入网络一次就可以预测出所有的边界框，经典的one - state算法包括YOLO，SSD，SqueezeDet和DetectNet，其主要思想为：均匀的在图像的不同位置进行密集，不同长宽比的抽样，然后利用CNN提取特征后直接进行分类与回归。但其正样本与负样本数据不均衡，导致模型准确度偏低</p>
+<h5 id="SSD"><a href="#SSD" class="headerlink" title="SSD"></a>SSD</h5><ul>
+<li>将输入图片通过一个基础网络进行特征的抽取，然后对生成的图片生成锚框，然后对每个锚框进行种类的预测和与真实边框的回归。</li>
+<li>对输入，将其通过卷积层，使其高宽减半，并对减半之后的图像生成锚框，并对每个锚框进行种类的预测和与真是边框的回归。网络底层拟合小物体，顶层拟合大物体。</li>
+<li>重复该流程</li>
+</ul>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220410153453938.png" alt="image-20220410153453938"></p>
+<p>详细解释如下：</p>
+<ul>
+<li><p>输入图像之后，首先进入一个基础网络来抽取特征，抽取完特征之后对每个像素生成大量的锚框（每个锚框就是一个样本，然后预测锚框的类别以及到真实边界框的偏移）</p>
+</li>
+<li><p>SSD 在给定锚框之后直接对锚框进行预测，而不需要做两阶段（为什么 Faster RCNN 需要做两次，而 SSD 只需要做一次？SSD 通过做不同分辨率下的预测来提升最终的效果，越到底层的 feature map，就越大，越往上，feature map 越少，因此底层更加有利于小物体的检测，而上层更有利于大物体的检测）</p>
+</li>
+<li><p>SSD 不再使用 RPN 网络，而是直接在生成的大量样本（锚框）上做预测，看是否包含目标物体；如果包含目标物体，再预测该样本到真实边缘框的偏移</p>
+</li>
+</ul>
+<h5 id="YOLO系列-YOLOv1"><a href="#YOLO系列-YOLOv1" class="headerlink" title="YOLO系列-YOLOv1"></a>YOLO系列-YOLOv1</h5><p>yolo将物体检测的问题处理成回归问题，相对于滑动窗口方法和RPN的方法，yolo在每一次训练和预测中都是使用了整张图片的信息进行预测，且是端到端的网络。yolo的泛化性能较好。yolo会同时预测所有的候选框和类别的概率。</p>
+<ul>
+<li><p>将一幅图片分成SxS个网格，如果某个物体的中心落在这个网格中，则这个网格就负责预测这个物体。</p>
+</li>
+<li><p>每一个网格要预测B个bounding box，每个bounding box除了要预测位置之外，还要附带预测一个confidence，每个网格还要预测C个类别的分数。</p>
+<p>样例如下：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220411162751719.png" alt="image-20220411162751719"></p>
+<p>即，如果对于一幅图片，将其分为7x7个网格，取B=2,总共有20种物体的情况下，最后生成的数据为7x7x30的特征矩阵。其中有20个class scores，即每个7x7对应的网格对应于分类成为每种物体的概率20个，以及2个4+1，4即为坐标信息（x,y,w,h)，（x,y）为相对应于网格而言的中心坐标，(w,h)为相对于整张图片而言的宽和高，1为confidence，confidence定义为<img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220411163358736.png" alt="image-20220411163358736">，即预测的目标与真实的目标的IoU乘以是否存在物体的Pr（Object)，反映了这个框包含了一个物体的自信程度以及其预测的位置的准确程度。</p>
+</li>
+</ul>
+<p>YOLOv1网络结构示意图</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220411163937265.png" alt="image-20220411163937265"></p>
+<p>24个卷积层+2个全连接层。在3x3的卷积层之前使用1x1的卷积层，这样会减少参数数量。</p>
+<p>训练相关：使用预训练，使用224x224的图片（在ImageNet中有上百万张）进行预训练。 </p>
+<p>激活函数的选用：最后一层使用线性变换，其他层使用的是leaky ReLu，公式如下：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412193906840.png" alt="image-20220412193906840"></p>
+<p>损失函数：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220411164643885.png" alt="image-20220411164643885"></p>
+<p>tips:</p>
+<ul>
+<li>对于bounding box 损失：其中x，y为坐标，直接使用误差平方和，而w，h为对应于整张图片的宽和高，由于对于小目标和大目标而言，偏移相同的距离造成的影响是不一样的，所以不应该直接使用误差平方和，而是先开方，再使用误差平方和，这样可以使小目标在相较于大目标在偏移相同的距离的时候，其损失值更大。</li>
+<li>对于confidence损失和classes损失，分成正负样本分别使用误差平方和进行计算</li>
+<li><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412202919491.png" alt="image-20220412202919491">原文中参数设置如图，之所以$\lambda_{coord}$会是$\lambda_{noobj}$的十倍是因为我们更关心框选部分有物体的框，不那么关心没框到物体的框</li>
+<li><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412203615797.png" alt="image-20220412203615797">意为如果框是一个物体的时候为1，否则为0。</li>
+</ul>
+<p>在预测的时候，生成了SxSx（class num+B*（4+1））个框，过滤框的时候使用<img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412214139769.png" alt="image-20220412214139769">，与设定的阈值进行对比并进行NMS，剩下来的就是我们最终获得的目标。</p>
+<p>yolov1存在的问题：</p>
+<ul>
+<li><p>对群体性的密集小目标的检测性能差（理由：对每个网格只预测2个bounding box，且属于同一个类）</p>
+</li>
+<li><p>当目标出现了新的尺寸和比例，预测效果较差（理由：主要错误原因为定位不准确，是因为使用了直接预测目标的位置信息，而不是使用anchor从而预测回归参数，所以从yolov2开始，重新使用anchor）</p>
+</li>
+<li><p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220412162538084.png" alt="image-20220412162538084"></p>
+<p>由于类别的预测是针对于每个网格而言的，所以当多个物体的中心出现重叠的时候会出现错误。</p>
+</li>
+<li><p>在判断某些物体时，有时不需要最后的高阶的特征，只需要较为底层，或者中层的特征就可以对物体进行判断。而yolov1的结构则全部使用了最抽象的特征进行判断，反而容易引入错误。</p>
+</li>
+</ul>
+<h5 id="YOLO系列-YOLOv2"><a href="#YOLO系列-YOLOv2" class="headerlink" title="YOLO系列-YOLOv2"></a>YOLO系列-YOLOv2</h5><p>yolov1主要存在的问题：定位误差大，召回率差。yolov2中相较于yolov1的各种尝试：</p>
+<ul>
+<li>Batch Normalization</li>
+<li>High Resolution Classifier</li>
+<li>Convolutional With Anchor Boxes</li>
+<li>Dimension Clusters</li>
+<li>Direct location prediction</li>
+<li>Fine-Grained Features</li>
+<li>Multi-Scale Training</li>
+</ul>
+<p><strong>Batch Normalization</strong>：显著的提升了训练收敛的速度，减少了所需的正则化程度。通过在每个卷积层之后添加BN层，模型提高了2％的map，且可以丢弃dropout层。</p>
+<p><strong>High Resolution Classifier</strong>：因为使用了pre train技术，在yolov1中我们使用的是Image Net的224x224图像进行训练，在预测的时候将输入的分辨率调为448x448。在yolov2中，使用448x448的Image Net的图片进行预训练，使map提升4％。</p>
+<p><strong>Convolutional With Anchor Boxes</strong>：在yolov1中对边界框的预测是直接用全连接层来预测的，是不基于anchor的。而这样会导致边界框的定位误差较大。所以yolov2认为，预测基于anchor的偏移会使这个问题较为简化，并且让这个网络更加容易学习收敛。所以YOLOV2采用了Faster R-CNN的方法，引入了anchor，在网络结构方面将原来网络的全连接层和最后一个pooling层去掉，使得最后的卷积层能输出更高分辨率的特征图。我们还缩减了网络，用416x416分辨率大小作为输入，而不是448x448。这样做的原因是希望得到的特征图有着奇数的宽和高，这样特征图的中心就只有一个，因为大的目标一般会占据图像的中心，所以最好在中心有一个单一的位置来预测这些目标。网络会经过32倍下采样，最后输入13x13大小的特征图使用anchor，模型的mAP值从69.5降到了69.2，下降了一丢丢，而召回率却从81%提高到了88%，模型的提升空间有了较大的提升。</p>
+<p><strong>Dimension Clusters:</strong>使用了anchor的聚类。yolo网络是去学习bounding box的改变，而anchor的初始值的好坏会导致学习的速度以及学习的最终结果。如果最开始就选用了较好的anchor则会使网络效果更好。所以yolov2使用k-means聚类算法对训练集的boxes进行聚类，寻找合适的anchor。</p>
+<p><strong>Direct location prediction</strong>：模型在基于anchor的训练的早期的大部分的不稳定性是来自于预测box的中心坐标，faster RCNN公式如下$x=(t_x<em>w_a)+x_a$ $y=(t_y</em>h_a)+y_a$ 但这个公式没有对$t_x t_y$的值有所限制，会导致一次迭代更新之后的box中心值偏离网格，到其余网格去。我们更希望每个anchor仅能预测当前对应网格的物体，所以yolov2更新了迭代预测的公式，采用相对于网格的坐标位置进行预测，公式如下：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413110720861.png" alt="image-20220413110720861"></p>
+<p>其中参数定义如下图：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/anchor.png" alt="anchor"></p>
+<p><strong>Fine-Grained Features</strong>：由于最终的feature map是13x13，其对于小物体的识别方面能力有所不够，所以需要上一层的size较大的feature map同样进行训练。所以添加了Passthrough layer，作用为将最终层前面一层26x26的feature map与最终的13x13的feature map进行连接，类似于ResNet和FPN的思想。</p>
+<p>其中Passthrough layer的具体操作方式如下所示：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413112932061.png" alt="image-20220413112932061"></p>
+<p>将一个4x4x1的特征转化为2x2x4的特征。</p>
+<p><strong>Multi-Scale Training</strong>：为了提升yolov2系统的鲁棒性，将输入图片的图像进行动态的调整，以完成图片的多尺度训练。在实际的操作过程中，每隔10次迭代便随机的选择一个新图像大小进行输入，选择的大小为32的倍数。32为输入到输出的放缩倍数，从320到608进行选择。</p>
+<p>yolov2的backbone采用了darknet-19 其在ImageNet上用224x224进行训练，在top -5 accuracy取得了91.2％的准确率，其网络结构如下：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413113649802.png" alt="image-20220413113649802"></p>
+<p>yolov2的整个模型框架如下所示：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413113811030.png" alt="image-20220413113811030"></p>
+<p>B=5 ClassNum=20 </p>
+<p>关于网络训练细节：权重衰退weight decay设置0.0005，momentum设置为0.9，学习率在前160次设置为0.001，在60次和90次的时候，学习率减为原来的十分之一，采用了Faster RCNN和SSD的数据增强策略，如随机裁剪，颜色偏移，在COCO和VOC上的训练策略相同</p>
+<h5 id="YOLO系列-YOLOv3"><a href="#YOLO系列-YOLOv3" class="headerlink" title="YOLO系列-YOLOv3"></a>YOLO系列-YOLOv3</h5><p>YOLOv3放弃了YOLOv2的Darknet-19作为backbone，而采用了Darknet-53进行图片的特征提取。</p>
+<p>Darknet-53的网络结构如下所示：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/70.png" alt="img"></p>
+<p>YOLOv3的网络结构如下所示：</p>
+<p><img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/image-20220413193915663.png" alt="image-20220413193915663"></p>
+<p>YOLOv3在三个不同的尺度下对box进行预测，每个尺度上预测3个box，而box的先验信息由k-means算法进行计算，以COCO数据集为例，其预测出的bounding box priors的值为<img src="/2022/04/19/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E7%9B%B8%E5%85%B3/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM3NTQxMDk3,size_16,color_FFFFFF,t_70.png" alt="img"></p>
+<p>predict one大小为13x13一般提取较大的物体特征，predict two大小为26x26一般提取中等的物体特征，predict three一般提取较小的物体特征。</p>
+<p>假设将一个图片分为NxN，则我们在一个scale的情况下，总共预测得到的参数为<br>$ NxNx3x(4+1+80) $，其中80是类别数，4是box偏移量，1是confidence，3是每一个scale预测3个bounding box。即在yolov3中，不是每个网格进行类别的预测，而是使用每个box进行类别的预测。</p>
+<p>yolo将最后的多分类任务转换为多个二分类的任务，并且损失函数使用二分类对应的交叉熵累计计算。</p>
+<p>YOLOv3使用上采样的方式，将图片更粗颗粒感的因素与更细颗粒感的因素相结合进行融合预测。</p>
+
+      
+    </div>
+
+    
+    
+    
+      <footer class="post-footer">
+        <div class="post-eof"></div>
+      </footer>
+  </article>
+  
+  
+  
+
+      
+  
+  
   <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
     <link itemprop="mainEntityOfPage" href="http://example.com/2022/03/28/pytorch%E7%9B%B8%E5%85%B3/">
 
@@ -600,137 +1905,10 @@ <h2 class="post-title" itemprop="name headline">
   
   
 
-      
-  
-  
-  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
-    <link itemprop="mainEntityOfPage" href="http://example.com/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/">
-
-    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
-      <meta itemprop="image" content="/images/avatar.gif">
-      <meta itemprop="name" content="凯">
-      <meta itemprop="description" content="选择大于努力">
-    </span>
-
-    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
-      <meta itemprop="name" content="凯_kaiii">
-    </span>
-      <header class="post-header">
-        <h2 class="post-title" itemprop="name headline">
-          
-            <a href="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/" class="post-title-link" itemprop="url">c++中fftw库的安装及基础使用</a>
-        </h2>
-
-        <div class="post-meta">
-            <span class="post-meta-item">
-              <span class="post-meta-item-icon">
-                <i class="far fa-calendar"></i>
-              </span>
-              <span class="post-meta-item-text">发表于</span>
-
-              <time title="创建时间：2022-03-03 10:22:35" itemprop="dateCreated datePublished" datetime="2022-03-03T10:22:35+08:00">2022-03-03</time>
-            </span>
-              <span class="post-meta-item">
-                <span class="post-meta-item-icon">
-                  <i class="far fa-calendar-check"></i>
-                </span>
-                <span class="post-meta-item-text">更新于</span>
-                <time title="修改时间：2022-08-22 21:35:17" itemprop="dateModified" datetime="2022-08-22T21:35:17+08:00">2022-08-22</time>
-              </span>
-
-          
-
-        </div>
-      </header>
-
-    
-    
-    
-    <div class="post-body" itemprop="articleBody">
-
-      
-          <h3 id="c-中使用fftw库的安装与常用使用方法"><a href="#c-中使用fftw库的安装与常用使用方法" class="headerlink" title="c++中使用fftw库的安装与常用使用方法"></a>c++中使用fftw库的安装与常用使用方法</h3><h4 id="fftw库的安装（vs2017-win10-fftw3-3-5）"><a href="#fftw库的安装（vs2017-win10-fftw3-3-5）" class="headerlink" title="fftw库的安装（vs2017+win10+fftw3.3.5）"></a>fftw库的安装（vs2017+win10+fftw3.3.5）</h4><ol>
-<li><p>下载相关文件，网址：<a target="_blank" rel="noopener" href="https://fftw.org/pub/fftw/fftw-3.3.5-dll64.zip">https://fftw.org/pub/fftw/fftw-3.3.5-dll64.zip</a></p>
-</li>
-<li><p>解压，并打开<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215246204.png" alt="image-20220301215246204">进入到解压的文件夹当中</p>
-</li>
-<li><p>输入下列代码</p>
-<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">lib /machine:i386 /def:libfftw3-<span class="number">3</span>.def</span><br><span class="line">lib /machine:i386 /def:libfftw3f-<span class="number">3</span>.def</span><br><span class="line">lib /machine:i386 /def:libfftw3l-<span class="number">3</span>.def</span><br></pre></td></tr></table></figure>
-</li>
-<li><p>此时会在文件夹中生成</p>
-<p><img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215525640.png" alt="image-20220301215525640"><img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215552702.png" alt="image-20220301215552702"></p>
-</li>
-<li><p>将其中的fftw3.h配置到vs安装地址中的include文件夹内（win10环境下可以通过全局搜索almfc文件夹找到该地址<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215818733.png" alt="image-20220301215818733"></p>
-</li>
-<li><p>将生成的.lib文件安装到lib文件夹下，即<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215910162.png" alt="image-20220301215910162"></p>
-</li>
-<li><p>将生成的.dll文件安装至system32文件夹内，即<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301220020504.png" alt></p>
-</li>
-<li><p>配置项目链接，即在项目输入的附加依赖项里面加入<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301220212706.png" alt="image-20220301220212706"></p>
-</li>
-<li><p>设置项目为64位</p>
-</li>
-</ol>
-<h4 id="测试安装代码"><a href="#测试安装代码" class="headerlink" title="测试安装代码"></a>测试安装代码</h4><pre><code>#include &quot;fftw3.h&quot;
-#include &lt;windows.h&gt;
-int main()
-&#123;
-    fftw_complex *in, *out;
-    fftw_plan p;
-    int N = 8;
-    int i;
-    int j;
-    in = (fftw_complex*)fftw_malloc(sizeof(fftw_complex) * N);
-    out = (fftw_complex*)fftw_malloc(sizeof(fftw_complex) * N);
-    for (i = 0; i &lt; N; i++)
-    &#123;
-        in[i][0] = 1.0;
-        in[i][1] = 0.0;
-        printf(&quot;%6.2f &quot;, in[i][0]);
-    &#125;
-    printf(&quot;\n&quot;);
-    p = fftw_plan_dft_1d(N, in, out, FFTW_FORWARD, FFTW_ESTIMATE);
-    fftw_execute(p); /* repeat as needed*/
-    for (j = 0; j &lt; N; j++)
-    &#123;
-        printf(&quot;%6.2f &quot;, out[j][0]);
-    &#125;
-    printf(&quot;\n&quot;);
-    fftw_destroy_plan(p);
-    fftw_free(in);
-    fftw_free(out);
-    system(&quot;pause&quot;);
-    return 0;
-&#125;
-</code></pre><h4 id="fftw库使用相关"><a href="#fftw库使用相关" class="headerlink" title="fftw库使用相关"></a>fftw库使用相关</h4><p>基本使用可见下pdf <a target="_blank" rel="noopener" href="https://github.com/XDUwsk/XDUwsk.github.io/blob/main/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/FFTW_Intro.pdf">FFTW介绍及FFTW库的使用</a> ，代码框架如下</p>
-<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">//数据初始化及定义</span></span><br><span class="line">fftw_complex *in, *out;</span><br><span class="line">fftw_plan p;</span><br><span class="line"><span class="keyword">int</span> N ;</span><br><span class="line">in = (fftw_complex*)<span class="built_in">fftw_malloc</span>(<span class="built_in"><span class="keyword">sizeof</span></span>(fftw_complex) * N);</span><br><span class="line">out = (fftw_complex*)<span class="built_in">fftw_malloc</span>(<span class="built_in"><span class="keyword">sizeof</span></span>(fftw_complex) * N);</span><br><span class="line"><span class="comment">//对输入数据赋值</span></span><br><span class="line"></span><br><span class="line"><span class="comment">//生成fftw的plan，fftw_forward为正变换，fftw_backward为逆变换</span></span><br><span class="line">p = <span class="built_in">fftw_plan_dft_1d</span>(N, in, out, FFTW_FORWARD, FFTW_ESTIMATE);</span><br><span class="line"><span class="built_in">fftw_execute</span>(p); <span class="comment">/* repeat as needed*/</span></span><br><span class="line"><span class="comment">//对输出数据进行处理</span></span><br><span class="line"></span><br><span class="line"><span class="comment">//防止内存泄漏，释放内存</span></span><br><span class="line"><span class="built_in">fftw_destroy_plan</span>(p);</span><br><span class="line"><span class="built_in">fftw_free</span>(in);</span><br><span class="line"><span class="built_in">fftw_free</span>(out);</span><br><span class="line"></span><br></pre></td></tr></table></figure>
-<p>tips：</p>
-<ol>
-<li>fftw的使用过程中，数据需要去均值。</li>
-<li>fftw的逆变换需要除以N从而完成归一化。</li>
-<li>fftw中的 fftwf_plan_dft_r2c_1d，变换之后只有单边谱，fftw_plan_dft_1d变换之后有双边谱。如果要从matlab到c++进行翻译，需要注意使用哪一个函数。</li>
-<li>fftw变换之后和matlab的fft变换之后的结果并不完全一样，有时会存在一些细小的不同，是正常的，且要小心某些极大值的出现，从而影响结果（出现的原因暂且不清楚，在link11翻译中出现了。</li>
-<li>一些有帮助的网站地址：<a target="_blank" rel="noopener" href="https://www.cnblogs.com/zzzsj/p/14977446.html">https://www.cnblogs.com/zzzsj/p/14977446.html</a>    <a target="_blank" rel="noopener" href="https://blog.csdn.net/book_bbyuan/article/details/80875953">https://blog.csdn.net/book_bbyuan/article/details/80875953</a></li>
-</ol>
-
-      
-    </div>
-
-    
-    
-    
-      <footer class="post-footer">
-        <div class="post-eof"></div>
-      </footer>
-  </article>
-  
-  
-  
-
 
   
   <nav class="pagination">
-    <a class="extend prev" rel="prev" href="/page/2/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/">1</a><a class="page-number" href="/page/2/">2</a><span class="page-number current">3</span>
+    <a class="extend prev" rel="prev" href="/page/2/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/">1</a><a class="page-number" href="/page/2/">2</a><span class="page-number current">3</span><a class="page-number" href="/page/4/">4</a><a class="extend next" rel="next" href="/page/4/"><i class="fa fa-angle-right" aria-label="下一页"></i></a>
   </nav>
 
 
@@ -796,7 +1974,7 @@ <h4 id="测试安装代码"><a href="#测试安装代码" class="headerlink" tit
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git a/page/4/index.html b/page/4/index.html
new file mode 100644
index 0000000..a11f83b
--- /dev/null
+++ b/page/4/index.html
@@ -0,0 +1,493 @@
+<!DOCTYPE html>
+<html lang="zh-CN">
+<head>
+  <meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
+<meta name="theme-color" content="#222">
+<meta name="generator" content="Hexo 5.4.0">
+  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
+  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
+  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
+  <link rel="mask-icon" href="/images/logo.svg" color="#222">
+
+<link rel="stylesheet" href="/css/main.css">
+
+
+<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">
+
+<script id="hexo-configurations">
+    var NexT = window.NexT || {};
+    var CONFIG = {"hostname":"example.com","root":"/","scheme":"Mist","version":"7.8.0","exturl":false,"sidebar":{"position":"left","display":"post","padding":18,"offset":12,"onmobile":false},"copycode":{"enable":false,"show_result":false,"style":null},"back2top":{"enable":true,"sidebar":false,"scrollpercent":false},"bookmark":{"enable":false,"color":"#222","save":"auto"},"fancybox":false,"mediumzoom":false,"lazyload":false,"pangu":false,"comments":{"style":"tabs","active":null,"storage":true,"lazyload":false,"nav":null},"algolia":{"hits":{"per_page":10},"labels":{"input_placeholder":"Search for Posts","hits_empty":"We didn't find any results for the search: ${query}","hits_stats":"${hits} results found in ${time} ms"}},"localsearch":{"enable":false,"trigger":"auto","top_n_per_article":1,"unescape":false,"preload":false},"motion":{"enable":true,"async":false,"transition":{"post_block":"fadeIn","post_header":"slideDownIn","post_body":"slideDownIn","coll_header":"slideLeftIn","sidebar":"slideUpIn"}}};
+  </script>
+
+  <meta name="description" content="选择大于努力">
+<meta property="og:type" content="website">
+<meta property="og:title" content="凯_kaiii">
+<meta property="og:url" content="http://example.com/page/4/index.html">
+<meta property="og:site_name" content="凯_kaiii">
+<meta property="og:description" content="选择大于努力">
+<meta property="og:locale" content="zh_CN">
+<meta property="article:author" content="凯">
+<meta name="twitter:card" content="summary">
+
+<link rel="canonical" href="http://example.com/page/4/">
+
+
+<script id="page-configurations">
+  // https://hexo.io/docs/variables.html
+  CONFIG.page = {
+    sidebar: "",
+    isHome : true,
+    isPost : false,
+    lang   : 'zh-CN'
+  };
+</script>
+
+  <title>凯_kaiii</title>
+  
+
+
+
+
+
+
+  <noscript>
+  <style>
+  .use-motion .brand,
+  .use-motion .menu-item,
+  .sidebar-inner,
+  .use-motion .post-block,
+  .use-motion .pagination,
+  .use-motion .comments,
+  .use-motion .post-header,
+  .use-motion .post-body,
+  .use-motion .collection-header { opacity: initial; }
+
+  .use-motion .site-title,
+  .use-motion .site-subtitle {
+    opacity: initial;
+    top: initial;
+  }
+
+  .use-motion .logo-line-before i { left: initial; }
+  .use-motion .logo-line-after i { right: initial; }
+  </style>
+</noscript>
+
+</head>
+
+<body itemscope itemtype="http://schema.org/WebPage">
+  <div class="container use-motion">
+    <div class="headband"></div>
+
+    <header class="header" itemscope itemtype="http://schema.org/WPHeader">
+      <div class="header-inner"><div class="site-brand-container">
+  <div class="site-nav-toggle">
+    <div class="toggle" aria-label="切换导航栏">
+      <span class="toggle-line toggle-line-first"></span>
+      <span class="toggle-line toggle-line-middle"></span>
+      <span class="toggle-line toggle-line-last"></span>
+    </div>
+  </div>
+
+  <div class="site-meta">
+
+    <a href="/" class="brand" rel="start">
+      <span class="logo-line-before"><i></i></span>
+      <h1 class="site-title">凯_kaiii</h1>
+      <span class="logo-line-after"><i></i></span>
+    </a>
+      <p class="site-subtitle" itemprop="description">暂无</p>
+  </div>
+
+  <div class="site-nav-right">
+    <div class="toggle popup-trigger">
+    </div>
+  </div>
+</div>
+
+
+
+
+<nav class="site-nav">
+  <ul id="menu" class="main-menu menu">
+        <li class="menu-item menu-item-home">
+
+    <a href="/" rel="section"><i class="fa fa-home fa-fw"></i>首页</a>
+
+  </li>
+        <li class="menu-item menu-item-archives">
+
+    <a href="/archives/" rel="section"><i class="fa fa-archive fa-fw"></i>归档</a>
+
+  </li>
+  </ul>
+</nav>
+
+
+
+
+</div>
+    </header>
+
+    
+  <div class="back-to-top">
+    <i class="fa fa-arrow-up"></i>
+    <span>0%</span>
+  </div>
+
+
+    <main class="main">
+      <div class="main-inner">
+        <div class="content-wrap">
+          
+
+          <div class="content index posts-expand">
+            
+      
+  
+  
+  <article itemscope itemtype="http://schema.org/Article" class="post-block" lang="zh-CN">
+    <link itemprop="mainEntityOfPage" href="http://example.com/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/">
+
+    <span hidden itemprop="author" itemscope itemtype="http://schema.org/Person">
+      <meta itemprop="image" content="/images/avatar.gif">
+      <meta itemprop="name" content="凯">
+      <meta itemprop="description" content="选择大于努力">
+    </span>
+
+    <span hidden itemprop="publisher" itemscope itemtype="http://schema.org/Organization">
+      <meta itemprop="name" content="凯_kaiii">
+    </span>
+      <header class="post-header">
+        <h2 class="post-title" itemprop="name headline">
+          
+            <a href="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/" class="post-title-link" itemprop="url">c++中fftw库的安装及基础使用</a>
+        </h2>
+
+        <div class="post-meta">
+            <span class="post-meta-item">
+              <span class="post-meta-item-icon">
+                <i class="far fa-calendar"></i>
+              </span>
+              <span class="post-meta-item-text">发表于</span>
+
+              <time title="创建时间：2022-03-03 10:22:35" itemprop="dateCreated datePublished" datetime="2022-03-03T10:22:35+08:00">2022-03-03</time>
+            </span>
+              <span class="post-meta-item">
+                <span class="post-meta-item-icon">
+                  <i class="far fa-calendar-check"></i>
+                </span>
+                <span class="post-meta-item-text">更新于</span>
+                <time title="修改时间：2022-08-22 21:35:17" itemprop="dateModified" datetime="2022-08-22T21:35:17+08:00">2022-08-22</time>
+              </span>
+
+          
+
+        </div>
+      </header>
+
+    
+    
+    
+    <div class="post-body" itemprop="articleBody">
+
+      
+          <h3 id="c-中使用fftw库的安装与常用使用方法"><a href="#c-中使用fftw库的安装与常用使用方法" class="headerlink" title="c++中使用fftw库的安装与常用使用方法"></a>c++中使用fftw库的安装与常用使用方法</h3><h4 id="fftw库的安装（vs2017-win10-fftw3-3-5）"><a href="#fftw库的安装（vs2017-win10-fftw3-3-5）" class="headerlink" title="fftw库的安装（vs2017+win10+fftw3.3.5）"></a>fftw库的安装（vs2017+win10+fftw3.3.5）</h4><ol>
+<li><p>下载相关文件，网址：<a target="_blank" rel="noopener" href="https://fftw.org/pub/fftw/fftw-3.3.5-dll64.zip">https://fftw.org/pub/fftw/fftw-3.3.5-dll64.zip</a></p>
+</li>
+<li><p>解压，并打开<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215246204.png" alt="image-20220301215246204">进入到解压的文件夹当中</p>
+</li>
+<li><p>输入下列代码</p>
+<figure class="highlight cmd"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">lib /machine:i386 /def:libfftw3-<span class="number">3</span>.def</span><br><span class="line">lib /machine:i386 /def:libfftw3f-<span class="number">3</span>.def</span><br><span class="line">lib /machine:i386 /def:libfftw3l-<span class="number">3</span>.def</span><br></pre></td></tr></table></figure>
+</li>
+<li><p>此时会在文件夹中生成</p>
+<p><img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215525640.png" alt="image-20220301215525640"><img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215552702.png" alt="image-20220301215552702"></p>
+</li>
+<li><p>将其中的fftw3.h配置到vs安装地址中的include文件夹内（win10环境下可以通过全局搜索almfc文件夹找到该地址<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215818733.png" alt="image-20220301215818733"></p>
+</li>
+<li><p>将生成的.lib文件安装到lib文件夹下，即<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301215910162.png" alt="image-20220301215910162"></p>
+</li>
+<li><p>将生成的.dll文件安装至system32文件夹内，即<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301220020504.png" alt></p>
+</li>
+<li><p>配置项目链接，即在项目输入的附加依赖项里面加入<img src="/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/image-20220301220212706.png" alt="image-20220301220212706"></p>
+</li>
+<li><p>设置项目为64位</p>
+</li>
+</ol>
+<h4 id="测试安装代码"><a href="#测试安装代码" class="headerlink" title="测试安装代码"></a>测试安装代码</h4><pre><code>#include &quot;fftw3.h&quot;
+#include &lt;windows.h&gt;
+int main()
+&#123;
+    fftw_complex *in, *out;
+    fftw_plan p;
+    int N = 8;
+    int i;
+    int j;
+    in = (fftw_complex*)fftw_malloc(sizeof(fftw_complex) * N);
+    out = (fftw_complex*)fftw_malloc(sizeof(fftw_complex) * N);
+    for (i = 0; i &lt; N; i++)
+    &#123;
+        in[i][0] = 1.0;
+        in[i][1] = 0.0;
+        printf(&quot;%6.2f &quot;, in[i][0]);
+    &#125;
+    printf(&quot;\n&quot;);
+    p = fftw_plan_dft_1d(N, in, out, FFTW_FORWARD, FFTW_ESTIMATE);
+    fftw_execute(p); /* repeat as needed*/
+    for (j = 0; j &lt; N; j++)
+    &#123;
+        printf(&quot;%6.2f &quot;, out[j][0]);
+    &#125;
+    printf(&quot;\n&quot;);
+    fftw_destroy_plan(p);
+    fftw_free(in);
+    fftw_free(out);
+    system(&quot;pause&quot;);
+    return 0;
+&#125;
+</code></pre><h4 id="fftw库使用相关"><a href="#fftw库使用相关" class="headerlink" title="fftw库使用相关"></a>fftw库使用相关</h4><p>基本使用可见下pdf <a target="_blank" rel="noopener" href="https://github.com/XDUwsk/XDUwsk.github.io/blob/main/2022/03/03/c-%E4%B8%ADfftw%E5%BA%93%E7%9A%84%E5%AE%89%E8%A3%85%E5%8F%8A%E5%9F%BA%E7%A1%80%E4%BD%BF%E7%94%A8/FFTW_Intro.pdf">FFTW介绍及FFTW库的使用</a> ，代码框架如下</p>
+<figure class="highlight c++"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">//数据初始化及定义</span></span><br><span class="line">fftw_complex *in, *out;</span><br><span class="line">fftw_plan p;</span><br><span class="line"><span class="keyword">int</span> N ;</span><br><span class="line">in = (fftw_complex*)<span class="built_in">fftw_malloc</span>(<span class="built_in"><span class="keyword">sizeof</span></span>(fftw_complex) * N);</span><br><span class="line">out = (fftw_complex*)<span class="built_in">fftw_malloc</span>(<span class="built_in"><span class="keyword">sizeof</span></span>(fftw_complex) * N);</span><br><span class="line"><span class="comment">//对输入数据赋值</span></span><br><span class="line"></span><br><span class="line"><span class="comment">//生成fftw的plan，fftw_forward为正变换，fftw_backward为逆变换</span></span><br><span class="line">p = <span class="built_in">fftw_plan_dft_1d</span>(N, in, out, FFTW_FORWARD, FFTW_ESTIMATE);</span><br><span class="line"><span class="built_in">fftw_execute</span>(p); <span class="comment">/* repeat as needed*/</span></span><br><span class="line"><span class="comment">//对输出数据进行处理</span></span><br><span class="line"></span><br><span class="line"><span class="comment">//防止内存泄漏，释放内存</span></span><br><span class="line"><span class="built_in">fftw_destroy_plan</span>(p);</span><br><span class="line"><span class="built_in">fftw_free</span>(in);</span><br><span class="line"><span class="built_in">fftw_free</span>(out);</span><br><span class="line"></span><br></pre></td></tr></table></figure>
+<p>tips：</p>
+<ol>
+<li>fftw的使用过程中，数据需要去均值。</li>
+<li>fftw的逆变换需要除以N从而完成归一化。</li>
+<li>fftw中的 fftwf_plan_dft_r2c_1d，变换之后只有单边谱，fftw_plan_dft_1d变换之后有双边谱。如果要从matlab到c++进行翻译，需要注意使用哪一个函数。</li>
+<li>fftw变换之后和matlab的fft变换之后的结果并不完全一样，有时会存在一些细小的不同，是正常的，且要小心某些极大值的出现，从而影响结果（出现的原因暂且不清楚，在link11翻译中出现了。</li>
+<li>一些有帮助的网站地址：<a target="_blank" rel="noopener" href="https://www.cnblogs.com/zzzsj/p/14977446.html">https://www.cnblogs.com/zzzsj/p/14977446.html</a>    <a target="_blank" rel="noopener" href="https://blog.csdn.net/book_bbyuan/article/details/80875953">https://blog.csdn.net/book_bbyuan/article/details/80875953</a></li>
+</ol>
+
+      
+    </div>
+
+    
+    
+    
+      <footer class="post-footer">
+        <div class="post-eof"></div>
+      </footer>
+  </article>
+  
+  
+  
+
+
+  
+  <nav class="pagination">
+    <a class="extend prev" rel="prev" href="/page/3/"><i class="fa fa-angle-left" aria-label="上一页"></i></a><a class="page-number" href="/">1</a><span class="space">&hellip;</span><a class="page-number" href="/page/3/">3</a><span class="page-number current">4</span>
+  </nav>
+
+
+
+          </div>
+          
+
+<script>
+  window.addEventListener('tabs:register', () => {
+    let { activeClass } = CONFIG.comments;
+    if (CONFIG.comments.storage) {
+      activeClass = localStorage.getItem('comments_active') || activeClass;
+    }
+    if (activeClass) {
+      let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`);
+      if (activeTab) {
+        activeTab.click();
+      }
+    }
+  });
+  if (CONFIG.comments.storage) {
+    window.addEventListener('tabs:click', event => {
+      if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return;
+      let commentClass = event.target.classList[1];
+      localStorage.setItem('comments_active', commentClass);
+    });
+  }
+</script>
+
+        </div>
+          
+  
+  <div class="toggle sidebar-toggle">
+    <span class="toggle-line toggle-line-first"></span>
+    <span class="toggle-line toggle-line-middle"></span>
+    <span class="toggle-line toggle-line-last"></span>
+  </div>
+
+  <aside class="sidebar">
+    <div class="sidebar-inner">
+
+      <ul class="sidebar-nav motion-element">
+        <li class="sidebar-nav-toc">
+          文章目录
+        </li>
+        <li class="sidebar-nav-overview">
+          站点概览
+        </li>
+      </ul>
+
+      <!--noindex-->
+      <div class="post-toc-wrap sidebar-panel">
+      </div>
+      <!--/noindex-->
+
+      <div class="site-overview-wrap sidebar-panel">
+        <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person">
+  <p class="site-author-name" itemprop="name">凯</p>
+  <div class="site-description" itemprop="description">选择大于努力</div>
+</div>
+<div class="site-state-wrap motion-element">
+  <nav class="site-state">
+      <div class="site-state-item site-state-posts">
+          <a href="/archives/">
+        
+          <span class="site-state-item-count">31</span>
+          <span class="site-state-item-name">日志</span>
+        </a>
+      </div>
+      <div class="site-state-item site-state-tags">
+        <span class="site-state-item-count">2</span>
+        <span class="site-state-item-name">标签</span>
+      </div>
+  </nav>
+</div>
+
+
+
+      </div>
+
+    </div>
+  </aside>
+  <div id="sidebar-dimmer"></div>
+
+
+      </div>
+    </main>
+
+    <footer class="footer">
+      <div class="footer-inner">
+        
+
+        
+
+<div class="copyright">
+  
+  &copy; 
+  <span itemprop="copyrightYear">2023</span>
+  <span class="with-love">
+    <i class="fa fa-heart"></i>
+  </span>
+  <span class="author" itemprop="copyrightHolder">凯</span>
+</div>
+  <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://mist.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Mist</a> 强力驱动
+  </div>
+
+        
+
+
+
+
+
+
+
+
+      </div>
+    </footer>
+  </div>
+
+  
+  <script src="/lib/anime.min.js"></script>
+  <script src="/lib/velocity/velocity.min.js"></script>
+  <script src="/lib/velocity/velocity.ui.min.js"></script>
+
+<script src="/js/utils.js"></script>
+
+<script src="/js/motion.js"></script>
+
+
+<script src="/js/schemes/muse.js"></script>
+
+
+<script src="/js/next-boot.js"></script>
+
+
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+      
+
+<script>
+  if (typeof MathJax === 'undefined') {
+    window.MathJax = {
+      loader: {
+          load: ['[tex]/mhchem'],
+        source: {
+          '[tex]/amsCd': '[tex]/amscd',
+          '[tex]/AMScd': '[tex]/amscd'
+        }
+      },
+      tex: {
+        inlineMath: {'[+]': [['$', '$']]},
+          packages: {'[+]': ['mhchem']},
+        tags: 'ams'
+      },
+      options: {
+        renderActions: {
+          findScript: [10, doc => {
+            document.querySelectorAll('script[type^="math/tex"]').forEach(node => {
+              const display = !!node.type.match(/; *mode=display/);
+              const math = new doc.options.MathItem(node.textContent, doc.inputJax[0], display);
+              const text = document.createTextNode('');
+              node.parentNode.replaceChild(text, node);
+              math.start = {node: text, delim: '', n: 0};
+              math.end = {node: text, delim: '', n: 0};
+              doc.math.push(math);
+            });
+          }, '', false],
+          insertedScript: [200, () => {
+            document.querySelectorAll('mjx-container').forEach(node => {
+              let target = node.parentNode;
+              if (target.nodeName.toLowerCase() === 'li') {
+                target.parentNode.classList.add('has-jax');
+              }
+            });
+          }, '', false]
+        }
+      }
+    };
+    (function () {
+      var script = document.createElement('script');
+      script.src = '//cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js';
+      script.defer = true;
+      document.head.appendChild(script);
+    })();
+  } else {
+    MathJax.startup.document.state(0);
+    MathJax.texReset();
+    MathJax.typeset();
+  }
+</script>
+
+    
+
+  
+
+</body>
+</html>
diff --git a/tags/Transformer/index.html b/tags/Transformer/index.html
index ede4857..1b70355 100644
--- a/tags/Transformer/index.html
+++ b/tags/Transformer/index.html
@@ -332,7 +332,7 @@ <h2 class="collection-header">Transformer
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>
diff --git "a/tags/\345\237\272\347\241\200/index.html" "b/tags/\345\237\272\347\241\200/index.html"
index b5e1f2e..abd5214 100644
--- "a/tags/\345\237\272\347\241\200/index.html"
+++ "b/tags/\345\237\272\347\241\200/index.html"
@@ -272,7 +272,7 @@ <h2 class="collection-header">基础
       <div class="site-state-item site-state-posts">
           <a href="/archives/">
         
-          <span class="site-state-item-count">25</span>
+          <span class="site-state-item-count">31</span>
           <span class="site-state-item-name">日志</span>
         </a>
       </div>