物體識別

物體識別（Object detection、又譯做「物體檢測」、「目標檢測」）是計算機視覺及影像處理中的術語，指的是讓計算機去分析一張圖片或者一段影片中的物體，並標記出來，這需要給神經網絡大量的物體數據去訓練它，這樣才能進行識別。目前人臉檢測是物體識別領域中被廣泛研究的題目之一。

應用

物體識別在計算機視覺任務中被廣泛應用，有許多基於物體識別之下游任務，如圖像自動標註、物體計數（頁面存檔備份，存於互聯網檔案館）、人臉識別。物體識別亦可應用於物件追蹤，例如：追蹤球類比賽中的球與追蹤影片中的人物。

球類追蹤

由於羽球或網球體積小且瞬間移動速度快，因此是球類追蹤中較難精確實現的任務之。

TrackNet^[1] ^[2]

為了解決上述問題，TrackNet利用深度神經網絡追蹤球體在影像中的軌跡，並且可以克服球體影響模糊、面積小、且在部分影片幀中消失之問題。TrackNet使用了基於熱點圖的卷積神經網絡^[3]^[4]，並利用產生的熱點圖來表示球體所在位置的概率分佈。由於TrackNet試圖克服上述「部分影片幀中消失」的問題，模型的輸入為相鄰的三個幀，輸出則為中間幀的結果。其輸出可以表示為 $P(i,j,k)$ ，代表在座標 $(i,j)$ 與深度 $k$ 的位置上的概率，最終輸出為 $h(i,j)=argmax_{k}P(i,j,k)$ ，即是使用各座標上概率最高的深度作為輸出。

在訓練神經網絡方面，為了學習球體位置的概率分佈，TrackNet使用高斯分佈來建模球體在真實位置 $(x_{0},y_{0})$ 的熱點圖，表示如下：

$G(x,y)=\lfloor ({\frac {1}{2\pi \sigma ^{2}}}e^{-{\frac {(x-x_{0})^{2}+(y-y_{0})^{2}}{2\sigma ^{2}}}})(2\pi \sigma ^{2}\centerdot 255)\rfloor$

損失函數則是使用交叉熵，定義為：

$H_{Q}(P)=-\sum _{i,j,k}Q(i,j,k)logP(i,j,k)$ ，其中 $Q(i,j,k)={\begin{cases}1,&{\text{if }}G(i,j)=k\\0,&{\text{otherwise.}}\end{cases}}$

方法

近代常見的物體識別方法多為基於深度神經網絡模型之方法，核心概念為利用神經網絡模型抽取影像之特徵圖，並以此識別出物體類別與位置。

End-to-End Object Detection with Transformers^[5]

在這個方法中，作者提出一個神經網絡模型DETR，旨在將物件偵測任務視為一個集合預測任務，並在訓練時將神經網絡模型預測的集合與正確結果集合間進行二分圖匹配。

為了能夠產生出一個集合，DETR，借鑒了自然語言處理領域的Seq2Seq概念，並首次在物件偵測領域引入了Transformer模型，在此方法中同時使用到Transformer編碼器與解碼器，其中在解碼器部分，DETR進行了修改，提出了對象查詢(object queries)的概念，使得模型可以自己學習需要偵測的對象的特徵。

由於這是物件偵測領域首次使用了這種簡化的集合預測方法，因此具有其重要性，並引領後續集合預測方法的蓬勃發展。

參考資料

這是一篇電腦科學小作品。您可以透過編輯或修訂擴充其內容。

^ Huang, Yu-Chuan; Liao, I-No; Chen, Ching-Hsuan; Ik, Tsi-Ui; Peng, Wen-Chih. TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications. 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) (IEEE). 2019-09. doi:10.1109/avss.2019.8909871.
^ TrackNet. nol.cs.nctu.edu.tw. [2023-06-20]. （原始內容存檔於2023-01-13）.
^ Belagiannis, Vasileios; Zisserman, Andrew. Recurrent Human Pose Estimation. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017) (IEEE). 2017-05. doi:10.1109/fg.2017.64.
^ Pfister, Tomas; Charles, James; Zisserman, Andrew. Flowing ConvNets for Human Pose Estimation in Videos. 2015 IEEE International Conference on Computer Vision (ICCV) (IEEE). 2015-12. doi:10.1109/iccv.2015.222.
^ Carion, Nicolas; Massa, Francisco; Synnaeve, Gabriel; Usunier, Nicolas; Kirillov, Alexander; Zagoruyko, Sergey. End-to-End Object Detection with Transformers. Computer Vision – ECCV 2020. Cham: Springer International Publishing. 2020: 213–229. ISBN 978-3-030-58451-1.

[1] Huang, Yu-Chuan; Liao, I-No; Chen, Ching-Hsuan; Ik, Tsi-Ui; Peng, Wen-Chih. TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications. 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) (IEEE). 2019-09. doi:10.1109/avss.2019.8909871.

[2] TrackNet. nol.cs.nctu.edu.tw. [2023-06-20]. （原始內容存檔於2023-01-13）.

[3] Belagiannis, Vasileios; Zisserman, Andrew. Recurrent Human Pose Estimation. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017) (IEEE). 2017-05. doi:10.1109/fg.2017.64.

[4] Pfister, Tomas; Charles, James; Zisserman, Andrew. Flowing ConvNets for Human Pose Estimation in Videos. 2015 IEEE International Conference on Computer Vision (ICCV) (IEEE). 2015-12. doi:10.1109/iccv.2015.222.

[5] Carion, Nicolas; Massa, Francisco; Synnaeve, Gabriel; Usunier, Nicolas; Kirillov, Alexander; Zagoruyko, Sergey. End-to-End Object Detection with Transformers. Computer Vision – ECCV 2020. Cham: Springer International Publishing. 2020: 213–229. ISBN 978-3-030-58451-1.

[1]

[2]

[3]

[4]

[5]

應用

球類追蹤

TrackNet[1] [2]

方法

End-to-End Object Detection with Transformers[5]

參考資料

TrackNet^[1] ^[2]

End-to-End Object Detection with Transformers^[5]