基于神經網絡的古錢幣圖像檢索研究
「古錢幣是我國重要的文化遺產,具有較高的文化和藝術價值,為了加強對古錢幣的保護,需要對其進行識別和檢索。針對古錢幣圖像的檢索問題,該文提出了一種基于卷積神經網絡和二進制編碼的方法,該方法的基本思想是在卷積神經網絡架構中增加編碼層,同時學習古錢幣圖像的特征表示和編碼。使用卷積神經網絡提取古錢幣圖像的特征,隨后對提取的特征進行激活和閾值化處理,離散化為二進制編碼,隨后待檢索的古錢幣圖像輸入該框架得到二進制編碼,從而可以在海明空間中完成古錢幣圖像的有效檢索。在數據集上的實驗結果表明,利用該文方法的檢索性能優于傳統檢索方法。(2023-2-25)」
關鍵詞:圖像檢索 卷積神經網絡 特征表示 二進制編碼
中國是世界上最早使用貨幣的國家之一,從秦代方孔圓錢,到清末機制幣,數以萬種千姿百態的錢幣構成了當今錢幣收藏領域中最為龐大的收藏門類[1]。經過五千年的發展,我國形成了獨特且璀璨的錢幣文化,古錢幣作為中國歷史文化的載體,具有較高文化價值和藝術價值。雖然古錢幣數量和種類較多,但是近些年由于網絡的發展,借助網絡渠道進行非法交易和偷盜的非法行為正在逐漸加速文物的流失。因此,出于對文物的保護,需要對文物進行識別、追蹤和檢索;另一方面,為了滿足廣大收藏愛好者對收藏文物的需要,對于古錢幣的識別和檢索的需求十分迫切。
圖像檢索技術早期是基于文本的圖像檢索(Text-Based Image Retrieval, TBIR),現已逐步發展為基于內容的圖像檢索(Content-Based Image Retrieval, CBIR)。CBIR技術以圖像視覺特征或與圖像相似的草圖作為用戶查詢和系統檢索的依據[2]。圖像的視覺特征包括SIFT[3] (Scale-Invariant Feature Transform)、HOG[4](Histogram of Orientated Gradients)等。與傳統的手動提取特征的方法相比,深度卷積神經網絡(Convolutional Neural Networks, CNNs)能更好地提取圖像的內在特征,并且在歷屆ILSVRC的目標檢測、圖像分類、圖像分割各個比賽中都取得不錯的效果。
卷積神經網絡是深度學習研究領域的一種架構,1990年,LeCun等提出了現代卷積神經網絡的原始版本LeNet,隨后于1998年提出基于梯度學習的LeNet-5模型[5]。因受限于數據量大小和計算速度的不足,當時的網絡在分類任務中的表現不佳。2012年,Krizhevsky等餓[6]提出AlexNet架構,奪得ILSVRC2012的圖像分類任務的冠軍,對比傳統機器學習方法,其表現已相當出色。該文將采用卷積神經網絡對古錢幣數據集的圖片進行二進制編碼,得到每張古錢幣圖像的二進制編碼,可用該二進制編碼用于圖像檢索。
1 該文方法
模型的輸入為古錢幣圖像及其類別標簽信息,主要包括3個部分:(1)卷積子網絡,用來學習表示古錢幣圖像的特征;(2)編碼層,將第二個全連接層輸出的特征向量激活、閾值化處理并生成二進制編碼;(3)損失層,采用Softmax損失函數。首先輸入古錢幣圖像,進入卷積子網絡得到圖像的特征向量;其次進入編碼層,將特征向量轉換為二進制編碼;最后進入損失層計算損失函數,優化損失函數得到模型的參數。
1.1 卷積子網絡
卷積子網絡用于學習圖像的特征表示,輸入圖像經過一系列卷積、池化等操作后們可以得到圖像的特征向量。該文采用AlexNet[6]模型作為基本架構,其中包括5個卷積層、3個最大池化層和2個全連接層。輸入圖片大小為224×224,經過核大小為11×11、步長為4的卷積層處理后輸出55×55×96的向量,隨后進行LRN(Local Response Normalization,局部響應歸一化)處理,接著經過3×3、步長為2的最大池化操作,輸出27×27×96的向量。與此類似,經過一系列卷積、池化操作后,進入全連接層6和全連接層7,最終輸出4096×1用來表示圖像特征的特征向量。
1.2 編碼層和損失層
圖像經過全連接層7后產生特征向量x之后,將進入編碼層。首先對x進行sigmoid函數處理,將一維向x量映射為[0,1]之間的數值,得到激活層輸出向量s。假設特征向量x的維數為n,則輸出向量s維數也為n,該過程表示為:
經過激活層得到的向量s隨即進入閾值化層,閾值化層主要將激活層映射到[0,1]之間的連續值離散化為0和1,將大于閾值的值處理為1,小于閾值的值處理為0,這里選取閾值為0.5,該過程表示為:
經過閾值化層處理后,得到圖像對應的二進制編碼。損失層函數采用Softmax損失函數,閾值化層得到的編碼進入Softmax分類器進行分類,通過優化Softmax損失函數來獲得模型的參數。
2 實驗結果分析
2.1 實驗設置
為了驗證該文方法的有效性,在手動采集的古錢幣數據集上進行模型實驗。該數據集包含10000張大小為224×224的古錢幣彩色圖片,包含康熙年間的10類錢幣樣式,現從每個類別中隨機選取9000張圖像作為訓練集和1000張圖像作為測試集。
該文采用MAP、海明距離2以內的準確率曲線以及top-k準確率曲線這3個參數進行評估。其中,MAP即圖像平均檢索精度(mean average precision, MAP),MAP即為幾次檢索結果AP的平均值,AP為不同召回率上的正確率的平均值。海明距離2以內的準確率曲線是與檢索圖像漢明距離小于2的圖像中與檢索圖像類別一致的結果所占比例。top-k準確率是與檢索圖像距離最小的k張圖像中與檢索圖像類別一致的結果所占比例。
2.2 實驗結果分析 將該文采用的方法記為CNNC,表1給出在數據集上該文算法與其他算法MAP值的比較結果。從表1中可以看出,該文算法的MAP值遠遠高于手工提取的特征與哈希方法結合的算法KSH和ITQ,因為該文采用的深度卷積神經網絡可以能有效地表示圖像的特征。
3 結語
該文提出了一種卷積神經網絡模型,可以有效地對古錢幣圖像進行特征的表示并且生成二進制編碼。模型生成的二進制編碼能夠在有效表示圖像的同時保證圖像檢索的精度,并且實驗結果表明:該文采用的方法與其他結合手工提取特征和哈希的方法相比有更好的檢索精度。
參考文獻
[1] 古錢幣在古玩界成為新寵[J].文物鑒定與鑒賞,2019(5):164-165.
[2] 杭燕,楊育彬,陳兆乾.基于內容的圖像檢索綜述[J].計算機應用研究,2002(9):9-13,29.
[3] LOWE DG. Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[4] Dalal N,Triggs B.Histograms of oriented gradients for human detection[A].2005 IEEE Computer Society Conference Computer Vision and Pattern Recognition[C].2005:886-893.
[5] Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[6] Krizhevsky A,Sutskever I,Hinton G.ImageNet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM,2017,60(6):84-90.
[7] Yunchao Gong,Lazebnik S.Iterative quantization:A procrustean approach to learning binary codes[A].2011 IEEE Conference on Computer Vision and Pattern Recongnition[C].2011:817-824.
(M2詳)
中國是世界上最早使用貨幣的國家之一,從秦代方孔圓錢,到清末機制幣,數以萬種千姿百態的錢幣構成了當今錢幣收藏領域中最為龐大的收藏門類[1]。經過五千年的發展,我國形成了獨特且璀璨的錢幣文化,古錢幣作為中國歷史文化的載體,具有較高文化價值和藝術價值。雖然古錢幣數量和種類較多,但是近些年由于網絡的發展,借助網絡渠道進行非法交易和偷盜的非法行為正在逐漸加速文物的流失。因此,出于對文物的保護,需要對文物進行識別、追蹤和檢索;另一方面,為了滿足廣大收藏愛好者對收藏文物的需要,對于古錢幣的識別和檢索的需求十分迫切。
圖像檢索技術早期是基于文本的圖像檢索(Text-Based Image Retrieval, TBIR),現已逐步發展為基于內容的圖像檢索(Content-Based Image Retrieval, CBIR)。CBIR技術以圖像視覺特征或與圖像相似的草圖作為用戶查詢和系統檢索的依據[2]。圖像的視覺特征包括SIFT[3] (Scale-Invariant Feature Transform)、HOG[4](Histogram of Orientated Gradients)等。與傳統的手動提取特征的方法相比,深度卷積神經網絡(Convolutional Neural Networks, CNNs)能更好地提取圖像的內在特征,并且在歷屆ILSVRC的目標檢測、圖像分類、圖像分割各個比賽中都取得不錯的效果。
卷積神經網絡是深度學習研究領域的一種架構,1990年,LeCun等提出了現代卷積神經網絡的原始版本LeNet,隨后于1998年提出基于梯度學習的LeNet-5模型[5]。因受限于數據量大小和計算速度的不足,當時的網絡在分類任務中的表現不佳。2012年,Krizhevsky等餓[6]提出AlexNet架構,奪得ILSVRC2012的圖像分類任務的冠軍,對比傳統機器學習方法,其表現已相當出色。該文將采用卷積神經網絡對古錢幣數據集的圖片進行二進制編碼,得到每張古錢幣圖像的二進制編碼,可用該二進制編碼用于圖像檢索。
1 該文方法
模型的輸入為古錢幣圖像及其類別標簽信息,主要包括3個部分:(1)卷積子網絡,用來學習表示古錢幣圖像的特征;(2)編碼層,將第二個全連接層輸出的特征向量激活、閾值化處理并生成二進制編碼;(3)損失層,采用Softmax損失函數。首先輸入古錢幣圖像,進入卷積子網絡得到圖像的特征向量;其次進入編碼層,將特征向量轉換為二進制編碼;最后進入損失層計算損失函數,優化損失函數得到模型的參數。
1.1 卷積子網絡
卷積子網絡用于學習圖像的特征表示,輸入圖像經過一系列卷積、池化等操作后們可以得到圖像的特征向量。該文采用AlexNet[6]模型作為基本架構,其中包括5個卷積層、3個最大池化層和2個全連接層。輸入圖片大小為224×224,經過核大小為11×11、步長為4的卷積層處理后輸出55×55×96的向量,隨后進行LRN(Local Response Normalization,局部響應歸一化)處理,接著經過3×3、步長為2的最大池化操作,輸出27×27×96的向量。與此類似,經過一系列卷積、池化操作后,進入全連接層6和全連接層7,最終輸出4096×1用來表示圖像特征的特征向量。
1.2 編碼層和損失層
圖像經過全連接層7后產生特征向量x之后,將進入編碼層。首先對x進行sigmoid函數處理,將一維向x量映射為[0,1]之間的數值,得到激活層輸出向量s。假設特征向量x的維數為n,則輸出向量s維數也為n,該過程表示為:
經過激活層得到的向量s隨即進入閾值化層,閾值化層主要將激活層映射到[0,1]之間的連續值離散化為0和1,將大于閾值的值處理為1,小于閾值的值處理為0,這里選取閾值為0.5,該過程表示為:
經過閾值化層處理后,得到圖像對應的二進制編碼。損失層函數采用Softmax損失函數,閾值化層得到的編碼進入Softmax分類器進行分類,通過優化Softmax損失函數來獲得模型的參數。
2 實驗結果分析
2.1 實驗設置
為了驗證該文方法的有效性,在手動采集的古錢幣數據集上進行模型實驗。該數據集包含10000張大小為224×224的古錢幣彩色圖片,包含康熙年間的10類錢幣樣式,現從每個類別中隨機選取9000張圖像作為訓練集和1000張圖像作為測試集。
該文采用MAP、海明距離2以內的準確率曲線以及top-k準確率曲線這3個參數進行評估。其中,MAP即圖像平均檢索精度(mean average precision, MAP),MAP即為幾次檢索結果AP的平均值,AP為不同召回率上的正確率的平均值。海明距離2以內的準確率曲線是與檢索圖像漢明距離小于2的圖像中與檢索圖像類別一致的結果所占比例。top-k準確率是與檢索圖像距離最小的k張圖像中與檢索圖像類別一致的結果所占比例。
2.2 實驗結果分析 將該文采用的方法記為CNNC,表1給出在數據集上該文算法與其他算法MAP值的比較結果。從表1中可以看出,該文算法的MAP值遠遠高于手工提取的特征與哈希方法結合的算法KSH和ITQ,因為該文采用的深度卷積神經網絡可以能有效地表示圖像的特征。
3 結語
該文提出了一種卷積神經網絡模型,可以有效地對古錢幣圖像進行特征的表示并且生成二進制編碼。模型生成的二進制編碼能夠在有效表示圖像的同時保證圖像檢索的精度,并且實驗結果表明:該文采用的方法與其他結合手工提取特征和哈希的方法相比有更好的檢索精度。
參考文獻
[1] 古錢幣在古玩界成為新寵[J].文物鑒定與鑒賞,2019(5):164-165.
[2] 杭燕,楊育彬,陳兆乾.基于內容的圖像檢索綜述[J].計算機應用研究,2002(9):9-13,29.
[3] LOWE DG. Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[4] Dalal N,Triggs B.Histograms of oriented gradients for human detection[A].2005 IEEE Computer Society Conference Computer Vision and Pattern Recognition[C].2005:886-893.
[5] Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[6] Krizhevsky A,Sutskever I,Hinton G.ImageNet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM,2017,60(6):84-90.
[7] Yunchao Gong,Lazebnik S.Iterative quantization:A procrustean approach to learning binary codes[A].2011 IEEE Conference on Computer Vision and Pattern Recongnition[C].2011:817-824.
(M2詳)