Learning DALTS for cross‐modal retrieval

doi:10.60692/n979b-zqe86

Published February 18, 2019 | Version v1

Publication Metadata-only

Learning DALTS for cross‐modal retrieval

1. Peking University

CAAI Transactions on Intelligence TechnologyVolume 4, Issue 1 p. 9-16 Research ArticleOpen Access Learning DALTS for cross-modal retrieval Zheng Yu, Zheng Yu School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, People's Republic of ChinaSearch for more papers by this authorWenmin Wang, Corresponding Author Wenmin Wang wangwm@ece.pku.edu.cn School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, People's Republic of ChinaSearch for more papers by this author Zheng Yu, Zheng Yu School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, People's Republic of ChinaSearch for more papers by this authorWenmin Wang, Corresponding Author Wenmin Wang wangwm@ece.pku.edu.cn School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, People's Republic of ChinaSearch for more papers by this author First published: 18 February 2019 https://doi.org/10.1049/trit.2018.1051Citations: 14AboutSectionsPDF ToolsRequest permissionExport citationAdd to favoritesTrack citation ShareShare Give accessShare full text accessShare full-text accessPlease review our Terms and Conditions of Use and check box below to share full-text version of article.I have read and accept the Wiley Online Library Terms and Conditions of UseShareable LinkUse the link below to share a full-text version of this article with your friends and colleagues. Learn more.Copy URL Share a linkShare onFacebookTwitterLinkedInRedditWechat Abstract Cross-modal retrieval has been recently proposed to find an appropriate subspace, where the similarity across different modalities such as image and text can be directly measured. In this study, different from most existing works, the authors propose a novel model for cross-modal retrieval based on a domain-adaptive limited text space (DALTS) rather than a common space or an image space. Experimental results on three widely used datasets, Flickr8K, Flickr30K and Microsoft Common Objects in Context (MSCOCO), show that the proposed method, dubbed DALTS, is able to learn superior text space features which can effectively capture the necessary information for cross-modal retrieval. Meanwhile, DALTS achieves promising improvements in accuracy for cross-modal retrieval compared with the current state-of-the-art methods. 1 Introduction The task of cross-modal retrieval is beginning to attract more and more attention recently. That is, given an image (text) query, we aim to search for the most relevant text (image). However, multimedia data is heterogeneous intrinsically and thus hard for us to measure the similarity directly. So the main challenge remaining in cross-modal retrieval is how to embed heterogeneous multimedia data into a homogeneous space, so that their similarity can be measured directly. More specifically, the main challenge consists of the following two sub-problems. The first problem is how to learn efficient features for multimedia data, which evolves from hand-crafted features to deep features gradually. As for image, with the great success achieved by convolutional neural networks (CNNs), Sharif Razavian et al. [[1]] argue that a pre-trained deep CNN is an effective image feature extractor for many computer vision tasks including cross-modal retrieval. However, do off-the-shelf CNNs provide sufficient information for cross-modal retrieval? Most existing works employ off-the-shelf CNNs such as VGGNet [[2]] and ResNet [[3]] to extract image features. However, these models are usually pre-trained for classification and thus only need to consider the category information contained in an image. Therefore, they are inevitable to miss detailed cues such as how the objects relate to each other as well as their attributes and the activities they are involved in, which may play an indispensable role in cross-modal retrieval. As shown in Fig. 1, given two different input images, a pre-trained CNN can only recognise the objects contained in each image which are similar to each other such as 'man', 'surfboard' and 'wave'. However, it tends to miss some crucial cues which are totally dissimilar for each other such as how do the man surf the wave. With the great progress achieved in image captioning task recently, we can get sensible descriptive sentences corresponding to an input image, which contain nouns and verbs. That is, image captioning models are able to not only recognise the objects in the image (nouns) but also preserve rich relation information among different objects (verbs). Therefore, we adopt image captioning models to make up for the shortcomings of the traditional CNN features. Fig. 1Open in figure viewerPowerPoint Illustration of the problem of using pre-trained CNNs to extract image features. Such classification models extract similar features for two images with different interactions among objects ('jumping off' versus 'surfing, paddling toward') As for text, Word2Vec [[4]], Latent Dirichlet allocation (LDA) [[5]] and FV [[6]] are all popular choices for text representation. However, they are all pre-trained on some specified corpora which are totally different from the datasets adopted in cross-modal retrieval. As such, instead of using off-the-shelf models, we employ recurrent neural network (RNN) to learn text features from scratch. Given efficient features for image and text, the second problem is how to find a homogeneous space. Since in this paper we only focus on the retrieval between image and text, cross-modal retrieval can be achieved by a common space [[7]–[18]], a text space [[19]–[21]] or an image space [[22]]. Considering the way people perform cross-modal retrieval, different modalities are processed asymmetrically in the brain. It refers to the well-known semantic gap [[23]] reflecting the fact that textual features are closer to human understanding (and language) than the pixel-based features [[19]]. Therefore, the textual features provide more accurate information than the pixel-based features during retrieval. Moreover, it is more straightforward for brains to understand the text than the image because nature language is the result of high-level abstraction of image content. Accordingly, we propose a feature embedding network to explore the possibility of performing cross-modal retrieval in a text space. The text space is highly discriminative. If a linear classifier is trained after the text space to predict whether a vector comes from an image or a sentence, we can achieve near 100% accuracy. That is, we can fit a hyperplane in the text space to near perfectly separate out images and sentences. This property violates the original goal to find a homogeneous space. Thus, since the source image space and the target text space can be regarded as two different domains, we propose a domain classifier to further minimise the diversity among the features from different modalities, similar to the idea of domain adaptation in [[24]]. That is, the domain classifier tries to discriminate the difference between the source domain (the original image space) and the target domain (the text space) during training, while the feature embedding network tries to learn domain-invariant features and confuse the domain classifier. Therefore, an additional adversarial loss will be back-propagated to the feature embedding network in order to guide the network to learn domain-invariant text space features for image and text. The text space is essentially a vector space spanning by a set of base vectors which are also known as different Chinese characters or English words. For Chinese, there are no exact numbers for Chinese characters, which is close to 100,000. Meanwhile, the emergence of enormous new words every year makes the size of the text space continue to grow. In addition to Chinese, similar phenomenon has appeared in other languages such as English. According to incomplete statistics, the number of English words has exceeded 1,000,000, and it is still growing by thousands every year. Therefore, natural language is inherently divergent. It is almost impossible to learn a complete and unlimited text space. However, in most cases, people only need to remember some of the commonly used Chinese characters and English words to meet their daily needs. For example, many English linguists argue that about 3650 commonly used English words can accomplish more than 95% of the tasks of expressing ideas and communication. The 'National Dictionary of Modern Chinese' published by the National Board of Education in November 1987 proposes that the number of commonly used words in modern Chinese is 2500, accounting for more than 99% of the daily use of Chinese. Therefore, this paper ensures the convergence of the proposed algorithm by learning a limited text space (LTS) with a fixed vocabulary. The ability for the LTS to understand is affected by the size of the vocabulary. The bigger the vocabulary, the stronger the understanding ability. Increasing the number of words blindly will not improve the retrieval performance but increase the complexity of the algorithm in time and space. Our core contributions are summarised as follows: We propose a novel model domain-adaptive LTS (DALTS) to perform cross-modal retrieval humanly in a DALTS, which can better imitate the human behaviour. Moreover, we give a brief explanation on the LTS. In contrast to the commonly used pre-trained features for both image and text, DALTS is able to learn task-specific features. To further minimise the diversity between the source domain (the original image space) and the target domain (the LTS), the idea of domain adaptation is applied to the model to learn a DALTS. The rest of this paper is organised as follows. We review the related work for cross-modal retrieval in Section 2. Then in Section 3, we propose our own model and describe it in detail. To emphasise the effectiveness of DALTS, Section 4 and 5 show extensive experiments on three benchmark datasets. Finally, we make a summary of this paper in Section 6. 2 Related work 2.1 Multi-modal feature learning For cross-modal retrieval, most existing works directly use off-the-shelf features to represent images [[8], [11], [14]–[17]]. However, the pre-trained features are likely to leave out some crucial information which may be the key to cross-modal retrieval. Recently, image captioning models [[25]–[28]] can be used to learn task-specific features to provide more information that is useful to cross-modal retrieval. Given an input image, before decoding it to a descriptive sentence, image captioning models first try to map the image into a text space. Thus, the text space feature for an image contains not only category information but also rich relation information among different objects. Typically, multi-modal RNN (m-RNN) [[25]], neural image caption (NIC) [[26]], deep visual-semantic alignments [[27]] and unifying visual-semantic embeddings (VSEs) [[28]] are all representative methods for image captioning. As for text, similarly, typical methods such as Word2Vec [[4]], LDA [[5]] and FV [[6]] are all pre-trained on some specified corpora which are totally different from the benchmark datasets in cross-modal retrieval. Recently, with the great progress on machine translation [[29]], RNN is found to be a more powerful tool for language modelling which can be trained from scratch and thus more suitable for cross-modal retrieval. 2.2 Homogeneous space learning The mainstream approach tries to learn a common space by affine transformations on both image and text sides. Typically, canonical correlation analysis [[15]] tries to learn a common space by maximising the correlations between relevant image and text features. Karpathy et al. [[10]] break down both image and text into fragments and embeds them into a common multi-modal space which utilises fine-grained alignments between image and text. Niu et al. [[13]] address the problem of dense VSE that maps not only full sentences and whole images but also phrases within sentences and salient regions within images into a multi-modal embedding space. Wang et al. [[16]] propose deep structure-preserving embeddings (DSPEs) for image and text which extends pairwise ranking loss to model the intra-modal relationship and adopts a complicated data sample scheme. Nam et al. [[12]] propose dual attention networks (DANs) which jointly leverage visual and textual attention mechanisms to capture fine-grained interplay between image and text. In addition to a common space, in the DeViSE model developed by Frome et al. [[20]], a text space is formed by a pre-trained Word2Vec model. The text space vector of an image is obtained by a convex combination of the word embedding vectors of the visual labels predicted to be the most relevant to the image. However, the visual labels only reflect the objects contained in an image but ignore how these objects relate to each other as well as their attributes and the activities they are involved in. Thus, the Word2Vec space is not an effective text space for cross-modal retrieval. Recently, a distributional visual embedding space provided by Word2VisualVec [[22]] is found to be an effective space to perform cross-modal retrieval by embedding the text into an image space. 2.3 Domain adaptation In the absence of labelled data for a certain task, domain adaptation often provides an attractive option given that labelled data of similar nature but from a different domain are available. Ganin and Lempitsky [[24]] propose a new approach to domain adaptation in deep architectures that can learn features that are discriminative for the main learning task on the source domain and invariant with respect to the shift between the domains, which can be achieved by a domain classifier and a simple gradient reversal layer. Inspired by Goodfellow in Generative Adversarial Nets [[30]], there exists an alternative adversarial training strategy rather than using the gradient reversal layer. Recently, Park and Im [[14]] try to learn a common space for cross-modal retrieval based on domain adaptation and have achieved competitive experimental results. 3 Proposed method The general framework of DALTS is shown in Fig. 2 a, which contains a feature extraction network, a feature embedding network and a domain classifier. Fig. 2Open in figure viewerPowerPoint Overview of DALTS. The overall loss function contains the traditional pairwise ranking loss (the blue dashed lines) and the additional adversarial loss (the brown dashed lines) a General framework of DALTS, which contains a feature extraction network, a feature embedding network and a domain classifier b Detailed illustration of the feature embedding network c Detailed illustration of the domain classifier 3.1 Feature extraction Image representation: The network for image feature extraction consists of two branches: VGGNet that is pre-trained for image classification and NIC [[26]] that is pre-trained for image captioning. As mentioned earlier, VGGNet tends to capture rich category information but leave out some detailed cues for cross-modal retrieval. Conversely, NIC has the innate advantage of mining rich relation information among different objects contained in an image. So they are perfectly complementary to each other for cross-modal retrieval. Accordingly, we aim to design the network for image feature extraction as a combination of these two separate models. As shown in Fig. 3 a, the blue and green dashed boxes represent NIC and VGGNet, respectively, which are pre-trained on image captioning and image classification task. Given an input image, a forward pass of the pre-trained VGGNet produces a 4096-dimension feature . As for NIC, in order to avoid the information loss during decoding, we regard the 512-dimension output of the image embedding layer as the image feature . Finally, we denote a 4608-dimension feature as the feature for the input image, which is the concatenation of and . In practise, we have tried a further step to fine-tune the parameters of NIC but no significant gains were observed, so we decided to leave them fixed. Fig. 3Open in figure viewerPowerPoint Detailed illustration of the feature extraction network a Image feature extraction b Text feature extraction Text representation: We employ Long Short Term Memory networks (LSTM) to learn d -dimensional text features as shown in Fig. 3 b. Here, d is also denoted as the dimensionality of the LTS. Let be an input text with length , where we represent each word as a one-hot vector of dimension equals to the size of the dictionary. Note that we denote by as a special end word which designates the end of the text. Before fed into the LSTM, should be embedded into a denser space (1) where is a word embedding matrix. Then we feed the vectors into LSTM, which take the form (2) where denote the input, forget, output, memory cell and hidden state of the LSTM at time step t, respectively. Here, is the input word at time step t and is the hidden state of the LSTM at the last time step . denotes the sigmoid function and indicates element-wise multiplication. W, U and b represent the trainable parameters of LSTM. Thus, the feature for S can be obtained from the hidden state of the LSTM at time , that is, . 3.2 Domain classifier We adopt the concept from [[14], [24]]. Instead of using the gradient reversal layer, we advocate the adversarial training strategy by designing a domain classifier. Specifically, the domain classifier is a simple feed-forward neural network that has three fully connected layers as shown in Fig. 2 c. Given image and text features in the LTS, the domain classifier tries to predict the domain label for each input, for example, for the image features and for the text features. During training, we minimise the cross-entropy loss for a better domain discrimination with the parameters (3) where and represent the input feature and its corresponding domain label, respectively. The mapping function is able to predict the domain label given an input feature . 3.3 Feature embedding The feature embedding network aims to learn an LTS with parameters . As shown in Fig. 2 b, we design two mapping functions to transform and to d -dimensional text space features and , respectively, denoted as and . Similar to and , and are complementary to each other as well. Therefore, we add a fusion layer on top to combine the two features by summation. The whole process can be defined as (4) where are the LTS features for an input image. Note that the procedure of text feature extraction from scratch by LSTM is equivalent to embedding text into an LTS. Therefore, involves the parameters of LSTM. After embedding image and text into an LTS, the next step is to compare their similarities. We define a scoring function , where v and t represent image and text features, respectively. To make s equivalent to cosine similarity, v and t are first scaled to have unit norm by the layer. Then, two kinds of loss functions are exploited to train the embedding network: pairwise ranking loss and adversarial loss . Pairwise ranking loss is widely adopted for cross-modal retrieval. Let denote all the parameters to be learnt. We optimise the following pairwise ranking loss: (5) where is a negative text for a given image v and is a negative image for a given text . To obtain the non-matching terms, we choose them randomly from the training set and re-sample every epoch. Meanwhile, the adversarial loss will be back-propagated to the feature embedding network simultaneously. Since the feature embedding network tries to maximise in order to learn domain-invariant features, the optimisation goals of these two loss functions are opposite. Therefore, the overall loss function for the feature embedding network can be defined as (6) where is an adaptation factor varying from 0 to 1 in order to suppress noisy signal from the domain classifier at the early stages of the training procedure. Following Ganin and Lempitsky [[24]], we update by the following equation: (7) where p is the fraction of current step in maximum training steps. 3.4 Training procedure The training procedure can be divided into five stages. We denote the parameters of domain classifier and feature embedding network as and , respectively. Stage 1: During the first training stage, we pre-train NIC on image captioning using the benchmark datasets in cross-modal retrieval such as Flickr30K and Microsoft Common Objects in Context (MSCOCO). After the training complete, we can learn efficient image features. Stage 2: After extracting features for all images, we start stage 2 to learn an LTS. Given loss function L for the feature embedding network, we fix and try to update by the following rule: (8) where is the learning rate. Stage 3: After stage 2, we start stage 3 to enhance the discriminating ability of the domain classifier. Given loss function for the domain classifier, we fix and try to update by the following rule: (9) where is the learning rate. Stage 4: For each training batch, repeat stage 2 and stage 3 until DALTS converges. Stage 5: We can further fine-tune the parameters of NIC. 4 Experiments In this section, we perform extensive experiments on Flickr8K [[31]], Flickr30K [[32]] and MSCOCO [[33]] datasets following the dataset splits in [[10]]. Evaluation is performed using Recall@K (with K = 1, 5, 10), which computes the mean number of images (texts) for which the correct texts (images) are ranked within the top-K retrieved results. 4.1 Implementation details For image feature extraction, we first pre-train NIC on image captioning task using Flickr30K and MSCOCO and fix the parameters of NIC and VGGNet during the whole training procedure. In practise, we have tried a further step to fine-tune the parameters of NIC but no significant gains were observed, so we decided to leave them fixed. More specifically, we first rescale the image to , and then use a single centre crop of size to compute 1-crop VGG image feature. For text feature extraction, we set the dimensionality of the LTS to 1024. Meanwhile, the dimensionality of word embedding is set to 1024 as well. The feature embedding network contains two functions, and . For , is a matrix and is a matrix. Among various layers, Rectified Linear Unit (ReLU) is adopted to be the activation function and a dropout layer is added right after ReLU with probability = 0.5 in order to reduce overfitting. For , is a matrix. The margin is set to 0.3 in all our experiments. To accelerate the training and also make gradient updates more stable, we apply batch normalisation right after each mapping function. We employ a three-layer feed-forward neural network activated by ReLU for the domain classifier. The output dimensions of intermediate layers and are set to . Softmax layer is added right after the last layer . During training, we adopt Adam optimiser to optimise the model with learning rate 0.0002 for the first 15 epochs and then decay the learning rate by 0.1 for the remaining 15 epochs. We use a mini-batch size of 128 in all our experiments. 4.2 Comparison with the state of the art In this section, we report experimental results for cross-modal retrieval including image-to-text retrieval (Img2Text) and text-to-image retrieval (Text2Img) on the benchmark Flickr8K, Flickr30K and MSCOCO datasets. For Flickr8K, experimental results are presented in Table 1. Comparing DALTS with the current state-of-the-art method Hierarchical Multiscale Long Short Term Memory Networks (HMLSTM) [[13]], we observe that our model achieves new state-of-the-art results on image-to-text retrieval. However, it performs slightly inferiorly to HMLSTM on text-to-image retrieval. Since, instead of the global features we use with massive redundant information, HMLSTM extracts features for phrases within sentences and salient regions within images, as well as embeds them into a denser space. Table 1. Bidirectional retrieval results on Flickr8K Methods Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 DeViSE [[20]] 4.8 16.5 27.3 5.9 20.1 29.6 m-RNN [[25]] 14.5 37.2 48.5 11.5 31.0 42.4 DeepFrag [[10]] 12.6 32.9 44.0 9.7 29.6 42.5 VSE [[28]] 22.3 48.7 59.8 14.9 38.3 51.6 NIC [[26]] 20.0 — 61.0 19.0 — 64.0 HMLSTM [[13]] 27.7 — 68.6 24.4 — 68.1 DALTS 30.8 60.9 75.2 23.4 53.6 68.0 The bold values in Tables 1–6 denote the best experimental results. On Flickr30K, the best performing competitor model becomes DAN_ vgg [[12]] on both tasks, as shown in Table 2. Only DAN_vgg outperforms DALTS on image-to-text retrieval. As for the text-to-image retrieval, DALTS achieves new state-of-the-art results. Owing to the application of attention mechanism, DAN is able to focus on certain aspects of data sequentially and aggregate essential information over time to infer the results. On the contrary, we use global features to represent both image and text which are likely to contain noisy or unnecessary information. Table 2. Bidirectional retrieval results on Flickr30K Methods Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 DeViSE [[20]] 4.5 18.1 29.2 6.7 21.9 32.7 m-RNN [[25]] 35.4 63.8 73.7 22.8 50.7 63.1 DeepFrag [[10]] 14.2 37.7 51.3 10.2 30.8 44.2 NIC [[26]] 17.0 – 56.0 17.0 – 57.0 DSPE [[16]] 40.3 68.9 79.9 29.7 60.1 72.1 DAN_vgg [[12]] 41.4 73.5 82.5 31.8 61.7 72.5 VSE++ [[7]] 31.9 – 68.0 23.1 – 60.7 HMLSTM [[13]] 38.1 – 76.5 27.7 – 68.8 smLSTM [[9]] 42.4 67.5 79.9 28.2 57.0 68.4 DALTS 43.0 68.4 81.0 30.7 61.9 73.6 As shown in Table 3, with enough training data, DALTS achieves about 1 and 2% improvement in R@5 and R@10, respectively, on image-to-text retrieval, compared with DSPE. However, DALTS performs slightly inferiorly to smLSTM [[9]], which utilises attention mechanism similar to DAN. As for the text-to-image retrieval, DALTS performs slightly inferiorly to DSPE. One possible reason may be that the chain structured LSTM is likely to miss the intrinsic hierarchical structure of texts and thus shows weaker ability to learn text features than Fisher vector, which is learned by external text corpora. In particular, DALTS performs better than MRLA [[14]], which shows that pairwise ranking loss is more suitable for cross-modal retrieval rather than category classification loss. Table 3. Bidirectional retrieval results on MSCOCO Methods Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 m-RNN [[25]] 41.0 73.0 83.5 29.0 42.2 77.0 VSE [[28]] 43.4 75.7 85.8 31.0 66.7 79.9 DSPE [[16]] 50.1 79.7 89.2 39.6 75.2 86.9 VSE++ [[7]] 43.6 — 84.6 33.7 — 81.0 HMLSTM [[13]] 43.9 — 87.8 36.1 — 86.7 smLSTM [[9]] 52.4 81.7 90.8 38.6 73.4 84.6 MRLA [[14]] 14.3 40.5 55.8 12.7 39.0 57.2 DALTS 46.2 81.0 90.0 38.1 73.5 86.1 For a fair comparison, the results of VSE++ [[7]] in Tables 2 and 3 are based on 1-crop VGG image features without fine-tuning. Note that if 10-crops ResNet image features are used to train the models with fine-tuning, the experimental results could be further improved. As shown in the Appendix, Fig. 4 shows some qualitative results for cross-modal retrieval on Flickr8K. To emphasise the efficiency of our proposed model, the retrieval results for each query are listed from left to right according to three variants of our proposed model, DALTS (VGG + BLSTM), DALTS (NIC + BLSTM) and DALTS (VGG + NIC + BLSTM). We can observe that the retrieval results from left to right obtain significant improvement especially from DALTS (VGG + BLSTM) to DALTS (NIC + BLSTM). Furthermore, the incorrectly retrieved results are reasonable as well, compared with the ground truth. Fig. 4Open in figure viewerPowerPoint Qualitative cross-modal retrieval results on Flickr8K. The first column lists image and text queries for retrieval. The second column to the fourth column shows top five retrieved results for each query by our proposed model DALTS (VGG + BLSTM), DALTS (NIC + BLSTM) and DALTS (VGG + NIC + BLSTM) respectively. For image-to-text retrieval, the correctly retrieved texts for each image query are denoted in red. As for the text-to-image retrieval, the image with a hook represents the correctly retrieved image for a text query In general, DALTS achieves promising improvements in accuracy for cross-modal retrieval compared with the current state-of-the-art methods, though it has some obvious limitations. In the future, we will employ a stronger CNN (ResNet) for experiments. Meanwhile, attention mechanism will be applied to reduce the negative impact of redundant information. 5 Further study on DALTS 5.1 Importance of different components To demonstrate the impact of different components in DALTS, we report results for the following variants in Table 4 : DALTS (VGG + LSTM): In this setting, we remove NIC while keep the remaining part fixed. DALTS (NIC + LSTM): In contrast to DALTS (VGG + LSTM)}, we remove VGGNet while keep the remaining part fixed. DALTS (VGG + NIC + LSTM): Network as in Fig. 2 a. DALTS (VGG + NIC + BLSTM): The network structure is as above but LSTM is replaced by BLSTM. For Flickr8K, we observe that changing the image feature extractor from VGG to NIC improves the accuracy by about 22% for image-to-text retrieval and about 20% for text-to-image retrieval. It demonstrates that, rather than VGG, NIC can better capture the information we need for cross-modal retrieval such as the interaction information among differe

Translated Descriptions

This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

CAAI Transactions on Intelligence Technology المجلد 4، العدد 1 ص. 9-16 مقالة بحثيةتعلم الوصول المفتوح DALTS للاسترجاع عبر الوسائط تشنغ يو، مدرسة تشنغ يو للهندسة الإلكترونية وهندسة الكمبيوتر، كلية الدراسات العليا في شنتشن، جامعة بكين، شنتشن، جمهورية الصين الشعبيةالبحث عن المزيد من الأوراق من قبل هذا المؤلفوينمين وانغ، المؤلف المراسل وينمين وانغ wangwm@ece.pku.edu.cn كلية الهندسة الإلكترونية وهندسة الكمبيوتر، كلية الدراسات العليا في شنتشن، جامعة بكين، شنتشن، جمهورية الصين الشعبيةالبحث عن المزيد من الأوراق من قبل هذا المؤلف تشنغ يو، مدرسة تشنغ يو للهندسة الإلكترونية وهندسة الكمبيوتر، كلية الدراسات العليا في شنتشن، جامعة بكين، شنتشن، جمهورية الصين الشعبيةالبحث عن المزيد من الأوراق التي كتبها هذا المؤلفوينمين وانغ، المؤلف المراسل وينمين وانغ wangwm@ece.pku.edu.cn كلية الهندسة الإلكترونية وهندسة الكمبيوتر، كلية شنتشن للدراسات العليا، جامعة بكين، شنتشن، جمهورية الصين الشعبيةالبحث عن المزيد من الأوراق التي كتبها هذا المؤلف نشرت لأول مرة: 18 فبراير 2019 https://doi.org/10.1049/trit.2018.1051Citations:14AboutSectionsPDF ToolsRequest permissionExport citationإضافة إلى المفضلةتتبع الاقتباس شاركإتاحة الوصولإتاحة الوصول إلى النص الكاملشارك الوصول إلى النص الكامليرجى مراجعة شروط وأحكام الاستخدام الخاصة بنا وتحديد مربع أدناه لمشاركة النسخة الكاملة من المقالة .لقد قرأت وقبلت شروط وأحكام مكتبة وايلي عبر الإنترنت UseShareable Linkاستخدم الرابط أدناه لمشاركة نسخة كاملة من هذه المقالة مع أصدقائك وزملائك. اعرف المزيد .نسخ عنوان URL مشاركة رابطشارك على FacebookTwitterLinkedInRedditWechat تم اقتراح ملخص الاسترجاع عبر الوسائط مؤخرًا للعثور على فضاء فرعي مناسب، حيث يمكن قياس التشابه بين الطرائق المختلفة مثل الصورة والنص مباشرة. في هذه الدراسة، يختلف المؤلفون عن معظم الأعمال الحالية، ويقترحون نموذجًا جديدًا لاسترجاع الوسائط المتقاطعة استنادًا إلى مساحة نص محدودة قابلة للتكيف مع المجال (DALTS) بدلاً من مساحة مشتركة أو مساحة صورة. تُظهر النتائج التجريبية على ثلاث مجموعات بيانات مستخدمة على نطاق واسع، Flickr8K وFlickr 30K وMicrosoft Common Objects in Context (MSCOCO)، أن الطريقة المقترحة، التي يطلق عليها اسم DALTS، قادرة على تعلم ميزات مساحة النص المتفوقة التي يمكن أن تلتقط بشكل فعال المعلومات اللازمة لاسترجاع الوسائط المتقاطعة. وفي الوقت نفسه، يحقق دالتس تحسينات واعدة في دقة الاسترجاع عبر الوسائط مقارنة بالطرق الحديثة الحالية. 1 مقدمة بدأت مهمة الاسترجاع عبر الوسائط في جذب المزيد والمزيد من الاهتمام مؤخرًا. أي، بالنظر إلى استعلام صورة (نص)، نهدف إلى البحث عن النص (الصورة) الأكثر صلة. ومع ذلك، فإن بيانات الوسائط المتعددة غير متجانسة في جوهرها، وبالتالي يصعب علينا قياس التشابه مباشرة. لذا فإن التحدي الرئيسي المتبقي في الاسترجاع عبر الوسائط هو كيفية تضمين بيانات الوسائط المتعددة غير المتجانسة في مساحة متجانسة، بحيث يمكن قياس تشابهها مباشرة. وبشكل أكثر تحديدًا، يتكون التحدي الرئيسي من المشكلتين الفرعيتين التاليتين. المشكلة الأولى هي كيفية تعلم ميزات فعالة لبيانات الوسائط المتعددة، والتي تتطور من الميزات المصنوعة يدويًا إلى الميزات العميقة تدريجيًا. أما بالنسبة للصورة، مع النجاح الكبير الذي حققته الشبكات العصبية الالتفافية (CNNs)، يجادل شريف رضويان وآخرون. [[1]] بأن شبكة CNN العميقة المدربة مسبقًا هي مستخرج فعال لميزة الصورة للعديد من مهام رؤية الكمبيوتر بما في ذلك الاسترجاع عبر الوسائط. ومع ذلك، هل توفر شبكات CNN الجاهزة معلومات كافية للاسترجاع عبر الوسائط ؟ تستخدم معظم الأعمال الحالية شبكات CNN الجاهزة مثل VGGNet [[2]] و ResNet [[3]] لاستخراج ميزات الصورة. ومع ذلك، عادة ما تكون هذه النماذج مدربة مسبقًا للتصنيف، وبالتالي تحتاج فقط إلى النظر في معلومات الفئة الواردة في الصورة. لذلك، لا مفر من تفويت الإشارات التفصيلية مثل كيفية ارتباط الأشياء ببعضها البعض بالإضافة إلى سماتها والأنشطة التي تشارك فيها، والتي قد تلعب دورًا لا غنى عنه في الاسترجاع عبر الوسائط. كما هو موضح في الشكل 1، بالنظر إلى صورتي إدخال مختلفتين، يمكن لشبكة سي إن إن المدربة مسبقًا التعرف فقط على الكائنات الموجودة في كل صورة والتي تشبه بعضها البعض مثل "الإنسان" و "لوح التزلج" و "الموجة". ومع ذلك، فإنه يميل إلى تفويت بعض الإشارات الحاسمة التي تختلف تمامًا عن بعضها البعض مثل كيف يتصفح الرجل الموجة. مع التقدم الكبير الذي تم إحرازه في مهمة التسمية التوضيحية للصورة مؤخرًا، يمكننا الحصول على جمل وصفية معقولة تتوافق مع صورة الإدخال، والتي تحتوي على أسماء وأفعال. أي أن نماذج التسمية التوضيحية للصورة قادرة ليس فقط على التعرف على الكائنات الموجودة في الصورة (الأسماء) ولكن أيضًا على الحفاظ على معلومات العلاقة الغنية بين الكائنات المختلفة (الأفعال). لذلك، نعتمد نماذج تسميات توضيحية للصور لتعويض أوجه القصور في ميزات سي إن إن التقليدية. الشكل 1 مفتوح في الشكل المشاهد PowerPoint توضيح لمشكلة استخدام CNNs المدربة مسبقًا لاستخراج ميزات الصورة. تستخرج نماذج التصنيف هذه ميزات مماثلة لصورتين مع تفاعلات مختلفة بين الكائنات (" القفز "مقابل "ركوب الأمواج، والتجديف نحو ") أما بالنسبة للنص، فإن Word2Vec [[4]]، وتخصيص ديريتشليت الكامن (LDA) [[5]] و FV [[6]] كلها خيارات شائعة لتمثيل النص. ومع ذلك، يتم تدريبهم جميعًا مسبقًا على بعض المجموعات المحددة التي تختلف تمامًا عن مجموعات البيانات المعتمدة في الاسترجاع عبر الوسائط. على هذا النحو، بدلاً من استخدام النماذج الجاهزة، نستخدم الشبكة العصبية المتكررة (RNN) لتعلم ميزات النص من الصفر. بالنظر إلى الميزات الفعالة للصورة والنص، فإن المشكلة الثانية هي كيفية العثور على مساحة متجانسة. نظرًا لأننا في هذه الورقة نركز فقط على الاسترجاع بين الصورة والنص، يمكن تحقيق الاسترجاع عبر الوسائط من خلال مساحة مشتركة [[7 ]-[ 18]] أو مساحة نص [[19 ]-[ 21]] أو مساحة صورة [[22]]. بالنظر إلى الطريقة التي يؤدي بها الناس الاسترجاع عبر الوسائط، تتم معالجة الطرائق المختلفة بشكل غير متماثل في الدماغ. يشير إلى الفجوة الدلالية المعروفة [[23]] التي تعكس حقيقة أن الميزات النصية أقرب إلى الفهم البشري (واللغة) من الميزات القائمة على البكسل [[19]]. لذلك، توفر الميزات النصية معلومات أكثر دقة من الميزات القائمة على البكسل أثناء الاسترجاع. علاوة على ذلك، من السهل على العقول فهم النص أكثر من الصورة لأن لغة الطبيعة هي نتيجة تجريد عالي المستوى لمحتوى الصورة. وفقًا لذلك، نقترح شبكة تضمين ميزة لاستكشاف إمكانية إجراء استرجاع متعدد الوسائط في مساحة نصية. مساحة النص تمييزية للغاية. إذا تم تدريب المصنف الخطي بعد مسافة النص للتنبؤ بما إذا كان المتجه يأتي من صورة أو جملة، فيمكننا تحقيق دقة تقترب من 100 ٪. أي أنه يمكننا وضع مستوى فائق في مساحة النص للفصل بين الصور والجمل بشكل مثالي. تنتهك هذه الخاصية الهدف الأصلي المتمثل في العثور على مسكن متجانس. وبالتالي، نظرًا لأنه يمكن اعتبار مساحة الصورة المصدر ومساحة النص الهدف مجالين مختلفين، فإننا نقترح مصنفًا للنطاق لتقليل التنوع بين الميزات من الطرائق المختلفة، على غرار فكرة تكييف النطاق في [[24]]. أي أن مصنف النطاق يحاول التمييز بين المجال المصدر (مساحة الصورة الأصلية) والمجال الهدف (مساحة النص) أثناء التدريب، بينما تحاول شبكة تضمين الميزة تعلم الميزات غير المتغيرة للمجال وإرباك مصنف المجال. لذلك، سيتم إعادة نشر خسارة عدائية إضافية إلى شبكة تضمين الميزات من أجل توجيه الشبكة لتعلم ميزات مساحة النص غير المتغيرة للنطاق للصورة والنص. مساحة النص هي في الأساس مساحة متجهة تمتد عبر مجموعة من المتجهات الأساسية المعروفة أيضًا باسم الأحرف الصينية المختلفة أو الكلمات الإنجليزية. بالنسبة للصينيين، لا توجد أرقام دقيقة للأحرف الصينية، والتي تقترب من 100000 حرف. وفي الوقت نفسه، فإن ظهور كلمات جديدة هائلة كل عام يجعل حجم مساحة النص يستمر في النمو. بالإضافة إلى اللغة الصينية، ظهرت ظاهرة مماثلة في لغات أخرى مثل اللغة الإنجليزية. وفقًا للإحصاءات غير المكتملة، تجاوز عدد الكلمات الإنجليزية 1،000،000، ولا يزال ينمو بالآلاف كل عام. لذلك، فإن اللغة الطبيعية متباينة بطبيعتها. يكاد يكون من المستحيل تعلم مساحة نص كاملة وغير محدودة. ومع ذلك، في معظم الحالات، يحتاج الناس فقط إلى تذكر بعض الأحرف الصينية والكلمات الإنجليزية الشائعة الاستخدام لتلبية احتياجاتهم اليومية. على سبيل المثال، يجادل العديد من اللغويين الإنجليز بأن حوالي 3650 كلمة إنجليزية شائعة الاستخدام يمكن أن تنجز أكثر من 95 ٪ من مهام التعبير عن الأفكار والتواصل. يقترح "القاموس الوطني للصينية الحديثة" الذي نشره المجلس الوطني للتعليم في نوفمبر 1987 أن عدد الكلمات الشائعة الاستخدام في الصينية الحديثة هو 2500، وهو ما يمثل أكثر من 99 ٪ من الاستخدام اليومي للصينية. لذلك، تضمن هذه الورقة تقارب الخوارزمية المقترحة من خلال تعلم مساحة نص محدودة (LTS) مع مفردات ثابتة. تتأثر قدرة LTS على الفهم بحجم المفردات. كلما كبرت المفردات، كانت القدرة على الفهم أقوى. لن تؤدي زيادة عدد الكلمات بشكل أعمى إلى تحسين أداء الاسترجاع ولكنها ستزيد من تعقيد الخوارزمية في الزمان والمكان. يتم تلخيص مساهماتنا الأساسية على النحو التالي: نقترح نموذجًا جديدًا للتكيف مع المجال (DALTS) لأداء الاسترجاع عبر الوسائط إنسانيًا في DALTS، والذي يمكن أن يقلد السلوك البشري بشكل أفضل. علاوة على ذلك، نقدم شرحًا موجزًا عن LTS. على النقيض من الميزات الشائعة المدربة مسبقًا لكل من الصورة والنص، فإن DALTS قادرة على تعلم الميزات الخاصة بالمهمة. لتقليل التنوع بين المجال المصدر (مساحة الصورة الأصلية) والمجال الهدف (LTS)، يتم تطبيق فكرة تكييف المجال على النموذج لتعلم DALTS. تم تنظيم بقية هذه الورقة على النحو التالي. نراجع العمل ذي الصلة لاسترجاع الوسائط المتقاطعة في القسم 2. ثم في القسم 3، نقترح نموذجنا الخاص ونصفه بالتفصيل. للتأكيد على فعالية DALTS، يعرض القسمان 4 و 5 تجارب مكثفة على ثلاث مجموعات بيانات مرجعية. أخيرًا، نقدم ملخصًا لهذه الورقة في القسم 6. 2 العمل ذو الصلة 2.1 تعلم الميزات متعددة الوسائط لاسترجاع الوسائط المتقاطعة، تستخدم معظم الأعمال الحالية مباشرة الميزات الجاهزة لتمثيل الصور [[8]، [11]، [14]–[17]]. ومع ذلك، من المرجح أن تتجاهل الميزات المدربة مسبقًا بعض المعلومات المهمة التي قد تكون مفتاح الاسترجاع عبر الوسائط. في الآونة الأخيرة، يمكن استخدام نماذج التسمية التوضيحية للصور [[25 ]-[ 28]] لتعلم ميزات خاصة بالمهمة لتوفير المزيد من المعلومات المفيدة لاسترجاع الوسائط المتقاطعة. بالنظر إلى صورة الإدخال، قبل فك تشفيرها إلى جملة وصفية، تحاول نماذج التسمية التوضيحية للصورة أولاً تعيين الصورة في مساحة نصية. وبالتالي، فإن ميزة مساحة النص للصورة لا تحتوي فقط على معلومات الفئة ولكن أيضًا على معلومات العلاقة الغنية بين الكائنات المختلفة. عادةً ما تكون RNN متعددة الوسائط (m - RNN) [[25]]، والتسمية التوضيحية للصورة العصبية (NIC) [[26]]، والمحاذاة البصرية الدلالية العميقة [[27]] وتوحيد التضمينات البصرية الدلالية (VSEs) [[28]] كلها طرق تمثيلية للتسمية التوضيحية للصورة. أما بالنسبة للنص، بالمثل، فإن الطرق النموذجية مثل Word2Vec [[4]] و LDA [[5]] و FV [[6]] كلها مدربة مسبقًا على بعض المجموعات المحددة التي تختلف تمامًا عن مجموعات البيانات المعيارية في الاسترجاع عبر الوسائط. في الآونة الأخيرة، مع التقدم الكبير في الترجمة الآلية [[29]]، تم العثور على RNN لتكون أداة أكثر قوة لنمذجة اللغة التي يمكن تدريبها من الصفر، وبالتالي أكثر ملاءمة لاسترجاع الوسائط المتقاطعة. 2.2 التعلم المتجانس للمساحة يحاول النهج السائد تعلم مساحة مشتركة من خلال تقريب التحولات على جانبي الصورة والنص. عادة، يحاول تحليل الارتباط الكنسي [[15]] تعلم مساحة مشتركة من خلال تعظيم الارتباطات بين ميزات الصورة والنص ذات الصلة. كارباثي وآخرون. [[10]] تقسيم كل من الصورة والنص إلى أجزاء وتضمينها في مساحة مشتركة متعددة الوسائط تستخدم محاذاة دقيقة الحبيبات بين الصورة والنص. يعالج نيو وآخرون [[13]] مشكلة VSE الكثيفة التي لا تحدد فقط الجمل الكاملة والصور الكاملة ولكن أيضًا العبارات داخل الجمل والمناطق البارزة داخل الصور في مساحة تضمين متعددة الوسائط. يقترح وانغ وآخرون [[16]] تضمينات عميقة للحفاظ على البنية (DSPEs) للصورة والنص والتي توسع خسارة الترتيب الزوجي لنمذجة العلاقة داخل الوسائط وتعتمد مخططًا معقدًا لعينة البيانات. يقترح نام وآخرون [[12]] شبكات الانتباه المزدوج (DANs) التي تستفيد بشكل مشترك من آليات الانتباه البصرية والنصية لالتقاط التفاعل الدقيق بين الصورة والنص. بالإضافة إلى المساحة المشتركة، في نموذج DeViSE الذي طوره فروم وآخرون. [[20]]، يتم تشكيل مساحة النص من خلال نموذج Word2Vec المدرب مسبقًا. يتم الحصول على متجه مساحة النص للصورة من خلال مجموعة محدبة من متجهات تضمين الكلمة للتسميات المرئية المتوقع أن تكون الأكثر صلة بالصورة. ومع ذلك، فإن التسميات المرئية تعكس فقط الأشياء الموجودة في الصورة ولكنها تتجاهل كيفية ارتباط هذه الأشياء ببعضها البعض بالإضافة إلى سماتها والأنشطة التي تشارك فيها. وبالتالي، فإن مساحة Word2Vec ليست مساحة نص فعالة للاسترجاع عبر الوسائط. في الآونة الأخيرة، تم العثور على مساحة التضمين المرئي التوزيعي التي يوفرها Word2VisualVec [[22]] لتكون مساحة فعالة لإجراء استرجاع عبر الوسائط عن طريق تضمين النص في مساحة الصورة. 2.3 تكييف المجال في حالة عدم وجود بيانات مصنفة لمهمة معينة، غالبًا ما يوفر تكييف المجال خيارًا جذابًا نظرًا لتوافر بيانات مصنفة ذات طبيعة مماثلة ولكن من مجال مختلف. يقترح غانين وليمبيتسكي [[24]] نهجًا جديدًا لتكييف المجال في البنى العميقة التي يمكنها تعلم الميزات التمييزية لمهمة التعلم الرئيسية في المجال المصدر والثابت فيما يتعلق بالتحول بين المجالات، والذي يمكن تحقيقه بواسطة مصنف المجال وطبقة انعكاس التدرج البسيطة. مستوحاة من غودفيلو في شبكات الخصومة التوليدية [[30]]، توجد استراتيجية بديلة للتدريب على الخصومة بدلاً من استخدام طبقة انعكاس التدرج. في الآونة الأخيرة، حاول بارك وإيم [[14]] تعلم مساحة مشتركة للاسترجاع عبر الوسائط بناءً على تكييف المجال وحققا نتائج تجريبية تنافسية. 3 الطريقة المقترحة يظهر الإطار العام لـ DALTS في الشكل 2 أ، والذي يحتوي على شبكة استخراج الميزات وشبكة تضمين الميزات ومصنف المجال. الشكل 2 مفتوح في عارض الشكل نظرة عامة على DALTS. تحتوي دالة الخسارة الإجمالية على خسارة الترتيب الزوجي التقليدية (الخطوط المتقطعة الزرقاء) والخسارة العدائية الإضافية (الخطوط المتقطعة البنية) إطار عام لـ DALTS، والذي يحتوي على شبكة استخراج ميزة وشبكة تضمين ميزة ومصنف نطاق ب توضيح تفصيلي لشبكة تضمين الميزة ج توضيح تفصيلي لمصنف النطاق 3.1 استخراج الميزة تمثيل الصورة: تتكون شبكة استخراج ميزة الصورة من فرعين: VGGNet المدربة مسبقًا على تصنيف الصورة و NIC [[26]] المدربة مسبقًا على تسمية الصورة. كما ذكرنا سابقًا، تميل VGGNet إلى التقاط معلومات الفئة الغنية ولكنها تترك بعض الإشارات التفصيلية لاسترجاع الوسائط المتقاطعة. على العكس من ذلك، يتمتع نيك بميزة فطرية تتمثل في استخراج معلومات العلاقة الغنية بين الأشياء المختلفة الموجودة في الصورة. لذلك فهي مكملة تمامًا لبعضها البعض لاسترجاع الوسائط المتقاطعة. وفقًا لذلك، نهدف إلى تصميم شبكة لاستخراج ميزات الصور كمزيج من هذين النموذجين المنفصلين. كما هو موضح في الشكل 3 أ، تمثل المربعات المتقطعة الزرقاء والخضراء مركز المعلومات الوطني وVGGNet، على التوالي، والتي تم تدريبها مسبقًا على التسمية التوضيحية للصورة ومهمة تصنيف الصورة. بالنظر إلى صورة الإدخال، فإن التمرير الأمامي لشبكة VGGNet المدربة مسبقًا ينتج ميزة 4096 - dimension . أما بالنسبة لمركز المعلومات الوطني، من أجل تجنب فقدان المعلومات أثناء فك التشفير، فإننا نعتبر إخراج 512 بعدًا لطبقة تضمين الصورة كميزة للصورة. أخيرًا، نشير إلى ميزة البعد 4608 كميزة لصورة الإدخال، وهي تسلسل و . من الناحية العملية، جربنا خطوة أخرى لصقل معايير مركز المعلومات الوطني ولكن لم تتم ملاحظة أي مكاسب كبيرة، لذلك قررنا تركها ثابتة. الشكل 3 مفتوحة في الشكل المشاهدباور بوينت توضيح تفصيلي لشبكة استخراج الميزة أ استخراج ميزة الصورة ب استخراج ميزة النص تمثيل النص: نحن نستخدم شبكات الذاكرة طويلة المدى (LSTM) لتعلم د - ميزات النص ذات الأبعاد كما هو موضح في الشكل 3 ب. هنا، يشار إلى d أيضًا باسم أبعاد LTS. لنفترض أن نص الإدخال بطول ، حيث نمثل كل كلمة كمتجه أحادي البعد يساوي حجم القاموس. لاحظ أننا نشير إليها بكلمة نهاية خاصة تشير إلى نهاية النص. قبل إدخالها في LSTM، يجب تضمينها في مساحة أكثر كثافة (1) حيث تكون مصفوفة تضمين الكلمة. ثم نقوم بتغذية المتجهات في LSTM، والتي تأخذ الشكل (2) حيث تشير إلى الإدخال والنسيان والإخراج وخلية الذاكرة والحالة المخفية لـ LSTM في الخطوة الزمنية t، على التوالي. هنا، هي كلمة الإدخال في الخطوة الزمنية t وهي الحالة المخفية لـ LSTM في الخطوة الزمنية الأخيرة. تشير إلى الدالة السينية وتشير إلى الضرب الحكيم للعنصر. يمثل W و U و b المعلمات القابلة للتدريب لـ LSTM. وبالتالي، يمكن الحصول على ميزة S من الحالة الخفية لـ LSTM في الوقت المناسب ، أي، . 3.2 مصنف المجال نعتمد المفهوم من [[14]، [24]]. بدلاً من استخدام طبقة انعكاس التدرج، ندافع عن استراتيجية التدريب الخصومي من خلال تصميم مصنف المجال. على وجه التحديد، فإن مصنف المجال هو شبكة عصبية بسيطة للتغذية الأمامية تحتوي على ثلاث طبقات متصلة بالكامل كما هو موضح في الشكل 2 ج. بالنظر إلى ميزات الصورة والنص في LTS، يحاول مصنف النطاق التنبؤ بتسمية المجال لكل إدخال، على سبيل المثال، لميزات الصورة وميزات النص. أثناء التدريب، نقوم بتقليل الخسارة عبر الإنتروبيا لتمييز مجال أفضل مع المعلمات (3) حيث تمثل ميزة الإدخال وتسمية المجال المقابلة لها، على التوالي. وظيفة التعيين قادرة على التنبؤ بتسمية المجال مع إعطاء ميزة الإدخال. 3.3 تضمين الميزات تهدف شبكة تضمين الميزات إلى تعلم LTS مع المعلمات . كما هو موضح في الشكل 2 ب، نقوم بتصميم دالتين للتعيين لتحويل ميزات مساحة النص ذات الأبعاد و ، على التوالي، المشار إليها باسم و . على غرار و ، ومتكاملة مع بعضها البعض أيضًا. لذلك، نضيف طبقة دمج في الأعلى للجمع بين السمتين عن طريق الجمع. يمكن تعريف العملية بأكملها على أنها (4) حيث توجد ميزات LTS لصورة الإدخال. لاحظ أن إجراء استخراج ميزة النص من الصفر بواسطة LSTM يعادل تضمين النص في LTS. لذلك، يتضمن معلمات LSTM. بعد تضمين الصورة والنص في LTS، فإن الخطوة التالية هي مقارنة أوجه التشابه بينهما. نحدد دالة تسجيل، حيث تمثل v و t ميزات الصورة والنص، على التوالي. لجعل s مكافئًا لتشابه جيب التمام، يتم أولاً قياس v و t ليكون لهما معيار الوحدة بواسطة الطبقة. بعد ذلك، يتم استغلال نوعين من وظائف الخسارة لتدريب شبكة التضمين: خسارة الترتيب الزوجي والخسارة العدائية. يتم اعتماد خسارة الترتيب الزوجي على نطاق واسع لاسترجاع الوسائط المتقاطعة. دعنا نشير إلى جميع المعلمات التي يجب تعلمها. نقوم بتحسين خسارة الترتيب الزوجي التالية: (5) حيث يكون النص سالبًا لصورة معينة v ويكون صورة سلبية لنص معين. للحصول على المصطلحات غير المتطابقة، نختارها عشوائيًا من مجموعة التدريب ونعيد أخذ عينات منها في كل حقبة. وفي الوقت نفسه، سيتم إرجاع الخسارة العدائية إلى شبكة تضمين الميزة في وقت واحد. نظرًا لأن شبكة تضمين الميزات تحاول تعظيمها من أجل تعلم ميزات المجال غير المتغيرة، فإن أهداف التحسين لهاتين الوظيفتين للخسارة متعاكسة. لذلك، يمكن تعريف وظيفة الخسارة الإجمالية لشبكة تضمين الميزات على أنها (6) حيث يكون عامل التكيف يتراوح من 0 إلى 1 من أجل قمع الإشارة الصاخبة من مصنف المجال في المراحل المبكرة من إجراء التدريب. بعد غانين وليمبيتسكي [[24]]، نقوم بالتحديث بالمعادلة التالية: (7) حيث p هو جزء من الخطوة الحالية في أقصى خطوات التدريب. 3.4 إجراء التدريب يمكن تقسيم إجراء التدريب إلى خمس مراحل. نشير إلى معلمات مصنف النطاق وشبكة تضمين الميزات كـ و ، على التوالي. المرحلة 1: خلال مرحلة التدريب الأولى، نقوم بتدريب مركز المعلومات الوطني مسبقًا على التسمية التوضيحية للصور باستخدام مجموعات البيانات المعيارية في استرجاع الوسائط المتقاطعة مثل Flickr30K وMicrosoft Common Objects in Context (MSCOCO). بعد اكتمال التدريب، يمكننا تعلم ميزات الصورة الفعالة. المرحلة 2: بعد استخراج الميزات لجميع الصور، نبدأ المرحلة 2 لتعلم LTS. بالنظر إلى وظيفة الخسارة L لشبكة تضمين الميزات، فإننا نصلح ونحاول التحديث بالقاعدة التالية: (8) أين هو معدل التعلم. المرحلة 3: بعد المرحلة 2، نبدأ المرحلة 3 لتعزيز القدرة التمييزية لمصنف المجال. بالنظر إلى وظيفة الخسارة لمصنف النطاق، فإننا نصلح ونحاول التحديث بالقاعدة التالية: (9) أين هو معدل التعلم. المرحلة 4: لكل دفعة تدريب، كرر المرحلة 2 والمرحلة 3 حتى تتقارب DALTS. المرحلة 5: يمكننا زيادة صقل معايير مركز المعلومات الوطني. 4 تجارب في هذا القسم، نجري تجارب مكثفة على مجموعات بيانات Flickr8K [[31]] و Flickr30K [[32]] و MSCOCO [[33]] بعد انقسامات مجموعة البيانات في [[10]]. يتم إجراء التقييم باستخدام Recall@K (مع K = 1، 5، 10)، والذي يحسب متوسط عدد الصور (النصوص) التي يتم ترتيب النصوص (الصور) الصحيحة لها ضمن أفضل النتائج المسترجعة من K. 4.1 تفاصيل التنفيذ لاستخراج ميزة الصورة، نقوم أولاً بتدريب مركز المعلومات الوطني مسبقًا على مهمة شرح الصورة باستخدام Flickr30K و MSCOCO وتثبيت معلمات مركز المعلومات الوطني و VGGNet خلال إجراءات التدريب بأكملها. من الناحية العملية، جربنا خطوة أخرى لصقل معايير مركز المعلومات الوطني ولكن لم تتم ملاحظة أي مكاسب كبيرة، لذلك قررنا تركها ثابتة. وبشكل أكثر تحديدًا، نقوم أولاً بإعادة قياس الصورة، ثم نستخدم محصولًا مركزيًا واحدًا بالحجم لحساب ميزة صورة VGG من محصول واحد. لاستخراج ميزة النص، قمنا بتعيين أبعاد LTS على 1024. وفي الوقت نفسه، تم تعيين أبعاد تضمين الكلمات على 1024 أيضًا. تحتوي شبكة تضمين الميزات على وظيفتين، و . ل ، هي مصفوفة وهي مصفوفة. من بين الطبقات المختلفة، يتم اعتماد الوحدة الخطية المصححة (ReLU) لتكون وظيفة التنشيط ويتم إضافة طبقة التسرب مباشرة بعد ReLU مع احتمال = 0.5 من أجل تقليل التجهيز الزائد. ل ، هي مصفوفة. تم تعيين الهامش على 0.3 في جميع تجاربنا. لتسريع التدريب وجعل تحديثات التدرج أكثر استقرارًا، نطبق تطبيع الدُفعات مباشرة بعد كل وظيفة تخطيط. نحن نستخدم شبكة عصبية ثلاثية الطبقات للتغذية الأمامية تم تنشيطها بواسطة ReLU لمصنف النطاق. أبعاد الإخراج للطبقات الوسيطة ويتم ضبطها على . تضاف طبقة Softmax مباشرة بعد الطبقة الأخيرة. أثناء التدريب، نعتمد مُحسِّن آدم لتحسين النموذج بمعدل تعلم 0.0002 لأول 15 حقبة ثم نخفض معدل التعلم بمقدار 0.1 للـ 15 حقبة المتبقية. نستخدم حجم الدفعة المصغرة 128 في جميع تجاربنا. 4.2 مقارنة مع أحدث التقنيات في هذا القسم، نقوم بالإبلاغ عن النتائج التجريبية للاسترجاع عبر الوسائط بما في ذلك استرجاع الصورة إلى نص (Img2Text) واسترجاع النص إلى صورة (Text2Img) على مجموعات بيانات Flickr8K و Flickr30K و MSCOCO المعيارية. بالنسبة لـ Flickr8K، يتم عرض النتائج التجريبية في الجدول 1. بمقارنة DALTS مع الطريقة الحديثة الحالية لشبكات الذاكرة طويلة المدى متعددة النطاقات الهرمية (HMLSTM) [[13]]، نلاحظ أن نموذجنا يحقق نتائج حديثة جديدة في استرجاع الصور إلى النصوص. ومع ذلك، فإنه يؤدي بشكل أدنى قليلاً من HMLSTM في استرجاع النص إلى صورة. نظرًا لأنه بدلاً من الميزات العالمية التي نستخدمها مع المعلومات الزائدة عن الحاجة، تستخرج HMLSTM ميزات للعبارات داخل الجمل والمناطق البارزة داخل الصور، بالإضافة إلى تضمينها في مساحة أكثر كثافة. الجدول 1. نتائج الاسترجاع ثنائي الاتجاه على طرق Flickr8K Img2Text Text2Img R@1 R@ 5 R@ 10 R@ 1 R@ 5 R@10 DeViSE [[20]] 4.8 16.5 27.3 5.9 20.1 29.6 m - RNN [[25]] 14.5 37.2 48.5 11.5 31.0 42.4 DeepFrag [[10]] 12.6 32.9 44.0 9.7 29.6 42.5 VSE [28]] 22.3 48.7 59.8 14.9 38.3 51.6 NIC [[26]] 20.0 — 61.0 19.0 — 64.0 HMLSTM [[13]] 27.7 — 68.6 24.4 — 68.1 DALTS 30.8 60.9 75.2 23.4 53.6 68.0 تشير القيم الغامقة في الجداول 1–6 إلى أفضل النتائج التجريبية. على Flickr30K، يصبح نموذج المنافس الأفضل أداءً DAN_ vgg [[12]] في كلتا المهمتين، كما هو موضح في الجدول 2. يتفوق DAN_vgg فقط على DALTS في استرجاع الصور إلى نص. أما بالنسبة لاسترجاع النص إلى صورة، فإن DALTS تحقق نتائج جديدة على أحدث طراز. نظرًا لتطبيق آلية الانتباه، فإن دان قادر على التركيز على جوانب معينة من البيانات بالتتابع وتجميع المعلومات الأساسية بمرور الوقت لاستنتاج النتائج. على العكس من ذلك، نستخدم الميزات العالمية لتمثيل كل من الصورة والنص والتي من المحتمل أن تحتوي على معلومات صاخبة أو غير ضرورية. الجدول 2. نتائج الاسترجاع ثنائي الاتجاه على طرق Flickr30K Img2Text Text2Img R@1 R@ 5 R@ 10 R@ 1 R@ 5 R@ 5 R@ 10 DeViSE [[20]] 4.5 18.1 29.2 6.7 21.9 32.7 m - RNN [[25]] 35.4 63.8 73.7 22.8 50.7 63.1 DeepFrag [[10]] 14.2 37.7 51.3 10.2 30.8 44.2 NIC [[26]] 17.0 – 56.0 17.0 – 57.0 DSPE [[16]] 40.3 68.9 79.9 29.7 60.1 72.1 DAN_vgg [[12]] 41.4 73.5 82.5 31.8 61.7 72.5 VSE++ [[7]] 31.9 – 68.0 23.1 – 60.7 HMLSTM [[13]] 38.1 – 76.5 27.7 – 68.8 SMLSTM [9] 42.4 67.9 79.9 57.2 68.4 68.4 68.4 DTS 43.4 81.0 81.0 81.7 كما هو موضح في الجدول 3، يحقق ما يكفي من التدريب في DTS، حوالي 1 ٪ و 2 ٪ على التوالي، مقارنة مع RSPE [[10]. ومع ذلك، فإن أداء DALTS أدنى قليلاً من SMLSTM [[9]]، والذي يستخدم آلية انتباه مماثلة لـ DAN. أما بالنسبة لاسترجاع النص إلى صورة، فإن أداء DALTS أدنى قليلاً من DSPE. قد يكون أحد الأسباب المحتملة هو أن سلسلة LSTM المنظمة من المرجح أن تفوت البنية الهرمية الجوهرية للنصوص وبالتالي تظهر قدرة أضعف على تعلم ميزات النص من متجه فيشر، والذي يتم تعلمه من خلال مجموعة النصوص الخارجية. على وجه الخصوص، أداء DALTS أفضل من MRLA [[14]]، مما يدل على أن خسارة التصنيف الزوجي أكثر ملاءمة للاسترجاع عبر الوسائط بدلاً من خسارة تصنيف الفئة. الجدول 3. نتائج الاسترجاع ثنائية الاتجاه على طرق MSCOCO Img2Text Text2Img R@1 R@ 5 R@ 10 R@ 1 R @ 5 R @ 10 m - RNN [[25]] 41.0 73.0 83.5 29.0 42.2 77.0 VSE [[28]] 43.4 75.7 85.8 31.0 66.7 79.9 DSPE [[16]] 50.1 79.7 89.2 39.6 75.2 86.9 VSE+ [[7]] 43.6 — 84.6 33.7 — 81.0 HMLSTM [[13]] 43.9 — 87.8 36.1 — 86.7 SMLSTM [[9]] 52.4 81.7 90.8 38.8 73.4 84.6 MRLA [[14]] 14.3 40.5 55.8 12.7 39.0 57.2 DALTS 46.2 81.0 90.0 38.1 73.5 86.1 للمقارنة العادلة، تستند نتائج VSE+ [7] في الجداول 2 و 1 محصول الصورة بدون ميزات دقيقة. لاحظ أنه إذا تم استخدام ميزات صورة ResNet المكونة من 10 قطع لتدريب النماذج على الضبط الدقيق، فيمكن تحسين النتائج التجريبية بشكل أكبر. كما هو موضح في الملحق، يوضح الشكل 4 بعض النتائج النوعية للاسترجاع عبر الوسائط على Flickr8K. للتأكيد على كفاءة نموذجنا المقترح، يتم سرد نتائج الاسترجاع لكل استعلام من اليسار إلى اليمين وفقًا لثلاثة أنواع من نموذجنا المقترح، DALTS (VGG + BLSTM)، DALTS (NIC + BLSTM) و DALTS (VGG + NIC + BLSTM). يمكننا ملاحظة أن نتائج الاسترجاع من اليسار إلى اليمين تحصل على تحسن كبير خاصة من DALTS (VGG + BLSTM) إلى DALTS (NIC + BLSTM). علاوة على ذلك، فإن النتائج التي تم استرجاعها بشكل غير صحيح معقولة أيضًا، مقارنة بالحقيقة الأرضية. الشكل 4 مفتوح في عارض الشكل نتائج الاسترجاع عبر الوسائط النوعية لـ PowerPoint على Flickr8K. يسرد العمود الأول استعلامات الصور والنصوص لاسترجاعها. يعرض العمود الثاني إلى العمود الرابع أفضل خمس نتائج تم استردادها لكل استعلام بواسطة نموذجنا المقترح DALTS (VGG + BLSTM) و DALTS (NIC + BLSTM) و DALTS (VGG + NIC + BLSTM) على التوالي. لاسترداد الصورة إلى نص، تتم الإشارة إلى النصوص التي تم استردادها بشكل صحيح لكل استعلام صورة باللون الأحمر. أما بالنسبة لاسترجاع النص إلى صورة، فإن الصورة ذات الخطاف تمثل الصورة التي تم استردادها بشكل صحيح لاستعلام نصي بشكل عام، يحقق DALTS تحسينات واعدة في دقة الاسترجاع عبر الوسائط مقارنة بالطرق الحديثة الحالية، على الرغم من أنه يحتوي على بعض القيود الواضحة. في المستقبل، سنوظف شبكة سي إن إن أقوى (ResNet) للتجارب. وفي الوقت نفسه، سيتم تطبيق آلية الانتباه للحد من التأثير السلبي للمعلومات الزائدة عن الحاجة. 5 مزيد من الدراسة حول DALTS 5.1 أهمية المكونات المختلفة لإثبات تأثير المكونات المختلفة في DALTS، نقوم بالإبلاغ عن نتائج المتغيرات التالية في الجدول 4 : DALTS (VGG + LSTM): في هذا الإعداد، نقوم بإزالة NIC مع الحفاظ على الجزء المتبقي ثابتًا. DALTS (NIC + LSTM): على عكس DALTS (VGG + LSTM)}، نقوم بإزالة VGGNet مع الحفاظ على الجزء المتبقي ثابتًا. DALTS (VGG + NIC + LSTM): الشبكة كما في الشكل 2 أ. DALTS (VGG + NIC + BLSTM): هيكل الشبكة كما هو مذكور أعلاه ولكن يتم استبدال LSTM بـ BLSTM. بالنسبة إلى Flickr8K، نلاحظ أن تغيير مستخرج ميزة الصورة من VGG إلى NIC يحسن الدقة بحوالي 22 ٪ لاسترجاع الصورة إلى نص وحوالي 20 ٪ لاسترجاع النص إلى صورة. يوضح أنه بدلاً من VGG، يمكن لـ NIC التقاط المعلومات التي نحتاجها لاسترجاع الوسائط المتقاطعة بشكل أفضل مثل معلومات التفاعل بين مختلف

Translated Description (French)

CAAI Transactions on Intelligence TechnologyVolume 4, Issue 1 p. 9-16 Article de rechercheOpen Access Learning DALTS for cross-modal retrieval Zheng Yu, Zheng Yu School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, People' s Republic of ChinaRecherche pour plus d'articles par cet auteurWenmin Wang, Corresponding Author Wenmin Wang wangwm@ece.pku.edu.cn School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, People' s Republic of ChinaRecherche pour plus d'articles par cet auteur Zheng Yu, Zheng Yu School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, République populaire de ChineRechercher d'autres articles de cet auteurWenmin Wang, auteur correspondant Wenmin Wang wangwm@ece.pku.edu.cn School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, République populaire de ChineRechercher d'autres articles de cet auteur Première publication : 18 février 2019 https://doi.org/10.1049/trit.2018.1051Citations : 14AboutSectionsPDF ToolsRequest permissionExport citationAdd to favoritesTrack citation ShareShare Give accessShare full text accessShare full-text accessPlease review our Terms and Use and check box below to share full-text version of article.I have read and accept the Wiley Online Library Terms and Conditions of UtilisezLien partageableUtilisez le lien ci-dessous pour partager une version texte intégral de cet article avec vos amis et collègues. En savoir plus.Copy URL Share a linkShare onFacebookTwitterLinkedInRedditWechat Abstract La récupération multimodale a récemment été proposée pour trouver un sous-espace approprié, où la similitude entre différentes modalités telles que l'image et le texte peut être directement mesurée. Dans cette étude, différente de la plupart des travaux existants, les auteurs proposent un nouveau modèle de récupération intermodale basé sur un espace textuel limité adaptatif au domaine (DALTS) plutôt que sur un espace commun ou un espace image. Les résultats expérimentaux sur trois ensembles de données largement utilisés, Flickr8K, Flickr30K et Microsoft Common Objects in Context (MSCOCO), montrent que la méthode proposée, baptisée DALTS, est capable d'apprendre des fonctionnalités d'espace texte supérieures qui peuvent capturer efficacement les informations nécessaires à la récupération intermodale. Pendant ce temps, DALTS réalise des améliorations prometteuses en termes de précision pour la récupération intermodale par rapport aux méthodes actuelles à la pointe de la technologie. 1 Introduction La tâche de récupération intermodale commence à attirer de plus en plus l'attention ces derniers temps. Autrement dit, étant donné une requête d'image (texte), nous visons à rechercher le texte (image) le plus pertinent. Cependant, les données multimédias sont intrinsèquement hétérogènes et il nous est donc difficile de mesurer directement la similitude. Ainsi, le principal défi qui reste à relever dans la récupération intermodale est de savoir comment intégrer des données multimédias hétérogènes dans un espace homogène, afin que leur similitude puisse être mesurée directement. Plus précisément, le défi principal se compose des deux sous-problèmes suivants. Le premier problème est de savoir comment apprendre des fonctionnalités efficaces pour les données multimédias, qui évoluent progressivement des fonctionnalités artisanales aux fonctionnalités profondes. En ce qui concerne l'image, avec le grand succès obtenu par les réseaux de neurones convolutionnels (CNN), Sharif Razavian et al. [[1]] soutiennent qu'un CNN profond pré-entraîné est un extracteur de caractéristiques d'image efficace pour de nombreuses tâches de vision par ordinateur, y compris la récupération intermodale. Cependant, les CNN standard fournissent-ils suffisamment d'informations pour la récupération multimodale ? La plupart des œuvres existantes utilisent des CNN standard tels que VGGNet [[2]] et ResNet [[3]] pour extraire les caractéristiques de l'image. Cependant, ces modèles sont généralement pré-entraînés pour la classification et n'ont donc qu'à prendre en compte les informations de catégorie contenues dans une image. Par conséquent, il est inévitable qu'ils manquent des indices détaillés tels que la façon dont les objets se rapportent les uns aux autres ainsi que leurs attributs et les activités dans lesquelles ils sont impliqués, ce qui peut jouer un rôle indispensable dans la récupération intermodale. Comme le montre la figure 1, étant donné deux images d'entrée différentes, un CNN pré-entraîné ne peut reconnaître que les objets contenus dans chaque image qui sont similaires les uns aux autres tels que « homme », « planche de surf » et « vague ». Cependant, il a tendance à manquer certains indices cruciaux qui sont totalement différents les uns des autres, tels que la façon dont l'homme surfe sur la vague. Avec les grands progrès réalisés récemment dans la tâche de sous-titrage d'images, nous pouvons obtenir des phrases descriptives raisonnables correspondant à une image d'entrée, qui contiennent des noms et des verbes. C'est-à-dire que les modèles de sous-titrage d'image sont capables non seulement de reconnaître les objets de l'image (noms), mais également de préserver des informations de relations riches entre différents objets (verbes). Par conséquent, nous adoptons des modèles de sous-titrage d'images pour compenser les lacunes des fonctionnalités traditionnelles de CNN. Fig. 1Open in figure viewerPowerPoint Illustration of the problem of using pre-trained CNNs to extract image features. De tels modèles de classification extraient des caractéristiques similaires pour deux images avec des interactions différentes entre les objets (« sauter » contre « surfer, pagayer vers »). En ce qui concerne le texte, Word2Vec [[4]], l'allocation de Dirichlet latent (LDA) [[5]] et FV [[6]] sont tous des choix populaires pour la représentation du texte. Cependant, ils sont tous pré-entraînés sur certains corpus spécifiés qui sont totalement différents des ensembles de données adoptés dans la récupération intermodale. En tant que tel, au lieu d'utiliser des modèles standard, nous utilisons le réseau neuronal récurrent (RNN) pour apprendre les caractéristiques du texte à partir de zéro. Compte tenu des fonctionnalités efficaces pour l'image et le texte, le deuxième problème est de trouver un espace homogène. Puisque dans cet article nous nous concentrons uniquement sur la récupération entre l'image et le texte, la récupération intermodale peut être réalisée par un espace commun [[7]–[18]], un espace texte [[19]–[21]] ou un espace image [[22]]. Compte tenu de la façon dont les gens effectuent la récupération intermodale, différentes modalités sont traitées de manière asymétrique dans le cerveau. Il fait référence à l'écart sémantique bien connu [[23]] reflétant le fait que les caractéristiques textuelles sont plus proches de la compréhension humaine (et du langage) que les caractéristiques basées sur les pixels [[19]]. Par conséquent, les caractéristiques textuelles fournissent des informations plus précises que les caractéristiques à base de pixels pendant la récupération. De plus, il est plus facile pour le cerveau de comprendre le texte que l'image, car le langage de la nature est le résultat d'une abstraction de haut niveau du contenu de l'image. En conséquence, nous proposons un réseau d'intégration de fonctionnalités pour explorer la possibilité d'effectuer une récupération intermodale dans un espace texte. L'espace texte est très discriminant. Si un classificateur linéaire est formé après l'espace texte pour prédire si un vecteur provient d'une image ou d'une phrase, nous pouvons atteindre une précision proche de 100 %. C'est-à-dire que nous pouvons insérer un hyperplan dans l'espace texte pour séparer presque parfaitement les images et les phrases. Cette propriété va à l'encontre de l'objectif initial de trouver un espace homogène. Ainsi, puisque l'espace image source et l'espace texte cible peuvent être considérés comme deux domaines différents, nous proposons un classificateur de domaine pour minimiser davantage la diversité entre les caractéristiques de différentes modalités, similaire à l'idée d'adaptation de domaine dans [[24]]. C'est-à-dire que le classificateur de domaine essaie de discriminer la différence entre le domaine source (l'espace image d'origine) et le domaine cible (l'espace texte) pendant l'entraînement, tandis que le réseau d'intégration de fonctionnalités essaie d'apprendre les fonctionnalités invariantes du domaine et de confondre le classificateur de domaine. Par conséquent, une perte contradictoire supplémentaire sera rétropropagée au réseau d'intégration de fonctionnalités afin de guider le réseau pour apprendre les fonctionnalités de l'espace texte invariant dans le domaine pour l'image et le texte. L'espace texte est essentiellement un espace vectoriel couvrant un ensemble de vecteurs de base qui sont également connus sous le nom de différents caractères chinois ou mots anglais. Pour le chinois, il n'y a pas de chiffres exacts pour les caractères chinois, ce qui est proche de 100 000. Pendant ce temps, l'émergence d'énormes nouveaux mots chaque année fait que la taille de l'espace texte continue de croître. En plus du chinois, un phénomène similaire est apparu dans d'autres langues telles que l'anglais. Selon des statistiques incomplètes, le nombre de mots anglais a dépassé 1 000 000, et il continue de croître par milliers chaque année. Par conséquent, le langage naturel est intrinsèquement divergent. Il est presque impossible d'apprendre un espace texte complet et illimité. Cependant, dans la plupart des cas, les gens n'ont besoin de se souvenir que de certains des caractères chinois et des mots anglais couramment utilisés pour répondre à leurs besoins quotidiens. Par exemple, de nombreux linguistes anglais affirment qu'environ 3 650 mots anglais couramment utilisés peuvent accomplir plus de 95 % des tâches d'expression d'idées et de communication. Le « Dictionnaire national du chinois moderne » publié par le Conseil national de l'éducation en novembre 1987 propose que le nombre de mots couramment utilisés en chinois moderne soit de 2500, ce qui représente plus de 99% de l'utilisation quotidienne du chinois. Par conséquent, cet article assure la convergence de l'algorithme proposé en apprenant un espace textuel limité (LTS) avec un vocabulaire fixe. La capacité du LTS à comprendre est affectée par la taille du vocabulaire. Plus le vocabulaire est grand, plus la capacité de compréhension est forte. Augmenter aveuglément le nombre de mots n'améliorera pas les performances de récupération, mais augmentera la complexité de l'algorithme dans le temps et l'espace. Nos contributions de base sont résumées comme suit : Nous proposons un nouveau modèle LTS adaptatif au domaine (DALTS) pour effectuer une récupération multimodale humaine dans un DALTS, qui peut mieux imiter le comportement humain. De plus, nous donnons une brève explication sur le LTS. Contrairement aux fonctionnalités pré-entraînées couramment utilisées pour l'image et le texte, DALTS est capable d'apprendre des fonctionnalités spécifiques à une tâche. Pour minimiser davantage la diversité entre le domaine source (l'espace image d'origine) et le domaine cible (le LTS), l'idée d'adaptation du domaine est appliquée au modèle pour apprendre un DALTS. Le reste de cet article est organisé comme suit. Nous passons en revue les travaux connexes pour la récupération intermodale dans la section 2. Ensuite, dans la section 3, nous proposons notre propre modèle et le décrivons en détail. Pour souligner l'efficacité de DALTS, les sections 4 et 5 montrent des expériences approfondies sur trois ensembles de données de référence. Enfin, nous résumons ce document dans la section 6. 2 Travaux connexes 2.1 Apprentissage des fonctionnalités multimodales Pour la récupération multimodale, la plupart des œuvres existantes utilisent directement des fonctionnalités standard pour représenter des images [[8], [11], [14]–[17]]. Cependant, les caractéristiques pré-entraînées sont susceptibles de laisser de côté certaines informations cruciales qui peuvent être la clé de la récupération intermodale. Récemment, les modèles de sous-titrage d'images [[25]–[28]] peuvent être utilisés pour apprendre des fonctionnalités spécifiques à une tâche afin de fournir plus d'informations utiles à la récupération intermodale. Étant donné une image d'entrée, avant de la décoder en une phrase descriptive, les modèles de sous-titrage d'image tentent d'abord de mapper l'image dans un espace texte. Ainsi, la fonction d'espace de texte pour une image contient non seulement des informations de catégorie, mais également des informations de relation riches entre différents objets. En règle générale, les RNN multimodaux (m-RNN) [[25]], les légendes d'images neuronales (NIC) [[26]], les alignements visuels-sémantiques profonds [[27]] et les intégrations visuelles-sémantiques unifiantes (VSE) [[28]] sont toutes des méthodes représentatives pour le sous-titrage d'images. En ce qui concerne le texte, de même, les méthodes typiques telles que Word2Vec [[4]], LDA [[5]] et FV [[6]] sont toutes pré-entraînées sur certains corpus spécifiés qui sont totalement différents des ensembles de données de référence dans la récupération intermodale. Récemment, avec les grands progrès de la traduction automatique [[29]], RNN s'est avéré être un outil plus puissant pour la modélisation du langage qui peut être formé à partir de zéro et donc plus adapté à la récupération multimodale. 2.2 Apprentissage de l'espace homogène L'approche dominante tente d'apprendre un espace commun par des transformations affines à la fois du côté de l'image et du côté du texte. En règle générale, l'analyse de corrélation canonique [[15]] tente d'apprendre un espace commun en maximisant les corrélations entre les caractéristiques pertinentes de l'image et du texte. Karpathy et al. [[10]] décomposent l'image et le texte en fragments et les intègrent dans un espace multimodal commun qui utilise des alignements à grain fin entre l'image et le texte. Niu et al. [[13]] abordent le problème de l'ESV dense qui cartographie non seulement des phrases complètes et des images entières, mais aussi des phrases dans des phrases et des régions saillantes dans des images dans un espace d'intégration multimodal. Wang et al. [[16]] proposent des plongements profonds préservant la structure (DSPE) pour l'image et le texte qui étend la perte de classement par paires pour modéliser la relation intra-modale et adopte un schéma d'échantillon de données compliqué. Nam et al. [[12]] proposent des réseaux d'attention doubles (DAN) qui exploitent conjointement les mécanismes d'attention visuels et textuels pour capturer l'interaction fine entre l'image et le texte. En plus d'un espace commun, dans le modèle DeViSE développé par Frome et al. [[20]], un espace texte est formé par un modèle Word2Vec pré-entraîné. Le vecteur d'espace texte d'une image est obtenu par une combinaison convexe des vecteurs d'incorporation de mots des étiquettes visuelles prédites comme étant les plus pertinentes pour l'image. Cependant, les étiquettes visuelles ne reflètent que les objets contenus dans une image, mais ignorent la façon dont ces objets se rapportent les uns aux autres ainsi que leurs attributs et les activités dans lesquelles ils sont impliqués. Ainsi, l'espace Word2Vec n'est pas un espace texte efficace pour la récupération intermodale. Récemment, un espace d'intégration visuelle de distribution fourni par Word2VisualVec [[22]] s'est avéré être un espace efficace pour effectuer une récupération intermodale en intégrant le texte dans un espace d'image. 2.3 Adaptation du domaine En l'absence de données étiquetées pour une certaine tâche, l'adaptation du domaine offre souvent une option attrayante étant donné que des données étiquetées de nature similaire mais provenant d'un domaine différent sont disponibles. Ganin et Lempitsky [[24]] proposent une nouvelle approche de l'adaptation de domaine dans des architectures profondes qui peuvent apprendre des caractéristiques discriminantes pour la tâche d'apprentissage principale sur le domaine source et invariantes par rapport au décalage entre les domaines, ce qui peut être réalisé par un classificateur de domaine et une simple couche d'inversion de gradient. Inspiré par Goodfellow dans Generative Adversarial Nets [[30]], il existe une stratégie de formation contradictoire alternative plutôt que d'utiliser la couche d'inversion de gradient. Récemment, Park et Im [[14]] ont essayé d'apprendre un espace commun pour la récupération intermodale basée sur l'adaptation du domaine et ont obtenu des résultats expérimentaux compétitifs. 3 Méthode proposée Le cadre général de DALTS est illustré dans la Fig. 2a, qui contient un réseau d'extraction de caractéristiques, un réseau d'intégration de caractéristiques et un classificateur de domaine. Fig. 2Ouvrir dans la visionneuse de figuresVue d'ensemble PowerPoint de DALTS. La fonction de perte globale contient la perte de classement par paires traditionnelle (les lignes bleues en pointillés) et la perte contradictoire supplémentaire (les lignes brunes en pointillés) un cadre général de DALTS, qui contient un réseau d'extraction de caractéristiques, un réseau d'intégration de caractéristiques et un classificateur de domaine b Illustration détaillée du réseau d'intégration de caractéristiques c Illustration détaillée du classificateur de domaine 3.1 Extraction de caractéristiques Représentation d'image : Le réseau d'extraction de caractéristiques d'image se compose de deux branches : VGGNet qui est pré-entraîné pour la classification d'image et NIC [[26]] qui est pré-entraîné pour le sous-titrage d'image. Comme mentionné précédemment, VGGNet a tendance à capturer des informations riches sur les catégories, mais laisse de côté certains indices détaillés pour la récupération intermodale. Inversement, NIC a l'avantage inné d'extraire des informations de relations riches entre différents objets contenus dans une image. Ils sont donc parfaitement complémentaires les uns des autres pour la récupération intermodale. En conséquence, nous visons à concevoir le réseau pour l'extraction de caractéristiques d'image comme une combinaison de ces deux modèles distincts. Comme le montre la Fig. 3a, les cases bleues et vertes en pointillés représentent NIC et VGGNet, respectivement, qui sont pré-entraînés sur le sous-titrage d'image et la tâche de classification d'image. Compte tenu d'une image d'entrée, une passe avant du VGGNet pré-entraîné produit une caractéristique de dimension 4096. En ce qui concerne la carte réseau, afin d'éviter la perte d'informations lors du décodage, nous considérons la sortie à 512 dimensions de la couche d'intégration d'image comme la caractéristique de l'image. Enfin, nous désignons une caractéristique de dimension 4608 comme caractéristique de l'image d'entrée, qui est la concaténation de et . Dans la pratique, nous avons essayé une étape supplémentaire pour affiner les paramètres de la carte réseau, mais aucun gain significatif n'a été observé, nous avons donc décidé de les laisser fixes. Fig. 3Ouvrir dans la visionneuse de figuresPowerPoint Illustration détaillée du réseau d'extraction de caractéristiques a Extraction de caractéristiques d'image b Extraction de caractéristiques de texte Représentation de texte : Nous utilisons des réseaux de mémoire à long terme (LSTM) pour apprendre les caractéristiques de texte en d dimensions comme le montre la Fig. 3 b. Ici, d est également désigné comme la dimensionnalité du LTS. Soit un texte d'entrée de longueur , où l'on représente chaque mot comme un vecteur one-hot de dimension égale à la taille du dictionnaire. Notez que nous désignons par comme un mot de fin spécial qui désigne la fin du texte. Avant d'être introduit dans le LSTM, doit être intégré dans un espace plus dense (1) où se trouve une matrice d'intégration de mots. Ensuite, nous introduisons les vecteurs dans LSTM, qui prennent la forme (2) où désignent l'entrée, l'oubli, la sortie, la cellule de mémoire et l'état caché du LSTM au pas de temps t, respectivement. Ici, est le mot d'entrée au pas de temps t et est l'état caché du LSTM au dernier pas de temps. désigne la fonction sigmoïde et indique la multiplication par élément. W, U et b représentent les paramètres entraînables de LSTM. Ainsi, la caractéristique pour S peut être obtenue à partir de l'état caché du LSTM au moment , c'est-à-dire, . 3.2 Classificateur de domaine Nous adoptons le concept de [[14], [24]]. Au lieu d'utiliser la couche d'inversion de gradient, nous préconisons la stratégie de formation contradictoire en concevant un classificateur de domaine. Plus précisément, le classificateur de domaine est un simple réseau neuronal à action anticipée qui comporte trois couches entièrement connectées, comme le montre la figure 2c. Compte tenu des caractéristiques de l'image et du texte dans le LTS, le classificateur de domaine tente de prédire l'étiquette du domaine pour chaque entrée, par exemple, pour les caractéristiques de l'image et pour les caractéristiques du texte. Pendant la formation, nous minimisons la perte d'entropie croisée pour une meilleure discrimination de domaine avec les paramètres (3) où et représentent la caractéristique d'entrée et son étiquette de domaine correspondante, respectivement. La fonction de mappage est capable de prédire l'étiquette du domaine en fonction d'une fonctionnalité d'entrée. 3.3 Intégration de fonctionnalités Le réseau d'intégration de fonctionnalités vise à apprendre un LTS avec des paramètres . Comme le montre la figure 2b, nous concevons deux fonctions de mappage pour transformer et pour d-dimensionner les caractéristiques de l'espace texte et , respectivement, désignées par et . Similaires à et , et sont également complémentaires les uns aux autres. Par conséquent, nous ajoutons une couche de fusion sur le dessus pour combiner les deux caractéristiques par sommation. L'ensemble du processus peut être défini comme (4) où sont les fonctionnalités LTS pour une image d'entrée. Notez que la procédure d'extraction de fonctionnalité de texte à partir de zéro par LSTM équivaut à intégrer du texte dans un LTS. Par conséquent, implique les paramètres de LSTM. Après avoir intégré l'image et le texte dans un LTS, l'étape suivante consiste à comparer leurs similitudes. Nous définissons une fonction de notation, où v et t représentent respectivement les caractéristiques de l'image et du texte. Pour rendre s équivalent à la similitude du cosinus, v et t sont d'abord mis à l'échelle pour avoir la norme unitaire par la couche. Ensuite, deux types de fonctions de perte sont exploités pour former le réseau d'intégration : la perte de classement par paire et la perte contradictoire. La perte de classement par paire est largement adoptée pour la récupération intermodale. Notons tous les paramètres à apprendre. Nous optimisons la perte de classement par paires suivante : (5) où est un texte négatif pour une image v donnée et est une image négative pour un texte donné. Pour obtenir les termes non correspondants, nous les choisissons au hasard dans l'ensemble d'entraînement et rééchantillonnons chaque époque. Pendant ce temps, la perte contradictoire sera rétropropagée simultanément au réseau d'intégration de fonctionnalités. Étant donné que le réseau d'intégration de fonctionnalités tente de maximiser afin d'apprendre les fonctionnalités invariantes dans le domaine, les objectifs d'optimisation de ces deux fonctions de perte sont opposés. Par conséquent, la fonction de perte globale pour le réseau d'intégration de caractéristiques peut être définie comme (6) où est un facteur d'adaptation variant de 0 à 1 afin de supprimer le signal bruité du classificateur de domaine aux premières étapes de la procédure d'entraînement. Suivant Ganin et Lempitsky [[24]], nous mettons à jour par l'équation suivante : (7) où p est la fraction de l'étape actuelle dans les étapes d'entraînement maximales. 3.4 Procédure de formation La procédure de formation peut être divisée en cinq étapes. Nous désignons les paramètres du classificateur de domaine et du réseau d'intégration de fonctionnalités comme et , respectivement. Étape 1 : Au cours de la première étape de formation, nous pré-entraînons la carte réseau sur le sous-titrage d'images à l'aide des ensembles de données de référence dans la récupération multimodale tels que Flickr30K et Microsoft Common Objects in Context (MSCOCO). Une fois la formation terminée, nous pouvons apprendre des fonctionnalités d'image efficaces. Étape 2 : Après avoir extrait les fonctionnalités de toutes les images, nous commençons l'étape 2 pour apprendre un LTS. Compte tenu de la fonction de perte L pour le réseau d'intégration de fonctionnalités, nous corrigeons et essayons de mettre à jour par la règle suivante : (8) où est le taux d'apprentissage. Étape 3 : Après l'étape 2, nous commençons l'étape 3 pour améliorer la capacité discriminante du classificateur de domaine. Compte tenu de la fonction de perte pour le classificateur de domaine, nous corrigeons et essayons de mettre à jour par la règle suivante : (9) où est le taux d'apprentissage. Étape 4 : Pour chaque lot de formation, répétez les étapes 2 et 3 jusqu'à ce que DALTS converge. Étape 5 : Nous pouvons affiner davantage les paramètres de la carte réseau. 4 Expériences Dans cette section, nous effectuons des expériences approfondies sur les ensembles de données Flickr8K [[31]], Flickr30K [[32]] et MSCOCO [[33]] à la suite des divisions des ensembles de données dans [[10]]. L'évaluation est effectuée à l'aide de Recall@K (avec K = 1, 5, 10), qui calcule le nombre moyen d'images (textes) pour lesquelles les textes corrects (images) sont classés dans le top-K des résultats récupérés. 4.1 Détails de mise en œuvre Pour l'extraction de caractéristiques d'image, nous préparons d'abord la carte réseau à la tâche de sous-titrage d'image à l'aide de Flickr30K et MSCOCO et fixons les paramètres de la carte réseau et de VGGNet pendant toute la procédure de formation. Dans la pratique, nous avons essayé une étape supplémentaire pour affiner les paramètres de la carte réseau, mais aucun gain significatif n'a été observé, nous avons donc décidé de les laisser fixes. Plus précisément, nous redimensionnons d'abord l'image, puis utilisons un seul recadrage central de taille pour calculer la fonction d'image VGG à 1 recadrage. Pour l'extraction de caractéristiques de texte, nous avons défini la dimensionnalité du LTS sur 1024. Pendant ce temps, la dimensionnalité de l'intégration de mots est également définie sur 1024. Le réseau d'intégration de fonctionnalités contient deux fonctions, et . Car , est une matrice et est une matrice. Parmi les différentes couches, l'unité linéaire rectifiée (ReLU) est adoptée pour être la fonction d'activation et une couche de décrochage est ajoutée juste après ReLU avec une probabilité = 0,5 afin de réduire le surajustement. Car , est une matrice. La marge est fixée à 0,3 dans toutes nos expériences. Pour accélérer la formation et rendre les mises à jour de gradient plus stables, nous appliquons la normalisation des lots juste après chaque fonction de mappage. Nous utilisons un réseau neuronal feed-forward à trois couches activé par ReLU pour le classificateur de domaine. Les dimensions de sortie des couches intermédiaires et sont définies sur . La couche Softmax est ajoutée juste après la dernière couche . Pendant la formation, nous adoptons Adam Optimizer pour optimiser le modèle avec un taux d'apprentissage de 0,0002 pour les 15 premières époques, puis nous diminuons le taux d'apprentissage de 0,1 pour les 15 époques restantes. Nous utilisons une taille de mini-lot de 128 dans toutes nos expériences. 4.2 Comparaison avec l'état de l'art Dans cette section, nous rapportons des résultats expérimentaux pour la récupération intermodale, y compris la récupération image-texte (Img2Text) et la récupération texte-image (Text2Img) sur les ensembles de données de référence Flickr8K, Flickr30K et MSCOCO. Pour Flickr8K, les résultats expérimentaux sont présentés dans le tableau 1. En comparant DALTS avec la méthode de pointe actuelle Hiérarchical Multiscale Long Short Term Memory Networks (HMLSTM) [[13]], nous observons que notre modèle atteint de nouveaux résultats de pointe sur la récupération image-texte. Cependant, ses performances sont légèrement inférieures à celles de HMLSTM sur la récupération texte-image. Puisque, au lieu des fonctionnalités globales que nous utilisons avec des informations redondantes massives, HMLSTM extrait les fonctionnalités pour les phrases dans les phrases et les régions saillantes dans les images, et les intègre dans un espace plus dense. Tableau 1. Résultats de récupération bidirectionnelle sur les méthodes Flickr8K Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 DeViSE [[20]] 4,8 16,5 27,3 5,9 20,1 29,6 m-RNN [[25]] 14,5 37,2 48,5 11,5 31,0 42,4 DeepFrag [[10]] 12,6 32,9 44,0 9,7 29,6 42,5 VSE [[28]] 22,3 48,7 59,8 14,9 38,3 51,6 NIC [[26]] 20,0 — 61,0 19,0 — 64,0 HMLSTM [[13]] 27,7 — 68,6 24,4 — 68,1 DALTS 30,8 60,9 75,2 23,4 53,6 68,0 Les valeurs en gras dans les tableaux 1 à 6 indiquent les meilleurs résultats expérimentaux. Sur Flickr30K, le modèle concurrent le plus performant devient DAN_ vgg [[12]] sur les deux tâches, comme le montre le tableau 2. Seul DAN_vgg surpasse DALTS sur la récupération image-texte. En ce qui concerne la récupération texte-image, DALTS obtient de nouveaux résultats à la pointe de la technologie. Grâce à l'application du mécanisme d'attention, DAN est en mesure de se concentrer sur certains aspects des données de manière séquentielle et d'agréger les informations essentielles au fil du temps pour déduire les résultats. Au contraire, nous utilisons des fonctionnalités globales pour représenter à la fois l'image et le texte qui sont susceptibles de contenir des informations bruyantes ou inutiles. Tableau 2. Résultats de la récupération bidirectionnelle sur Flickr30K Méthodes Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 DeViSE [[20]] 4.5 18.1 29.2 6.7 21.9 32.7 m-RNN [[25]] 35.4 63.8 73.7 22.8 50.7 63.1 DeepFrag [[10]] 14.2 37.7 51.3 10.2 30.8 44.2 NIC [[26]] 17.0 – 56.0 17.0 – 57.0 DSPE [[16]] 40.3 68.9 79.9 29.7 60.1 72.1 DAN_vgg [[12]] 41.4 73.5 82.5 31.8 61.7 72.5 VSE++ [[7]] 31.9 – 68.0 23.1 – 60.7 HMLSTM [[13]] 38.1 – 76.5 27.7 – 68.8 smLSTM [[9]] 42.4 67.5 79.9 28.2 57.0 68.4 DALTS 43.0 68.4 81.0 30.7 61.9 73.6 Comme indiqué dans le tableau 3, avec suffisamment de données, DALTS atteint environ 1 et 2% d'amélioration de R@5 et R@10, respectivement, sur l'image-texte, la récupération par rapport à DSPE. Cependant, les performances de DALTS sont légèrement inférieures à celles de smLSTM [[9]], qui utilise un mécanisme d'attention similaire à DAN. En ce qui concerne la récupération texte-image, les performances de DALTS sont légèrement inférieures à celles de DSPE. Une raison possible peut être que la chaîne LSTM structurée est susceptible de manquer la structure hiérarchique intrinsèque des textes et montre donc une capacité plus faible à apprendre les caractéristiques du texte que le vecteur de Fisher, qui est appris par des corpus de texte externes. En particulier, DALTS est plus performant que MRLA [[14]], ce qui montre que la perte de classement par paires est plus adaptée à la récupération multimodale plutôt qu'à la perte de classification par catégorie. Tableau 3. Résultats de récupération bidirectionnelle sur les méthodes MSCOCO Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 m-RNN [[25]] 41,0 73,0 83,5 29,0 42,2 77,0 VSE [[28]] 43,4 75,7 85,8 31,0 66,7 79,9 DSPE [[16]] 50,1 79,7 89,2 39,6 75,2 86,9 VSE++ [[[7]] 43,6 — 84,6 33,7 — 81,0 HMLSTM [[13]] 43,9 — 87,8 36,1 — 86,7 smLSTM [[9]] 52,4 81,7 90,8 38,6 73,4 84,6 MRLA [[14]] 14,3 40,5 55,8 12,7 39,0 57,2 DALTS 46,2 81,0 90,0 38,1 73,5 86,1 Pour une comparaison équitable, les résultats de VSE++ [[7]] dans les tableaux 2 et 3 sont basés sur des caractéristiques d'image 1-crop VGG sans réglage fin. Notez que si les caractéristiques de l'image ResNet 10-crops sont utilisées pour entraîner les modèles avec un réglage fin, les résultats expérimentaux pourraient être encore améliorés. Comme le montre l'annexe, la figure 4 montre quelques résultats qualitatifs pour la récupération intermodale sur Flickr8K. Pour souligner l'efficacité de notre modèle proposé, les résultats de récupération pour chaque requête sont répertoriés de gauche à droite selon trois variantes de notre modèle proposé, DALTS (VGG + BLSTM), DALTS (NIC + BLSTM) et DALTS (VGG + NIC + BLSTM). Nous pouvons observer que les résultats de récupération de gauche à droite obtiennent une amélioration significative notamment de DALTS (VGG + BLSTM) à DALTS (NIC + BLSTM). En outre, les résultats incorrectement récupérés sont également raisonnables, par rapport à la vérité de base. Fig. 4Ouvrir dans la visionneuse de figuresRésultats de récupération multimodale qualitative PowerPoint sur Flickr8K. La première colonne répertorie les requêtes d'image et de texte à récupérer. La deuxième colonne à la quatrième colonne montre les cinq premiers résultats récupérés pour chaque requête par notre modèle proposé DALTS (VGG + BLSTM), DALTS (NIC + BLSTM) et DALTS (VGG + NIC + BLSTM) respectivement. Pour la récupération d'image en texte, les textes correctement récupérés pour chaque requête d'image sont indiqués en rouge. En ce qui concerne la récupération texte-image, l'image avec un crochet représente l'image correctement récupérée pour une requête texte. En général, DALTS apporte des améliorations prometteuses en termes de précision pour la récupération intermodale par rapport aux méthodes actuelles de l'état de l'art, bien qu'elle présente des limites évidentes. À l'avenir, nous emploierons un CNN plus fort (ResNet) pour les expériences. Pendant ce temps, un mécanisme d'attention sera appliqué pour réduire l'impact négatif des informations redondantes. 5 Étude plus approfondie sur DALTS 5.1 Importance des différents composants Pour démontrer l'impact des différents composants dans DALTS, nous rapportons les résultats pour les variantes suivantes dans le tableau 4 : DALTS (VGG + LSTM) : Dans ce paramètre, nous supprimons la carte réseau tout en conservant la partie restante fixe. DALTS (NIC + LSTM) : Contrairement à DALTS (VGG + LSTM)}, nous supprimons VGGNet tout en conservant la partie restante fixe. DALTS (VGG + NIC + LSTM) : Réseau comme sur la Fig. 2a. DALTS (VGG + NIC + BLSTM) : La structure du réseau est comme ci-dessus mais LSTM est remplacé par BLSTM. Pour Flickr8K, nous observons que le changement de l'extracteur de caractéristiques d'image de VGG à NIC améliore la précision d'environ 22 % pour la récupération image-texte et d'environ 20 % pour la récupération texte-image. Cela démontre que, plutôt que VGG, NIC peut mieux capturer les informations dont nous avons besoin pour la récupération intermodale, telles que les informations d'interaction entre différents

Translated Description (Spanish)

CAAI Transactions on Intelligence Technology Volumen 4, Número 1 pág. 9-16 Artículo de investigaciónOpen Access Learning DALTS for cross-modal retrieval Zheng Yu, Zheng Yu School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, People 's Republic of ChinaBuscar más artículos de este autorWenmin Wang, Corresponding Author Wenmin Wang wangwm@ece.pku.edu.cn School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, People' s Republic of ChinaBuscar más artículos de este autor Zheng Yu, Zheng Yu School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen, República Popular de ChinaBuscar más artículos de este autorWenmin Wang, autor correspondiente Wenmin Wang wangwm@ece.pku.edu.cn Escuela de Ingeniería Electrónica e Informática, Escuela de Posgrado de Shenzhen, Universidad de Pekín, Shenzhen, República Popular de ChinaBuscar más artículos de este autor Primera publicación: 18 de febrero de 2019 https://doi.org/10.1049/trit.2018.1051Citations: 14AboutSectionsPDF ToolsSolicitar permisoExport citationAñadir a favoritosTrack citation ShareShare Dar accesoCompartir acceso de texto completoCompartir acceso de texto completoRevise nuestros Términos y condiciones de uso y marque la casilla a continuación para compartir la versión de texto completo del artículo.He leído y acepto los Términos y condiciones de la biblioteca en línea de Wiley UseEnlace CompartibleUtilice el siguiente enlace para compartir una versión de texto completo de este artículo con sus amigos y colegas. Más información. Copiar URL Compartir un enlaceCompartir enFacebookTwitterLinkedInRedditWechat Abstract La recuperación intermodal se ha propuesto recientemente para encontrar un subespacio apropiado, donde se pueda medir directamente la similitud entre diferentes modalidades, como la imagen y el texto. En este estudio, a diferencia de la mayoría de los trabajos existentes, los autores proponen un modelo novedoso para la recuperación intermodal basado en un espacio de texto limitado adaptativo al dominio (DALTS) en lugar de un espacio común o un espacio de imagen. Los resultados experimentales en tres conjuntos de datos ampliamente utilizados, Flickr8K, Flickr30K y Microsoft Common Objects in Context (MSCOCO), muestran que el método propuesto, denominado DALTS, es capaz de aprender características superiores del espacio de texto que pueden capturar eficazmente la información necesaria para la recuperación intermodal. Mientras tanto, DALTS logra mejoras prometedoras en la precisión de la recuperación intermodal en comparación con los métodos actuales de última generación. 1 Introducción La tarea de recuperación intermodal está comenzando a atraer cada vez más atención recientemente. Es decir, dada una consulta de imagen (texto), pretendemos buscar el texto (imagen) más relevante. Sin embargo, los datos multimedia son intrínsecamente heterogéneos y, por lo tanto, nos resulta difícil medir la similitud directamente. Por lo tanto, el principal desafío que queda en la recuperación intermodal es cómo incrustar datos multimedia heterogéneos en un espacio homogéneo, de modo que su similitud se pueda medir directamente. Más específicamente, el principal desafío consiste en los siguientes dos subproblemas. El primer problema es cómo aprender funciones eficientes para datos multimedia, que evolucionan gradualmente de funciones hechas a mano a funciones profundas. En cuanto a la imagen, con el gran éxito logrado por las redes neuronales convolucionales (CNN), Sharif Razavian et al. [[1]] argumentan que una CNN profunda preentrenada es un extractor de características de imagen efectivo para muchas tareas de visión por computadora, incluida la recuperación multimodal. Sin embargo, ¿las CNN disponibles en el mercado proporcionan suficiente información para la recuperación intermodal? La mayoría de las obras existentes emplean CNN estándar como VGGNet [[2]] y ResNet [[3]] para extraer características de imágenes. Sin embargo, estos modelos suelen estar preentrenados para la clasificación y, por lo tanto, solo necesitan considerar la información de la categoría contenida en una imagen. Por lo tanto, es inevitable que pierdan pistas detalladas, como la forma en que los objetos se relacionan entre sí, así como sus atributos y las actividades en las que participan, lo que puede desempeñar un papel indispensable en la recuperación intermodal. Como se muestra en la Fig. 1, dadas dos imágenes de entrada diferentes, una CNN previamente entrenada solo puede reconocer los objetos contenidos en cada imagen que son similares entre sí, como "hombre", "tabla de surf" y "ola". Sin embargo, tiende a pasar por alto algunas señales cruciales que son totalmente diferentes entre sí, como la forma en que el hombre surfea la ola. Con el gran progreso logrado en la tarea de subtitulado de imágenes recientemente, podemos obtener oraciones descriptivas sensatas correspondientes a una imagen de entrada, que contienen sustantivos y verbos. Es decir, los modelos de subtitulado de imágenes no solo pueden reconocer los objetos de la imagen (sustantivos), sino que también conservan una rica información de relación entre diferentes objetos (verbos). Por lo tanto, adoptamos modelos de subtitulado de imágenes para compensar las deficiencias de las funciones tradicionales de CNN. Fig. 1Abrir en el visor de figurasIlustración de PowerPoint del problema de usar CNN preentrenadas para extraer características de la imagen. Dichos modelos de clasificación extraen características similares para dos imágenes con diferentes interacciones entre objetos ("saltar" frente a "navegar, remar hacia"). En cuanto al texto, Word2Vec [[4]], la asignación de Dirichlet latente (LDA) [[5]] y FV [[6]] son opciones populares para la representación de texto. Sin embargo, todos están pre-entrenados en algunos corpus específicos que son totalmente diferentes de los conjuntos de datos adoptados en la recuperación intermodal. Como tal, en lugar de utilizar modelos estándar, empleamos redes neuronales recurrentes (RNN) para aprender las características del texto desde cero. Dadas las características eficientes para la imagen y el texto, el segundo problema es cómo encontrar un espacio homogéneo. Dado que en este trabajo solo nos centramos en la recuperación entre imagen y texto, la recuperación intermodal se puede lograr mediante un espacio común [[7]–[18]], un espacio de texto [[19]–[21]] o un espacio de imagen [[22]]. Teniendo en cuenta la forma en que las personas realizan la recuperación intermodal, las diferentes modalidades se procesan asimétricamente en el cerebro. Se refiere a la conocida brecha semántica [[23]] que refleja el hecho de que las características textuales están más cerca de la comprensión humana (y del lenguaje) que las características basadas en píxeles [[19]]. Por lo tanto, las características textuales proporcionan información más precisa que las características basadas en píxeles durante la recuperación. Además, es más sencillo para los cerebros entender el texto que la imagen porque el lenguaje de la naturaleza es el resultado de la abstracción de alto nivel del contenido de la imagen. En consecuencia, proponemos una red de incrustación de características para explorar la posibilidad de realizar la recuperación intermodal en un espacio de texto. El espacio de texto es muy discriminatorio. Si un clasificador lineal se entrena después del espacio de texto para predecir si un vector proviene de una imagen o de una oración, podemos lograr una precisión cercana al 100%. Es decir, podemos colocar un hiperplano en el espacio del texto para separar casi perfectamente las imágenes y las oraciones. Esta propiedad infringe el objetivo original de encontrar un espacio homogéneo. Por lo tanto, dado que el espacio de imagen de origen y el espacio de texto de destino pueden considerarse como dos dominios diferentes, proponemos un clasificador de dominio para minimizar aún más la diversidad entre las características de diferentes modalidades, similar a la idea de adaptación de dominio en [[24]]. Es decir, el clasificador de dominio intenta discriminar la diferencia entre el dominio de origen (el espacio de imagen original) y el dominio de destino (el espacio de texto) durante el entrenamiento, mientras que la red de incrustación de características intenta aprender características de dominio invariante y confundir al clasificador de dominio. Por lo tanto, una pérdida adversarial adicional se propagará de nuevo a la red de incrustación de características para guiar a la red a aprender las características del espacio de texto invariante en el dominio para la imagen y el texto. El espacio de texto es esencialmente un espacio vectorial que abarca un conjunto de vectores base que también se conocen como diferentes caracteres chinos o palabras en inglés. Para el chino, no hay números exactos para los caracteres chinos, que son cerca de 100.000. Mientras tanto, la aparición de enormes palabras nuevas cada año hace que el tamaño del espacio de texto siga creciendo. Además del chino, ha aparecido un fenómeno similar en otros idiomas como el inglés. Según estadísticas incompletas, el número de palabras en inglés ha superado el millón y sigue creciendo en miles cada año. Por lo tanto, el lenguaje natural es inherentemente divergente. Es casi imposible aprender un espacio de texto completo e ilimitado. Sin embargo, en la mayoría de los casos, las personas solo necesitan recordar algunos de los caracteres chinos y palabras en inglés de uso común para satisfacer sus necesidades diarias. Por ejemplo, muchos lingüistas ingleses argumentan que alrededor de 3650 palabras en inglés de uso común pueden realizar más del 95% de las tareas de expresión de ideas y comunicación. El 'Diccionario Nacional de Chino Moderno' publicado por la Junta Nacional de Educación en noviembre de 1987 propone que el número de palabras de uso común en el chino moderno es de 2500, lo que representa más del 99% del uso diario del chino. Por lo tanto, este trabajo asegura la convergencia del algoritmo propuesto al aprender un espacio de texto limitado (LTS) con un vocabulario fijo. La capacidad de comprensión del LTS se ve afectada por el tamaño del vocabulario. Cuanto mayor sea el vocabulario, mayor será la capacidad de comprensión. Aumentar el número de palabras a ciegas no mejorará el rendimiento de recuperación, sino que aumentará la complejidad del algoritmo en tiempo y espacio. Nuestras contribuciones principales se resumen de la siguiente manera: Proponemos un nuevo modelo de LTS adaptativo al dominio (DALTS) para realizar la recuperación intermodal de forma humana en un DALTS, que puede imitar mejor el comportamiento humano. Además, damos una breve explicación sobre el LTS. En contraste con las características preentrenadas comúnmente utilizadas tanto para imagen como para texto, DALTS puede aprender características específicas de la tarea. Para minimizar aún más la diversidad entre el dominio de origen (el espacio de imagen original) y el dominio de destino (el LTS), se aplica la idea de adaptación de dominio al modelo para aprender un DALTS. El resto de este trabajo se organiza de la siguiente manera. Revisamos el trabajo relacionado para la recuperación intermodal en la Sección 2. Luego, en la Sección 3, proponemos nuestro propio modelo y lo describimos en detalle. Para enfatizar la efectividad de DALTS, las secciones 4 y 5 muestran experimentos extensos en tres conjuntos de datos de referencia. Finalmente, hacemos un resumen de este documento en la Sección 6. 2 Trabajo relacionado 2.1 Aprendizaje de funciones multimodales Para la recuperación multimodal, la mayoría de las obras existentes utilizan directamente funciones estándar para representar imágenes [[8], [11], [14]–[17]]. Sin embargo, es probable que las funciones preentrenadas omitan alguna información crucial que puede ser la clave para la recuperación intermodal. Recientemente, los modelos de subtitulado de imágenes [[25]–[28]] se pueden utilizar para aprender características específicas de la tarea para proporcionar más información que sea útil para la recuperación intermodal. Dada una imagen de entrada, antes de decodificarla en una oración descriptiva, los modelos de subtitulado de imágenes primero intentan asignar la imagen a un espacio de texto. Por lo tanto, la función de espacio de texto para una imagen contiene no solo información de categoría, sino también información de relación enriquecida entre diferentes objetos. Por lo general, las RNN multimodales (m-RNN) [[25]], los subtítulos de imágenes neuronales (NIC) [[26]], las alineaciones semánticas visuales profundas [[27]] y las incrustaciones semánticas visuales unificadoras (VSE) [[28]] son métodos representativos para los subtítulos de imágenes. En cuanto al texto, de manera similar, los métodos típicos como Word2Vec [[4]], LDA [[5]] y FV [[6]] están preentrenados en algunos corpus específicos que son totalmente diferentes de los conjuntos de datos de referencia en la recuperación intermodal. Recientemente, con el gran progreso en la traducción automática [[29]], se ha descubierto que RNN es una herramienta más poderosa para el modelado del lenguaje que se puede entrenar desde cero y, por lo tanto, es más adecuada para la recuperación intermodal. 2.2 Aprendizaje del espacio homogéneo El enfoque convencional trata de aprender un espacio común mediante transformaciones afines tanto en la imagen como en el texto. Por lo general, el análisis de correlación canónica [[15]] trata de aprender un espacio común maximizando las correlaciones entre las características relevantes de la imagen y el texto. Karpathy et al. [[10]] descomponen tanto la imagen como el texto en fragmentos y los incrustan en un espacio multimodal común que utiliza alineaciones de grano fino entre la imagen y el texto. Niu et al. [[13]] abordan el problema de la VSE densa que mapea no solo oraciones completas e imágenes completas, sino también frases dentro de oraciones y regiones salientes dentro de imágenes en un espacio de incrustación multimodal. Wang et al. [[16]] proponen incrustaciones profundas de preservación de la estructura (DSPE) para la imagen y el texto que extienden la pérdida de clasificación por pares para modelar la relación intramodal y adoptan un esquema de muestra de datos complicado. Nam et al. [[12]] proponen redes de atención dual (DAN) que aprovechan conjuntamente los mecanismos de atención visual y textual para capturar la interacción de grano fino entre la imagen y el texto. Además de un espacio común, en el modelo DeViSE desarrollado por Frome et al. [[20]], un espacio de texto está formado por un modelo Word2Vec previamente entrenado. El vector de espacio de texto de una imagen se obtiene mediante una combinación convexa de los vectores de incrustación de palabras de las etiquetas visuales que se prevé que sean las más relevantes para la imagen. Sin embargo, las etiquetas visuales solo reflejan los objetos contenidos en una imagen, pero ignoran cómo estos objetos se relacionan entre sí, así como sus atributos y las actividades en las que participan. Por lo tanto, el espacio Word2Vec no es un espacio de texto efectivo para la recuperación intermodal. Recientemente, se ha descubierto que un espacio de incrustación visual distribucional proporcionado por Word2VisualVec [[22]] es un espacio efectivo para realizar la recuperación intermodal al incrustar el texto en un espacio de imagen. 2.3 Adaptación del dominio En ausencia de datos etiquetados para una determinada tarea, la adaptación del dominio a menudo proporciona una opción atractiva dado que se dispone de datos etiquetados de naturaleza similar pero de un dominio diferente. Ganin y Lempitsky [[24]] proponen un nuevo enfoque para la adaptación de dominios en arquitecturas profundas que pueden aprender características que son discriminatorias para la tarea de aprendizaje principal en el dominio de origen e invariantes con respecto al cambio entre los dominios, lo que se puede lograr mediante un clasificador de dominio y una simple capa de inversión de gradiente. Inspirado por Goodfellow en Generative Adversarial Nets [[30]], existe una estrategia de entrenamiento adversarial alternativa en lugar de usar la capa de reversión de gradiente. Recientemente, Park e Im [[14]] intentan aprender un espacio común para la recuperación intermodal basada en la adaptación del dominio y han logrado resultados experimentales competitivos. 3 Método propuesto El marco general de DALTS se muestra en la Fig. 2a, que contiene una red de extracción de características, una red de incrustación de características y un clasificador de dominio. Fig. 2Abrir en el visor de figurasVisión general de PowerPoint de DALTS. La función de pérdida general contiene la pérdida de clasificación por pares tradicional (las líneas discontinuas azules) y la pérdida adversaria adicional (las líneas discontinuas marrones) un marco general de DALTS, que contiene una red de extracción de características, una red de incrustación de características y un clasificador de dominio b Ilustración detallada de la red de incrustación de características c Ilustración detallada del clasificador de dominio 3.1 Extracción de características Representación de la imagen: La red para la extracción de características de imágenes consta de dos ramas: VGGNet que está preentrenada para la clasificación de imágenes y NIC [[26]] que está preentrenada para el subtitulado de imágenes. Como se mencionó anteriormente, VGGNet tiende a capturar información rica en categorías, pero omite algunas señales detalladas para la recuperación intermodal. Por el contrario, NIC tiene la ventaja innata de extraer información rica en relaciones entre los diferentes objetos contenidos en una imagen. Por lo tanto, son perfectamente complementarios entre sí para la recuperación intermodal. En consecuencia, nuestro objetivo es diseñar la red para la extracción de características de imagen como una combinación de estos dos modelos separados. Como se muestra en la Fig. 3a, los cuadros discontinuos azules y verdes representan NIC y VGGNet, respectivamente, que están pre-entrenados en la tarea de subtitulado de imágenes y clasificación de imágenes. Dada una imagen de entrada, un pase hacia adelante de la VGGNet preentrenada produce una característica de dimensión 4096. En cuanto a la NIC, para evitar la pérdida de información durante la decodificación, consideramos la salida de 512 dimensiones de la capa de incrustación de imágenes como la característica de la imagen. Finalmente, denotamos una característica de dimensión 4608 como la característica para la imagen de entrada, que es la concatenación de y . En la práctica, hemos intentado un paso más para afinar los parámetros de NIC, pero no se observaron ganancias significativas, por lo que decidimos dejarlos fijos. Fig. 3Abrir en el visor de figurasPowerPoint Ilustración detallada de la red de extracción de características a Extracción de características de imagen b Extracción de características de texto Representación de texto: Empleamos redes de memoria a largo plazo (LSTM) para aprender características de texto d-dimensionales como se muestra en la Fig. 3 b. Aquí, d también se denota como la dimensionalidad del LTS. Sea un texto de entrada con longitud , donde representamos cada palabra como un vector de un solo punto de dimensión igual al tamaño del diccionario. Tenga en cuenta que denotamos por como una palabra final especial que designa el final del texto. Antes de introducirlo en el LSTM, debe incrustarse en un espacio más denso (1) donde haya una matriz de incrustación de palabras. Luego alimentamos los vectores en LSTM, que toman la forma (2) donde denotan la entrada, el olvido, la salida, la celda de memoria y el estado oculto del LSTM en el paso de tiempo t, respectivamente. Aquí, es la palabra de entrada en el paso de tiempo t y es el estado oculto del LSTM en el último paso de tiempo. denota la función sigmoidea e indica la multiplicación por elementos. W, U y b representan los parámetros entrenables de LSTM. Por lo tanto, la característica para S se puede obtener a partir del estado oculto del LSTM en el tiempo , es decir, . 3.2 Clasificador de dominio Adoptamos el concepto de [[14], [24]]. En lugar de utilizar la capa de inversión de gradiente, abogamos por la estrategia de entrenamiento adversarial mediante el diseño de un clasificador de dominio. Específicamente, el clasificador de dominio es una red neuronal de alimentación directa simple que tiene tres capas completamente conectadas como se muestra en la Fig. 2c. Dadas las características de imagen y texto en el LTS, el clasificador de dominio intenta predecir la etiqueta de dominio para cada entrada, por ejemplo, para las características de imagen y para las características de texto. Durante el entrenamiento, minimizamos la pérdida de entropía cruzada para una mejor discriminación de dominio con los parámetros (3) donde y representan la característica de entrada y su etiqueta de dominio correspondiente, respectivamente. La función de mapeo es capaz de predecir la etiqueta de dominio dada una función de entrada. 3.3 Incorporación de funciones La red de incorporación de funciones tiene como objetivo aprender un LTS con parámetros . Como se muestra en la Fig. 2b, diseñamos dos funciones de mapeo para transformar y para d -dimensionar las características del espacio de texto y , respectivamente, denotadas como y . Similar a y , y también son complementarios entre sí. Por lo tanto, añadimos una capa de fusión en la parte superior para combinar las dos características por suma. Todo el proceso se puede definir como (4) donde están las características LTS para una imagen de entrada. Tenga en cuenta que el procedimiento de extracción de características de texto desde cero por LSTM es equivalente a incrustar texto en un LTS. Por lo tanto, involucra los parámetros de LSTM. Después de incrustar la imagen y el texto en un LTS, el siguiente paso es comparar sus similitudes. Definimos una función de puntuación, donde v y t representan características de imagen y texto, respectivamente. Para hacer que s sea equivalente a la similitud del coseno, v y t se escalan primero para tener una norma unitaria por la capa. Luego, se explotan dos tipos de funciones de pérdida para entrenar la red de incrustación: pérdida de clasificación por pares y pérdida adversaria. La pérdida de clasificación por pares se adopta ampliamente para la recuperación intermodal. Dejar denotar todos los parámetros a aprender. Optimizamos la siguiente pérdida de clasificación por pares: (5) donde es un texto negativo para una imagen dada v y es una imagen negativa para un texto dado. Para obtener los términos no coincidentes, los elegimos aleatoriamente del conjunto de entrenamiento y volvemos a muestrear cada época. Mientras tanto, la pérdida adversarial se propagará de nuevo a la red de incrustación de funciones simultáneamente. Dado que la red de incrustación de características intenta maximizar para aprender características invariantes de dominio, los objetivos de optimización de estas dos funciones de pérdida son opuestos. Por lo tanto, la función de pérdida general para la red de incrustación de características se puede definir como (6) donde es un factor de adaptación que varía de 0 a 1 para suprimir la señal ruidosa del clasificador de dominio en las primeras etapas del procedimiento de entrenamiento. Siguiendo Ganin y Lempitsky [[24]], actualizamos mediante la siguiente ecuación: (7) donde p es la fracción del paso actual en los pasos de entrenamiento máximos. 3.4 Procedimiento de capacitación El procedimiento de capacitación se puede dividir en cinco etapas. Denotamos los parámetros del clasificador de dominio y la red de incrustación de características como y , respectivamente. Etapa 1: Durante la primera etapa de capacitación, capacitamos previamente a NIC sobre subtítulos de imágenes utilizando los conjuntos de datos de referencia en la recuperación multimodal, como Flickr30K y Microsoft Common Objects in Context (MSCOCO). Después de completar la capacitación, podemos aprender funciones de imagen eficientes. Etapa 2: Después de extraer las características de todas las imágenes, comenzamos la etapa 2 para aprender un LTS. Dada la función de pérdida L para la red de incrustación de características, corregimos e intentamos actualizar mediante la siguiente regla: (8) donde es la tasa de aprendizaje. Etapa 3: Después de la etapa 2, comenzamos la etapa 3 para mejorar la capacidad de discriminación del clasificador de dominio. Dada la función de pérdida para el clasificador de dominio, corregimos e intentamos actualizar mediante la siguiente regla: (9) donde es la tasa de aprendizaje. Etapa 4: Para cada lote de entrenamiento, repita la etapa 2 y la etapa 3 hasta que converja DALTS. Etapa 5: Podemos afinar aún más los parámetros de NIC. 4 Experimentos En esta sección, realizamos experimentos exhaustivos en conjuntos de datos de Flickr8K [[31]], Flickr30K [[32]] y MSCOCO [[33]] después de las divisiones del conjunto de datos en [[10]]. La evaluación se realiza utilizando Recall@K (con K = 1, 5, 10), que calcula el número medio de imágenes (textos) para las cuales los textos correctos (imágenes) se clasifican dentro de los mejores resultados recuperados. 4.1 Detalles de implementación Para la extracción de características de imagen, primero pre-entrenamos NIC en la tarea de subtitulado de imágenes utilizando Flickr30K y MSCOCO y fijamos los parámetros de NIC y VGGNet durante todo el procedimiento de capacitación. En la práctica, hemos intentado un paso más para afinar los parámetros de NIC, pero no se observaron ganancias significativas, por lo que decidimos dejarlos fijos. Más específicamente, primero cambiamos la escala de la imagen a , y luego usamos un solo centro de recorte de tamaño para calcular la función de imagen VGG de 1 recorte. Para la extracción de características de texto, establecemos la dimensionalidad del LTS en 1024. Mientras tanto, la dimensionalidad de la incrustación de palabras también se establece en 1024. La red de incrustación de funciones contiene dos funciones, y . Porque , es una matriz y es una matriz. Entre varias capas, se adopta la Unidad Lineal Rectificada (ReLU) como la función de activación y se agrega una capa de abandono justo después de ReLU con probabilidad = 0.5 para reducir el sobreajuste. Porque , es una matriz. El margen se establece en 0,3 en todos nuestros experimentos. Para acelerar el entrenamiento y también hacer que las actualizaciones de gradiente sean más estables, aplicamos la normalización por lotes justo después de cada función de mapeo. Empleamos una red neuronal feed-forward de tres capas activada por ReLU para el clasificador de dominio. Las dimensiones de salida de las capas intermedias y se establecen en . La capa Softmax se añade justo después de la última capa . Durante el entrenamiento, adoptamos Adam Optimiser para optimizar el modelo con una tasa de aprendizaje de 0.0002 para las primeras 15 épocas y luego disminuimos la tasa de aprendizaje en 0.1 para las 15 épocas restantes. Utilizamos un tamaño de mini lote de 128 en todos nuestros experimentos. 4.2 Comparación con el estado de la técnica En esta sección, informamos los resultados experimentales para la recuperación multimodal, incluida la recuperación de imagen a texto (Img2Text) y la recuperación de texto a imagen (Text2Img) en los conjuntos de datos de referencia Flickr8K, Flickr30K y MSCOCO. Para Flickr8K, los resultados experimentales se presentan en la Tabla 1. Al comparar DALTS con el método actual de vanguardia Hierarchical Multiscale Long Term Memory Networks (HMLSTM) [[13]], observamos que nuestro modelo logra nuevos resultados de vanguardia en la recuperación de imágenes a texto. Sin embargo, funciona ligeramente inferior a HMLSTM en la recuperación de texto a imagen. Dado que, en lugar de las funciones globales que utilizamos con información redundante masiva, HMLSTM extrae funciones para frases dentro de oraciones y regiones salientes dentro de imágenes, y las incrusta en un espacio más denso. Tabla 1. Resultados de recuperación bidireccional en Flickr8K Methods Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 DeViSE [[20]] 4.8 16.5 27.3 5.9 20.1 29.6 m-RNN [[25]] 14.5 37.2 48.5 11.5 31.0 42.4 DeepFrag [[10]] 12.6 32.9 44.0 9.7 29.6 42.5 VSE [[28]] 22.3 48.7 59.8 14.9 38.3 51.6 NIC [[26]] 20.0 — 61.0 19.0 — 64.0 HMLSTM [[13]] 27.7 — 68.6 24.4 — 68.1 DALTS 30.8 60.9 75.2 23.4 53.6 68.0 Los valores en negrita en las Tablas 1–6 denotan los mejores resultados experimentales. En Flickr30K, el modelo de la competencia con mejor rendimiento se convierte en DAN_ vgg [[12]] en ambas tareas, como se muestra en la Tabla 2. Solo DAN_vgg supera a DALTS en la recuperación de imagen a texto. En cuanto a la recuperación de texto a imagen, DALTS logra nuevos resultados de vanguardia. Debido a la aplicación del mecanismo de atención, DAN puede centrarse en ciertos aspectos de los datos secuencialmente y agregar información esencial a lo largo del tiempo para inferir los resultados. Por el contrario, utilizamos funciones globales para representar tanto imágenes como textos que probablemente contengan información ruidosa o innecesaria. Tabla 2. Resultados de recuperación bidireccional en Flickr30K Methods Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 DeViSE [[20]] 4.5 18.1 29.2 6.7 21.9 32.7 m-RNN [[25]] 35.4 63.8 73.7 22.8 50.7 63.1 DeepFrag [[10]] 14.2 37.7 51.3 10.2 30.8 44.2 NIC [[26]] 17.0 – 56.0 17.0 – 57.0 DSPE [[16]] 40.3 68.9 79.9 29.7 60.1 72.1 DAN_vgg [[12]] 41.4 73.5 82.5 31.8 61.7 72.5 VSE++ [[7]] 31.9 – 68.0 23.1 – 60.7 HMLSTM [[13]] 38.1 – 76.5 27.7 – 68.8 smLSTM [[9]] 42.4 67.5 79.9 28.2 57.0 68.4 DALTS 43.0 68.4 81.0 30.7 61.9 73.6 Como se muestra en la Tabla 3, con suficiente capacitación, DALTS logra aproximadamente 1 y 2% de mejora en R@5 y R@10, respectivamente, en recuperación de imagen a texto, en comparación con DSPE. Sin embargo, DALTS funciona ligeramente inferior a smLSTM [[9]], que utiliza un mecanismo de atención similar a DAN. En cuanto a la recuperación de texto a imagen, DALTS funciona ligeramente inferior a DSPE. Una posible razón puede ser que es probable que el LSTM estructurado en cadena pase por alto la estructura jerárquica intrínseca de los textos y, por lo tanto, muestre una capacidad más débil para aprender las características del texto que el vector de Fisher, que se aprende mediante corpus de texto externos. En particular, DALTS funciona mejor que MRLA [[14]], lo que muestra que la pérdida de clasificación por pares es más adecuada para la recuperación intermodal en lugar de la pérdida de clasificación por categorías. Tabla 3. Resultados de recuperación bidireccional en MSCOCO Methods Img2Text Text2Img R@1 R@5 R@10 R@1 R@5 R@10 m-RNN [[25]] 41.0 73.0 83.5 29.0 42.2 77.0 VSE [[28]] 43.4 75.7 85.8 31.0 66.7 79.9 DSPE [[16]] 50.1 79.7 89.2 39.6 75.2 86.9 VSE++ [[7]] 43.6 — 84.6 33.7 — 81.0 HMLSTM [[13]] 43.9 — 87.8 36.1 — 86.7 smLSTM [[9]] 52.4 81.7 90.8 38.6 73.4 84.6 MRLA [[14]] 14.3 40.5 55.8 12.7 39.0 57.2 DALTS 46.2 81.0 90.0 38.1 73.5 86.1 Para una comparación justa, los resultados de VSE++ [[7]] en las Tablas 2 y 3 se basan en características de imagen VGG de 1 cultivo sin ajuste fino. Tenga en cuenta que si se utilizan características de imagen ResNet de 10 cultivos para entrenar los modelos con ajuste fino, los resultados experimentales podrían mejorarse aún más. Como se muestra en el Apéndice, la Fig. 4 muestra algunos resultados cualitativos para la recuperación intermodal en Flickr8K. Para enfatizar la eficiencia de nuestro modelo propuesto, los resultados de recuperación para cada consulta se enumeran de izquierda a derecha de acuerdo con tres variantes de nuestro modelo propuesto, DALTS (VGG + BLSTM), DALTS (NIC + BLSTM) y DALTS (VGG + NIC + BLSTM). Podemos observar que los resultados de recuperación de izquierda a derecha obtienen una mejora significativa, especialmente de DALTS (VGG + BLSTM) a DALTS (NIC + BLSTM). Además, los resultados recuperados incorrectamente también son razonables, en comparación con la verdad fundamental. Fig. 4Abrir en el visor de figurasResultados de la recuperación intermodal cualitativa de PowerPoint en Flickr8K. La primera columna enumera las consultas de imagen y texto para su recuperación. La segunda columna a la cuarta columna muestra los cinco primeros resultados recuperados para cada consulta por nuestro modelo propuesto DALTS (VGG + BLSTM), DALTS (NIC + BLSTM) y DALTS (VGG + NIC + BLSTM) respectivamente. Para la recuperación de imagen a texto, los textos recuperados correctamente para cada consulta de imagen se indican en rojo. En cuanto a la recuperación de texto a imagen, la imagen con un gancho representa la imagen recuperada correctamente para una consulta de texto. En general, DALTS logra mejoras prometedoras en la precisión de la recuperación intermodal en comparación con los métodos actuales del estado de la técnica, aunque tiene algunas limitaciones obvias. En el futuro, emplearemos una CNN (ResNet) más fuerte para los experimentos. Mientras tanto, se aplicará un mecanismo de atención para reducir el impacto negativo de la información redundante. 5 Estudio adicional sobre DALTS 5.1 Importancia de los diferentes componentes Para demostrar el impacto de los diferentes componentes en DALTS, informamos los resultados para las siguientes variantes en la Tabla 4 : DALTS (VGG + LSTM): En este entorno, eliminamos la NIC mientras mantenemos la parte restante fija. DALTS (NIC + LSTM): A diferencia de DALTS (VGG + LSTM)}, eliminamos VGGNet mientras mantenemos la parte restante fija. DALTS (VGG + NIC + LSTM): Red como en la Fig. 2a. DALTS (VGG + NIC + BLSTM): la estructura de la red es la anterior, pero LSTM se reemplaza por BLSTM. Para Flickr8K, observamos que cambiar el extractor de características de imagen de VGG a NIC mejora la precisión en aproximadamente un 22% para la recuperación de imagen a texto y aproximadamente un 20% para la recuperación de texto a imagen. Demuestra que, en lugar de VGG, NIC puede capturar mejor la información que necesitamos para la recuperación intermodal, como la información de interacción entre diferentes

Additional details

Translated title (Arabic): تعلم DALTS للاسترجاع عبرالوسائط
Translated title (French): Apprentissage des DALTS pour la récupération inter ‐modale
Translated title (Spanish): Aprendizaje de DALTS parala recuperación intermodal

Other: https://openalex.org/W2907581460
DOI: 10.1049/trit.2018.1051

Is Global South Knowledge: Yes
Country: China

https://openalex.org/W1778065289
https://openalex.org/W1861492603
https://openalex.org/W1895577753
https://openalex.org/W1905882502
https://openalex.org/W1916445035
https://openalex.org/W1949478088
https://openalex.org/W2062118960
https://openalex.org/W2130660124
https://openalex.org/W2185175083
https://openalex.org/W2194775991
https://openalex.org/W2552579943
https://openalex.org/W2617617722
https://openalex.org/W2740783736
https://openalex.org/W2778940641
https://openalex.org/W2963389687
https://openalex.org/W4237791300
https://openalex.org/W68733909

	All versions	This version
Views	1	1
Downloads	0	0
Data volume	0 Bytes	0 Bytes

Learning DALTS for cross‐modal retrieval

Translated Descriptions

Translated Description (Arabic)

Translated Description (French)

Translated Description (Spanish)

Additional details

Additional titles

Identifiers

Related works

GreSIS Basics Section

References

Learning DALTS for cross‐modal retrieval

Creators

Description

Translated Descriptions

Translated Description (Arabic)

Translated Description (French)

Translated Description (Spanish)

Additional details

Additional titles

Identifiers

Related works

GreSIS Basics Section

References