ICML-ViLT Vision-and-Language Transformer Without Convolution or Region Sup ...

104

收藏 2025-07-27

ViLT: Vision-and-Language Transformer
            Without Convolution or Region Supervision

                  Wonjae Kim * 1  Bokyung Son * 1 Ildoo Kim 2

         Abstract                                  Visual Embedding Schema
                                 Region Feature                CNN       Region
Vision-and-Language Pre-training (VLP) has im-       (ViLBERT, UNITER, ...)
                                                Image
                           ...

附件列表

ICML-ViLT Vision-and-Language Transformer Without Convolution or Region Supervision.pdf

大小:6.04 MB

只需: RMB 9 元马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群