ICML-Unifying Vision-and-Language Tasks via Text Generation

收藏 2025-07-27

Unifying Vision-and-Language Tasks via Text Generation

               Jaemin Cho 1 Jie Lei Hao Tan Mohit Bansal
                     UNC Chapel Hill
            {jmincho,jielei,haotan,mbansal}@cs.unc.edu

         Abstract
Existing methods for vision-and-language learn-
ing typically require designing task-specific ar-
chitectures and objectives for each task. For ex-
ample, a multi-label answer classifier for visual
question answering, a region scorer for ref ...

附件列表

ICML-Unifying Vision-and-Language Tasks via Text Generation.pdf

大小:4.1 MB

只需: RMB 9 元马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群