๐ Vision-centric Improvement / Region-based VLMs / Hallucination
◽️ Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
- ๊ธฐ๋ณธ MAE, ResNet ๊ฐ์ ๋ ผ๋ฌธ๊ณผ๋ ๋ค๋ฅธ Structure. ๋ด๊ฐ ํ๊ณ ์ถ์ ์ด์ผ๊ธฐ๋ฅผ ํ๋ ๊ฒ ๋ง์์ ๋ ๋ค. ์ญ์ Saining.
- Motive1: CLIP image encoder๋ ์ด๋ฏธ์ง ์ดํดํ๋ ๋ฅ๋ ฅ ๊ตฌ๋ฆฌ๋ค. CLIP์ผ๋ก ๋ฝ์ image feature์๋ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ์ดํดํ ์ ๋ณด๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด, ๋๋น ๋ค๋ฆฌ๊ฐ ์๋์ง, ์ฐจ์ ๋ฌธ์ด ์ด๋ ค์๋์ง ๋ซํ์๋์ง, CLIP์ ๋ชจ๋ฅธ๋ค. ๊ทธ๋์ CLIP์ฌ์ฉํ๋ VLM ์ฑ๋ฅ ๋ํ ๊ตฌ๋ฆฌ๋ค.
- Section2: DINO๊ฐ CLIP๋ณด๋ค "์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผ ๋ค๋ฅธ ์ด๋ฏธ์ง๋ก ์ธ์งํ๋ ๋ฅ๋ ฅ" ์ด ๋ ์ข๋ค. ๋ฐ๋๋ก, CLIP์ "๋ฌธ์ด ๋ซํ ์ฐจ, ๋ฌธ์ด ์ด๋ฆฐ ์ฐจ ์ด๋ฏธ์ง๋ฅผ ๊ฑฐ์ ๊ฐ์ feature space๋ก ์๋ฒ ๋ฉ ํ๋ค" // DINOv2์์ 0.6์ดํ, CLIP์์ 0.95์ด์ similarity๋ฅผ ๊ฐ์ง๋ pairs๋ฅผ ์ฐพ๋๋ค. → 150๊ฐ์ pair์ human annotating + VQA ๋ง๋ค๊ธฐ → SOTA MLLMs (multimodal LLM) ํ๊ฐ → ๊ฒฐ๋ก : Current MLLMs struggle with visual details.
- Section3: GPT-4์๊ฒ MLLMs๊ฐ ๊ตฌ๋ณํ๊ธฐ ํ๋ค์ดํ๋ Visual pattern ์ฐพ๊ธฐ → Visual pattern์ ๋ฐ๋ฅธ CLIP-based ๋ชจ๋ธ ํ๊ฐํด๋ณด๊ธฐ ํ๊ฐ๋ฐฉ๋ฒ Figure5 ๊ฒฐ๊ณผTable1 → CLIP์ด ๋ชปํ๋๊ฒ์ด LLaVA, InstructBLIP๋ ์ ๋ชปํ๋๋ผ
- Section4: DINO๋ CLIP์ด๋ ๊ฐ์ด ์จ์ VML ๋๋ ค๋ณด์. ๊ทผ๋ฐ ๊ทธ๋ฅ Naiveํ๊ฒ ๋๋ฆฌ๋ฉด ์๋๋ค. // 4.2 Additive MoF (Figure7 2๋ฒ์งธ), ์ฑ๋ฅ Table2: ์ ํ๊ฐ์์๋ ์ฑ๋ฅ ์ค๋ฅด์ง๋ง, LLaVA์ ๊ธฐ๋ณธ ์ฑ๋ฅ์ ๋จ์ดํธ๋ฆฐ๋ค. → Figure 7 3๋ฒ์งธ ๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก visual token์ ๊ต์ฐจํด์ ๋ฃ์ด์ฃผ๋ฉด ์ฑ๋ฅ ์ข์์ง๋ค.
◽️ GLaMM: Pixel Grounding Large Multimodal Model. arXiv. 2024.
- ๊ธฐ์กด LLM ๋ ผ๋ฌธ๋ค์ 1) ์ค์ง text output๋ง์ ๋ด๋๊ฑฐ๋, 2) grounding (text-based masking) ์ด ์๋๊ฑฐ๋ 3) single object๋ง grounding ๊ฐ๋ฅํ๋์ง (LISA) 4) Conversation์ ๋ถ๊ฐ๋ฅํ๋ค๋์ง ์ ํ๊ณ์ ์ ๊ฐ์ก๋ค. ๋ practicalํ ๊ธฐ์ ๋ก GroundingLMM (GLaMM)์ ์ ์ํ๋ค.
- ์ด๋ฐ ๋ชจ๋ธ์ด ์ํํ ์ ์๋ Task๋ Grounded converstaion generation์ด๋ค. ์ด๋ Figure1์ ํตํด ํ์ธ ๊ฐ๋ฅํ๋ค.
- ์ Task๋ฅผ ์ํ ๋ฐ์ดํฐ์ ์ ์๊ฐํ๋ค. 1) automated pipeline์ผ๋ก ์์ฑ๋ Grounding-anything dataset, 2) ๊ธฐ์กด CV dataset์ conversationํ ์ํจ ๋ฐ์ดํฐ์
- ๋ฐฉ๋ฒ๋ก ์ Figure2์ ๊ฐ๋ค. ๋ฐฉ๋ฒ๋ก ์ ๋ํ ์ผ๊ณผ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฒด์ ์ด ๋ด์ฉ์ ํ์ํ ๋ ๋ ผ๋ฌธ ์ ์ฒด๋ฅผ ํตํด ํ์ธํด๋ณธ๋ค.
- ์ ์ฒด pretraining๊ณผ finetuning์ ์ํด์ 8 NVIDIA A100-40GB GPUs๊ฐ ์ฌ์ฉ๋๋ค๊ณ ํ๋ค.
๐ Dense, Long, Detailed caption / Caption evaluation
◽️ DCI: Densely Captioned Images: A Picture is Worth More Than 77 Text Tokens. Evaluating CLIP-Style Models on Dense Captions Meta CVPR 24
- ์ ๋ขฐํ ๋งํ ํ๊ฐ ๋ฐ์ดํฐ์ ์ด ์๋ค. ๊ทธ๋์ DCI ๋ผ๋ ๋ฐ์ดํฐ์ ์๊ฐํ๋ค. ์ด๊ฑฐ๋ฅผ ๊ฐ์ง๊ณ ์ด๋ป๊ฒ VLM์ ํ๊ฐํ๋์ง ์ค๋ช ํ๋ค. ์ฒซ๋ฒ์งธ๋ negative pair maching (ํ๋ฆฐ ์บก์ ์ ๋ฉ๊ฒ)์ด๊ณ , ๋์จฐ๋ subcrop-caption matching (ํ ์ด๋ฏธ์ง์ ์ฌ๋ฌ ์์ญ์ ๋ํด์๋ฉด ๋ฉ์นญ ์ฑ๋ฅ ์ ์)์ด๋ค.
- DCI๋ long human annptated. LLM summary (77 tokens ์ด๋ด), LLM negative ๋ฅผ ์ ๊ณตํ๋ค. DAC(densely aligned captions)๋ ๊ธฐ๊ณ๋ก ๋ง๋ค์ด์ง dence caption์ด ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค, ๋ผ๊ณ ํ๋ค. DCI๋ human annotators๋ฅผ ์ฌ์ฉํ๋ฉด ๋ ์ข๋ค๋ ๊ฒ์ ๋ณด์๋ค.
- Github link. (1) SAM์ ํ๋์ tar๋ง ์ง์ ๋ฐ์ผ๋ฉด ๋๊ณ , (2) GT๋ ์ํค๋๋ฐ๋ก ๋ค์ด๋ฐ์ผ๋ฉด, complete์ summaries ํฌํจํ ๊ฐ๋ค์ด ์ ์ฅ๋์ด ์์. (3) ๊ธฐ์กด ์ฌ๋๋ค์ด ๋ง๋ค์ด ๋์ DenseCaptionedDataset ์ด ํ์ผ ์ ๊ทน ์ด์ฉ ํ๊ธฐ.
- ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ: (1) canny edge๋ก ํฌ์ธํธ ์ฐพ์ (2) ํฌ์ธํธ์ ๋ํ sub-masks๋ฅผ SAM์ผ๋ก ์ป๊ธฐ (3) ์ ์ฒด ์ด๋ฏธ์ง ๋ฐ sub-mask์ ๋ํ captions์ ๋์ฃผ๊ณ ์ฌ๋์๊ฒ ๋ง๊น
- Summary ๋ง๋ค๊ธฐ: LLaMA-2-70B๋ฅผ ์จ์ ์์ฝํด๋ฌ๋ผ๊ณ ํจ. (์ฝ๋ gen_summaries.py) ๋จธ์ ์ผ์ผ๋ ๋
ธ์ด์ฆ ์์ ์ ์์. ํ์ง๋ง negative sample๋ ๋ง๋ค์์ผ๋๊น, CLIP ํ์ต์ ๊ด์ฐฎ์๊ฑฐ์ ์ด๋ผ ์ฃผ์ฅ.
- ์๋ ์ด๋ฏธ์ง ํ ์ด๋ธ์ ์์์ 4๋ฒ์งธ ํ์ฒ๋ผ, sub-mask์ ๋ํ summarized caption ์กด์ฌํจ. (ํ์ง๋ง ์ด ์บก์ ์ ์ด๊ฑด ์ด๋ฏธ์ง์์ ๊ด๊ณ๊ฐ ์์ ๋์ด ์์ ๊ฐ๋ฅ์ฑ๋ ์์. ์ด๋ฌ๋ฉด ์ข์ ๋ฐ์ดํฐ์ ์ ์๋์ ์์)
- CLIP๋ชจ๋ธ์ summary-DCI (8K)๋ก Lora-finetuningํ๊ณ summary-DCI test set์์ ํ๊ฐํ์๋ ์ฑ๋ฅ: Negative loss๋ ๊ฐ์ด CLIPํ์ตํ๋ฉด 8,000์ฅ๋ง ์ฌ์ฉํด๋ ์ฑ๋ฅ ๋ง์ด ์ฌ๋ผ๊ฐ. (๋จ, DAC ๋ผ๋ ๋ ผ๋ฌธ์ machine-generated captions 3M๋ฅผ ์ฌ์ฉํ๊ฒ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์)
◽️ Graph-Based Captioning- Enhancing Visual Descriptions by Interconnecting Region Captions. Apple, arxiv24.
- CLIP์ฑ๋ฅ์ ๋ํ๊ธฐ ์ํด (1) ํํฐ๋ง [17, 22, 53] (2) ์บก์
์ฌ์์ฑ [14, 16, 35, 45] ์ ์๋จ.
- Improving CLIP Training with Language Rewrites. NeurIPS 2023: Lauguage only reweiting
- VeCLIP: Improving CLIP Training via Visual-enriched Captions: LLaVA์
Describe the image concisely, less than 20 words
๋ผ๊ณ ๋ฌผ์ด์ ๋์ค๋ caption ์ฌ์ฉํด์ CLIP ํ์ต.
- ์ด๋ฏธ์ง๋น ์ฌ๋ฌ short captions (ํ๊ท ํ๋์ ์บก์ ๋น 30๊ฐ ๋จ์ด = 35๊ฐ ํ ํฐ)์ด ์กด์ฌํ๋ค. ์ด๋ฅผ ์ฌ์ฉํ๋ฉด ์ข์ ๊ฒ ๊ฐ๊ณ , ์ด์ ๋ฐํ ์ ๋ณด๋ ์๋์ ํ ์ด๋ธ๊ณผ ๊ฐ๋ค.
- ์ด๋ป๊ฒ ๋ฐ๋ก short๋ฅผ ๋ง๋ค์๋์ง๋ ์๋ฌด๋ฆฌ ์ฐพ์๋ด๋ ์๋ค. Detailed captions ์์ฑํ๋๊ฒ์ few shot๊น์ง ์ด๋ป๊ฒ ํ๋์ง ์ ๋์์๋๋ฐ... short์ ๋ํ ์ ๋ณด๋ ์๋ค. (LLaVA-1.6์ 1.5๋ณด๋ค ์ข์ผ๋ ค๋?? ์ถ๋ค.)
- ์ถ๊ฐ์ ์ผ๋ก ์ด๋ฏธ์ง๋ด composition(link ์์), relation(link๊ธ๋ฌ์ฌ)๋ฅผ ์ด๋ป๊ฒ ๋ชจ๋ธ์ ํ์ต์ํฌ์ง๋ ์ ์ํ ๋ถ๋ถ์ด ์์ผ๋ ๋์ค์ ์ฐพ์์ฝ์.
from datasets import load_dataset
ds = load_dataset("graph-based-captions/GBC1M", cache_dir=".")
for i in range(100): len(ds['train'][i]['short_caption'].split(' '))
# 1. ์ํ๋ฅผ ๋ณด๋ ๊ธธ์ด๊ฐ ๋ค์ญ ๋ ์ญ์ด๋ค. ํ๋ฆฌํฐ ๋ฐ ๊ธธ์ด ์ ๋ณด์ ๋ฐ๋ผ์ ์ผ๋ถ๋ง ์ ํ/ํํฐ๋ง ํด์ ์ฌ์ฉํด๋ ๋์ง ์์๊น ๊น๋ค.
# 2. ์ด๋ฏธ์ง ํ๋๋น ๋งค์ธ ์บก์
์ ํ๋๋ค.
# 3. ์ด๋ฏธ์ง ์์ ํ๋์ ๊ฐ์ฒด์ ๋ํ description์ผ๋ก short๊ฐ ์กด์ฌํ ์๋ ์๊ณ ์๋์๋ ์๋ค. ๋จ! short๊ฐ ์๋ค๋ฉด detailed๊ฐ ์ถฉ๋ถํ ์งง๋ค.
>>> for i in range(3): ds['train'][0]['vertices'][i]['descs'][0]['label']
...
'detail'
'detail'
'detail'
>>> for i in range(3): ds['train'][0]['vertices'][i]['descs'][1]['label']
...
'short'
'error! no short, so, out of index'
◽️ PixelProse From Pixels to Prose A Large Dataset of Dense Image Captions arxiv24
- Google Gemini 1.0 Pro Vision Model์ผ๋ก 12M ์ด๋ฏธ์ง๋ฅผ captionํ ๋ฐ์ดํฐ์ ์ ๊ณต
- ์๋ ์ด๋ฏธ์ง์ฒ๋ผ, ํ๊ท 100๊ฐ ์ด์์ words๋ฅผ ๊ฐ์ง๋ captions์ด๋ค. (๋๋ฌด ๊ธธ๋ค)
◽️ ShareGPT4V- Improving Large Multi-Modal Models with Better Captions ECCV24
- Long-CLIP์์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ด๋ค.
- ์ด๊ฑด ๋๋ฌด ๊ธธ๊ณ (๊ฑฐ์ ํ ์บก์
๋น 180๋จ์ด) ์บก์
๋ด๋ถ์
\n\n
๊ฐ ๋๋ฌด ๋ง๋ค. - GPT-4 vision ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๊ฐ์ฅ ์ ํํด๋ณด์ธ๋ค. ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ํ๋ถํ object ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์ด๊ฒ์ ์ minimize ํด์, caption ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ๋๊ฒ ๊ฐ์ฅ ์ข์ ๋ณด์ธ๋ค. (๋ฌผ๋ก ์ฌ์ฉํด๋ณผ ๋งํ๊ฑด ์ด๋ฏธ ๋ง์์.. ์ด๊ฑด ๊ท์ฐฎ์ ์์ ์ด ํ์ํ ์๋ ์๋ค.)
- ์ค๋ฅธ์ชฝ ์๋ ๊ทธ๋ฆผ์ ํ๋ก์ธ์ค ์ค๋ช
- 100K ์ด๋ฏธ์ง์ ๋ํด์ ChatGPT4๋ฅผ ํ์ฉํด์ description์ ์ถ์ถํ๋ค. ์ด๋ฅผ ํ์ฉํด์ ShareCaptioner๋ผ๋ ์์ฒด ๋ชจ๋ธ ์์ฑ.
- ShareCaptioner๋ฅผ ์ฌ์ฉํด์ 1.2M ๋ฐ์ดํฐ์ ๋ํ caption ์์ฑ.
◽️ Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models. NeurIPS 2023 Spotlight
- ๊ธฐ์กด CLIP ๋ชจ๋ธ์ ํ๊ณ: bags of nouns ๋ก๋ง ๋์. ๋ฐ๋ผ์ compositional reasoning ๋ถ์กฑ. = non-object notions, object attributes, states, relations ์ดํด ๋ถ์กฑ.
- ์์ธ1: web-crawled captions ํ๋ฆฌํฐ๊ฐ ์ฐ๋ ๊ธฐ์. ์์ธ2: ์ด๋ฏธ์ง์ ์ผ๋ถ๋ถ๋ง ์ค๋ช ํ๋ caption์ด ๋ง์. ์ด๋ฏธ์ง์์๋ ๋ง์ objects, relations๊ฐ ์กด์ฌํจ์๋ ๋ถ๊ตฌํ๊ณ ..
- ํด๊ฒฐ์ฑ : (1) BLIP-2๋ก captions ๋ง๋ฌ. (2) LLM expender: {์บก์ }์ ๊ฐ์ง ์ด๋ฏธ์ง์๋ ๋ญ๊ฐ ์์๊ฒ ๊ฐ์์ง ์์ํด๋ด (3)SAM expander: {mask-croped image} → BLIP-2 ๋ก ์ฌ๋ฌ ์บก์ ๋ง๋ค๊ธฐ. (4) Negative loss ์ ๊ทน ํ์ฉํ๊ธฐ (SVLC๋ผ๋ ๋ ผ๋ฌธ์ negative captions ๋ง๋๋ ๋ฐฉ๋ฒ๋ก ์ฐจ์ฉ)
- ์ (2), (3)๋ฒ ๋ฐฉ๋ฒ์ ์ด์ด์๋ ๋ฐฉ๋ฒ์ธ๊ฑด ๋ง๋ค. ๋ ธ์ด์ฆ๊ฐ ์์ฒญ ์๊ธธ๊ฑฐ๋ค. ํ์ง๋ง, ๋ค๋ฅธ ์ด๋ฏธ์ง์์ ๋ง๋ค์ด์ง auto-generated captions ๋ณด๋ค๋ ํ ์ด๋ฏธ์ง๊ฐ ๊ฐ๊น์ธ ๊ฒ์ด๋ค. ๋ผ๋ ๊ด์ ์์ Loss_{multiple instance learning} ์ ์.
- ๋๋จธ์ง loss๋ loss_negative, loss_contrastive (in CLIP).
◽️ ARO: When and why vision language models behave like bags-of-words, and what to do about it? ICLR 2023 Oral
- ARO ๋ฒค์น๋งํฌ ์๊ฐ: Visual Genome ๋ฐ์ดํฐ์ ์๋ object, attribute, relation ์ ๋ํ ์ ๋ณด ๊ฐ์ง๊ณ ์์. COCO๋ object๋ค์ด ๋ง์ด ์๊ณ ์ด๋ค object๊ฐ ์กด์ฌํ๋์ง ๋ฆฌ์คํธ๊ฐ ์์. ์ด๋ฌํ ๊ธฐ์กด ๋ฐ์ดํฐ์ (VG, COCO) ๋ด๋ถ์ ๋ฉํ ์ ๋ณด๋ฅผ ํ์ฉํด, (์ด๋ค์ permutationํจ์ผ๋ก์จ) ํ๊ฐ์ฉ ๋ฐ์ดํฐ์ ์ ์
- ARO ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ด ๋ง์ด ๋จ์ด์ง. ์ฆ, compositional understanding (to the right of v.s. behind) ๋ฅ๋ ฅ์ด ๊ธฐ์กด CLIP, BLIP ๋ชจ๋ธ์์ ๋ถ์กฑํจ์ ๋ณด์.
- ์ ์ด๋ฌํ ์ฌ์ค์ด ๋ฌด์๋์ด ์๋๊ฐ? Retrieval task๊ฐ ๋ํ์ ์ธ Task์ธ๋ฐ, ์ฌ๊ธฐ์๋ ๋ชจ๋ธ์ด compositional understanding ์ ๋ณด๋ฅผ ๊ฐ์ง ํ์๊ฐ ์์. ๊ทธ์ Bag-of-words๋ฅผ ์ด์ฉํ๋ Task์.
- ๋ํ CLIP ํ์ต ์ ์ฐจ ์์ฒด๊ฐ, compositional understanding์ ํ ํ์๊ฐ ์๋๋ก ํ์ต์ด ์ด๋ค์ง๋ ๋ฐฉ๋ฒ์.
- ์ด๋ฅผ ์ํํ๊ธฐ ์ํด์ compsotion-aware hard negatives ๋ฅผ ์๊ฐํจ. (1) ๋ฐฐ์น ๋ด๋ถ์์ nearest neighboring images (2) negative caption (object, attribute, relation ์ ๋ณด๋ฅผ ์ฝ๊ฐ ๋ฐ๊ฟ๋์) ํ์ฉ.
◽️ Vl-checklist: Evaluating pre-trained vision-language models with objects, attributes and relations EMNLP 2022.
- CLIP ๋ชจ๋ธ์ classification๊ณผ ๊ฐ์ downstream task์์ ํ๊ฐํ๋ ๊ฒ์ ์ข์ ํด์์ด ์๋๋ค.
- image-text matching ๋ฅ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก, CLIP ๋ชจ๋ธ์ ๊ฐ์ฅ ์ ํฉํ ํ๊ฐ ์งํ๋ฅผ ์ ์ํ๋ค.
- Nagative sampling generation ์ด ํฌ์ธํธ: Visual Genome ๋ฐ์ดํฐ์ ์ ์๋ object, attribute, relation ์ ๋ณด๋ฅผ ํ์ฉํด์, embeding vector์ cos-similarity ๊ฐ 0.5 ์ด์์ธ ๋จ์ด๋ค๋ก ๋ณํํ์ฌ ๋ง๋ ๋ค.
- (DAC์ ๋ฐ๋ฅด๋ฉด) ARO, VL-checklist Evaluation ๋ ํ๊ฐ ๊ธฐ๋ฒ ๋ชจ๋ Visual Genorm๋ฐ์ดํฐ์ ๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ์ด๋ฏธ์ง์ ๋ํด์, postivie, negative captions๊ฐ ์ด๋ฏธ ๋ง๋ค์ด์ ธ์๋ค. ํ์ฌ ๋์ CLIP ๋ชจ๋ธ์ด ์๋ฅผ ์ ๊ตฌ๋ณํ ์ ์๋์ง ํ์ ํ๋ค. ์ด ๋ negative captions์ object, attribute, relation์ด ์กฐ๊ธ ๋ฐ๋ ์บก์ ์ด๋ค.
◽️ (DSG) Davidsonian Scene Graph: Improving Reliability in Fine-Grained Evaluation for Text-to-Image Generation. ICLR 2024.
- gpt-3.5-turbo ์ฌ์ฉํด์ quetion ๋ง๋ค๊ณ , gpt-4.0-v ์ฌ์ฉํด์ VQA ์ํํจ์ผ๋ก์จ ์ ์ ์ถ์ถ. ํ์ํ ์ฝ๋๋ ์ฌ๊ธฐ ๋ค ์์.
- ๋
ผ๋ฌธ ์์ฝ
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก (FIFA) ๋ questions ๋ค์ ์์กด๊ด๊ณ๋ฅผ ๊ณ ๋ คํ์ง ์์. ๋ฐ๋ผ์ ('is there a motorcycle'์ 'is the motorcycle blue'๋ฅผ ์์ ํ ๋ ๋ฆฝ๋ ์ง๋ฌธ์ด๋ผ๊ณ ๊ฐ์ .)
- ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์, questions ๋ผ๋ฆฌ์ ์์กด์ฑ์ ๊ณ ๋ คํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์. (prompt tuningํด์ LLMํํ ์ํค๋๊ฒ ์ ๋ถ) Qestion์ ๋ง๋๋ ๊ณผ์ ์ ์๋ Figure4 ์ฐธ์กฐ.
- VQA๋... ๊ทธ๋ฅ ๊ธฐ์กด ๋ชจ๋ธ ์ฌ์ฉํ๋๊ฒ ์ ๋ถ.
- ๋ ผ๋ฌธ์์๋ generated questions์ด ์ฌ๋์ด ๋ง๋๋ ๊ฒ๊ณผ ์ ์ฌํ๊ฐ? VQA ํจ๊ณผ๋ ์ด๋ค๊ฐ์ ๋ํ ์ฌ๋ฌ ๋ถ์์ ๋์ดํด๋จ๋ค. (๊ทธ ๋ถ๋ถ์ ์ฝ์ง ์์ pass)
- ์ฃผ๋ ๋
ผ๋ฆฌ๊ฐ ๋ฌด์์ธ๊ฐ? object๋ก ๋ถํฐ ์์๋๋ ๋ฟ๋ฆฌ๋ค์ด ๋ญ ์ด์จ๋ค๋๊ฒจ?
- ๋ง์ฝ entity๊ฐ ์๋ค๋ฉด, ๊ทธ ์ดํ ์ง๋ฌธ๋ค์ ๋ชจ๋ false๋ก ์ฒ๋ฆฌํ๋ค. ๊ตณ์ด ์ถ๊ฐ ์ง๋ฌธ์ ํ์ง ์๋๋ค.
- LLM์ผ๋ก parsing ํ๋ ๋ฐฉ๋ฒ์ด ๊ตฌ์ฒด์ ์ผ๋ก ๋ญ๊ฐ?
- ์ฐ์ ์๋ figure3๊ณผ ๊ฐ์ด semantioc category๋ฅผ ์ง์ ํ๋ค.
- PaLM-2-340B๋ฅผ ํ์ฉํ๋ฉฐ, the details on the preamble engineering์ Appendix-A์ ์์.
- ๊ทธ๋ค ์ค์ค๋ก์ matrix๋ฅผ ์ด๋ป๊ฒ ํ๊ฐํ๋๊ฐ?
- 30๊ฐ ์ํ์ ๋ํด์ ์ฌ๋์ด ๋ง๋ tuple, question๊ณผ ์ผ๋ง๋ ๋ค๋ฅธ์ง precision, recall ์ฒดํฌ.
- dependencies valid๋ผ๋๊ฒ ์๋๋ฐ, ์ด๊ฑฐ๋ tuple๊ฐ์ ๊ด๊ณ๊ฐ ์ด๋ป๊ฒ linking๋์ด ์๋์ง๋ฅผ ์๋ฏธํ๋ค. ์ด๊ฒ์ ๋ํ ์ ํ๋๋ 100%๋ผ๊ณ ํจ
◽️ Prometheus-Vision. arXiv. 24
- VML์ output์ ํ๊ฐํ๋ ๊ฒ์ ์ด๋ ต๋ค. (1) instruction, question์ ์ ๋ฐ๋๋์ง๋ ํ๊ฐํด์ผํ๊ณ , (2) ์ด๋ฏธ์ง๋ ์ ์ฐ๊ด๋ ๋ต๋ณ์ ํ๋์ง๋ ํ๊ฐํด์ผํ๋ค.
- ํ์ง๋ง ๊ธฐ์กด SPICE, METEOR ์ ๊ฐ์ ์งํ๋ค์ ๊ธด output์ ํ๊ฐํ๋๋ฐ ์ ํฉํ์ง ์๋ค.
- ๊ธฐ์กด Open-source VLM์ ๊ทธ๋๋ก assessing์ ์ํด์ ์ฌ์ฉํ๊ธฐ์, human, GPT-4๊ณผ ๋น๊ตํด ๋ฅ๋ ฅ์ด ๋ง์ด ๋ถ์กฑํ๋ค.
- ๋ฐ๋ผ์ LLaMA-1.5๋ฅผ Finetuningํ๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์ ์๊ฐํ๊ณ , ์ด ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ธ prometheus-vision ๋ชจ๋ธ์ ์ ์ํ๋ค.
◽️ Semantic parsing
- Image Retrieval using Scene Graphs CVPR15
- object, attributes, relationships ์ผ๋ก ๋ถ๋ฆฌ๋ scene graph ์ฒ์ ์ ์
- scene graph ๊ธฐ๋ฐ์ผ๋ก retrival ์ํ / scene graph๋ฅผ user๊ฐ ๋ฃ์ด์ค์ผ ํจ
- [scene graph - images] 5,000๊ฐ pair ์ ์
- Stanford-scene-graph-parser: generating semantically precise scene graphs from textual descriptions for improved image retrieval EMNLP 2015
- scene graphs๋ฅผ automaticallyํ๊ฒ ์์ฑํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ (rule-based / calssifier based scene praph parsing)
- one sentence ๋ง ๊ณ ๋ ค
- parsing ํ๋๊ฑฐ ์ด๋ ค์ ์๋ฅผ ๋ค์ด์,
Pronoun
: "a bed with a pillow on it." /Plural nouns
: "three men are wearing jeans", "three men are carrying a piano" Rule-base parsing
: (nine dependency patterns) These patterns capture the constructions and phenomena. /Classifier-based parsing
: by using scene graphs datsets, training the model which can extract all candidate objects and attributes, and relations.
- SPICE: Semantic Propositional Image Caption Evaluation ECCV 16
- caption quality๋ฅผ ์ฒดํฌํ๋๋ฐ scene graph ์ด์ฉ.
- ๋จผ์ dependencies between words๋ฅผ ์ ๋ ผ๋ฌธ์ ์ฌ์ฉํด์ parsing ํ๊ณ , ์ ์ฒด dependence ์ ๋ณด๋ฅผ ํ์ฉํด์ tree๋ฅผ ๊ทธ๋ฆฐ๋ค.
- reference (GT), candidate (generated) captions ์ฌ์ด์ F1-score๋ฅผ ํ์ฉํ๋ค.
- ์ฝ๋์์๋ java๋ก ๋ชจ๋ ์คํ์ด ๋ง์ณ์ง๊ณ , precision, recall ์ ๋ํ ์ ๋ณด๋ง์ด python์ผ๋ก ๋์ด์จ๋ค. (ex, ๊ฒน์น๋ tuple(object, attributes, relations)์ด ๋ช๊ฐ์ธ์ง ๋ฑ.)
- Unified Visual-Semantic Embeddings- Bridging Vision and Language with Structured Meaning Representations CVPR19