240425_Trend

A. Retrieval augmented generation (RAG) Architecture

  • What is RAG? (LinkedIn)
  • How RAG works? In terms of LLM, Inference 과정 동안, 유사한 Sample을 question에 같이 넣어준다.
  • retrieve는 '검색하다. 수습하여 되찾다' 이런 뜻인데, 이 분야에서는 유사한 데이터를 찾다 느낌으로 사용된다.
  • In terms of VLM, What is RA? Training 과정 동안, 기존 train-set과 유사한 데이터 가져와 사용한다.

◽️ REACT Learning Customized Visual Models with Retrieval-Augmented Knowledge. CVPR, 2023

  • Model을 완성하는데 3가지 과정을 다음과 같이 정의한다. Pretraining → Customization → Finetuning. 여기서 Customization 과정은 Retrieval-Augmented Knowledge(ex, web-crawled data)를 사용해 pra-trained model을 조금 더 downstream tasks에 특화되게 만드는 과정이다.
  • 위 세팅을 구현하기 위해서 구성한 데이터셋 예시는 다음과 같다. Pretraining: CLIP weight → Customization: LAION (400M large image-text pairs, COCO) → Finetuning (ImageNet, 20 datasets in ELEVATER)
  • 특별한 Method가 있는 것은 아니고, 위와 같은 세팅으로 모델을 학습시켰을 때 (PEFT을 위한 weight는 아래 오른쪽 이미지와 같음, locked-text gated-image tuning이라고 불림), 효과를 많은 실험으로 보여줌. Classification, Retrieval, Detection, Segmentation task의 downsteam dataset에서 더 좋은 zero-shot, few-shot 성능 향상을 얻음.

 

image-20240420160546513

 

◽️ Retrieval-Augmented Multimodal Language Modeling. ICML, 2023

  • Foundation model이 world knowledge를 가지고 있는데, 이것은 (1) learning and serving에 어려움이 있고, (2) 대부분 black box 라는 단점이 있다. World knowledge를 model weights에 담아 놓는 것 말고 World images를 massive key, value로 저장해서 활용하는 방법에 대해 고민한다. 활용 방법은 아래 Overview에 있는거 거의 전부이다.
  • Long-tailed recognition 에서 tail classes 들을 위한 external knowledge (이 논문에서는 Webli, LAION, YFCC100M, ImageNet 이라고 가정) 활용에 초점을 맞춤다.

image-20240420164726719

 

 

 

B. AI agentic workflows (LLM in the Loop)

  • What is LLM in the Loop? (Andrew Ng)
    • A Current LLM system is akin to asking someone to compose an essay from start to finish, typing straight through with no backspacing allowed, and expecting a high-quality result. But the iterative process (글을 여러번 보고 첨석하는 과정) is critical even for most human writers to write good text.

◽️ LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement. Berkeley, Mar 2024. (arXiv)

  • A targeted and iterative LLM-based data augmentation technique that efficiently and effectively augments small task-specific datasets. These datasets are used to fine-tune a student LLM.
  • 아래 그림처럼, Teacher는 Student가 못하는 data를 1) 추가로 2) Task-specific 하게 생성하는 역할을 해준다. Teacher가 human annotator가 아니라, LLM이라는 점에서 LLM in the loop라고 표현할 수 있다.

image-20240403220219403

◽️ Improving Text-to-Image Consistency via Automatic Prompt Optimization. Meta, Mar 2024. (arXiv)

  • Prompt-image consistency: producing images that are consistent with the input prompt.
  • Method:
    • A T2I optimization-by-prompting framework, OPT2I, which leverages a large language model (LLM) to improve prompt-image consistency in T2I models.
    • Our framework starts from a user prompt and iteratively generates revised prompts with the goal of maximizing a consistency score.
  • /Users/junha/Library/CloudStorage/OneDrive-개인/Davian/Study/GenerativeStudy/240320_OPT2I_송준하

image-20240403222552288

◽️ Mora: Enabling Generalist Video Generation via A Multi-Agent Framework. arXiv, 2024.

 

 

 

C. VLM pretraining

  • ViTamin: Designing Scalable Vision Models in the Vision-Language Era (project)
    • Developing a ViT replacement model, ViTamin.
    • Classification 뿐만 아니라 zero-shot, imagenet-R, retrieval, etc., 에서 잘되는 ViT 개발.

 

 

 

 

D. Bias and Generalization

  • Can Biases in ImageNet Models Explain Generalization?, CVPR 2024.
    • Distribution shift를 여러가지 경우로 정의한다. (ex, texture, critical, high-frequency) 이 bias를 해결하는 것과 generalization과의 관계를 설명한다.
    • 48가지 DG기법으로 학습된, ResNet-50 모델들을 사용해 위 관계를 설명한다.
    • 논문의 Contributions 처럼, 그들의 key insight를 정리해놓은 방식은 아주 좋은 것 같다.
  • Are Vision Language Models Texture or Shape Biased and Can We Steer Them?, arXiv 2024.
    • 위 논문 저자가, 1달후에 새롭게 개시한 논문.
    • We find that VLMs are often more shape-biased than their vision encoders, indicating that visual biases are modulated to some extent through text in multimodal models. (text prompt 를 적절히 줌으로써 shape-bias가 해결되어 왔다.)
    • One important visual bias is the texture vs. shape bias, or the dominance of local over global information.
    • 사용된 비교 모델들은 다음과 같음. (Instruct-VLMs) GPT, LLaVA / CLIP / ImageNet pretrained model / Human

◽️ Model Stock: All we need is just a few fine-tuned models, NAVER AI, 2024 (arxiv)

  • CLIP ViT-L을 ImageNet으로 Fine-tuning 한다. 여러 Seed를 사용해서 여러 개의 fine-tuned models을 얻었다고 가정하자. 이들을 weight-average함으로써 ID에서도 OOD에서도 좋은 성능을 가지는 모델을 만들 수 있다. (위 fine-tuning과정에서 DG등의 기법은 사용되지 않는다)
  • 아와 같은 접근법과 테스크는 Model soups. ICML, 2022에서 먼저 소개되었다. Model soups에서는 fine-tuned models가 48개 정도 많이 필요했지만, model stock에서는 2~3개의 모델만 있더라도, 충분히 좋은 모델을 찾을 수 있는 기법을 소개한다.
  • Section에 관계없이, Observation을 나열한 것이 인상적이다.
    1. fine-tuned models의 weights 들끼리의 angle, norm 차이는 consistent 하다.
    2. weight-average는 ImageNet val-set (ID), IN-R, IN-A (OOD) 모두에서 좋은 성능을 유도한다.
    3. pretrained-model (W_0)과 적은 수의 fine-tuned models (W_1, W_2)의 geometric analaysis and hypothesis를 통해서 최적의 averaged model (W_H)를 얻는 방법론을 제시한다.

image-20240406181539637

  • LLMs가 함유하고 있는 지식의 정도를 측정하는 새로운 Evaluation metric 제시한다. 그들의 측정에 따르면, LLMs (current foundation models)는 int8 형식의 하나의 파라미터가 저장하는 데이터/지식의 량은 2 bits 뿐이란다.
  • training duration, model architecture 등등 에 따른 '지식 저장량'의 변화에 대해 분석한다. 요약본은 위 트위터 게시물에 잘 정리되어 있음.
  • 특히 마지막 결과가 Finetuning의 필요성을 강조해주는 것 같음. "Prepending training data with domain names (e.g., wikipedia.org) significantly increases a model’s knowledge capacity."
  • 여기서 사용하는 evaluation등을 CV 에서 적용해보는 방법을 고안해보는 것도 좋은 연구 방향 같음.

◽️ DatasetDM:Synthesizing Data with Perception Annotations Using Diffusion Models NeurIPS 2023

  • project: https://weijiawu.github.io/DatasetDM_page/
  • SD의 understanding (그림에서 cross attention maps, multi-scale feature maps)을 인풋으로 받는, P-decoder 라는 small module을 few-shot learning 한다.
  • Semantic segmentation, Instance segmentation, depth estimation 같은 많은 visual perception task에서 좋은 성능을 보여준다.
  • "SD의 understanding이 어디에 담겨있는가? 어떤 Feature를 사용하면 좋은가?" 관점에서 이 논문과 아래 논문을 참고하면 좋을 것 같다. Unleashing Text-to-Image Diffusion Models for Visual Perception (ICCV 2023)

image-20240413143734237

◽️ GInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control

  • project: https://dginstyle.github.io/
  • Question: Are diffusion models usable as large-scale data generators, e.g., to improve tasks in the perception stack? Yes!
  • Motive1: ControlNet으로 생성된 이미지는 GTA 그 자체 같다. Diffusion의 foundation knowledge를 사용하지 못한다.
  • Motive2: SD은 Small object 잘 생성하지 못한다.
  • Method: 위 두 문제점을 완화하기 위해, ControlNet finetuning을 좀 더 정교하게 하는 Style Swap 기법 제안.

image-20240413143756020