0 LLM Trends 컨퍼런스 리뷰

2023. 9. 24. 19:24DL Life/Graph

Pasted image 20231020141326.png

현재 어떤 분야들이 활발한지?

  • ICLR -> Unified view 로 많은 연구가 진행
  • GPT 도 sparse하게 만들어보겠다 : Sparse GPT

1. 더 효율적인 LLM 을 만드는 방법

  • Low-rank Approximation (LoRA) : 행렬을 간소화하여 계산 효율성 증대
  • pruning 같은 경우도 많이 진행되고 있음 : 모델의 불필요한 가중치 제거
  • Prefix/prompt tuning : 모델의 결과물을 수정하기 위한 프롬프트 수정
  • Qunatization : 가중치 간소화로 모델 크기 축소
    (LLM.int8 : 16비트와 유사한 성능 + 속도 향상)
  • Model Distillation : reason generation 을 LLM 에게 하게 함
    → LLM 의 지식을 작은 모델에 전이
    참고 : https://arxiv.org/abs/2302.12813

2. 보안 관련 주제

Attack on text vision model arxiv 23
Privacy Attack and Defense

  • Diffrential Privacy - Global DP, Local DP 방법
    Global De-identification

3.할루시네이션 관련 주제

  • RAG : 답변의 출처를 먼저 시맨틱 검색 후 답변 생성

    • RAG 뉴립스 20 -> 할루시네이션에 도움이 되었다 SIGDAT 21
  • **Knowledge graph : 개체명 간 관계를 나타내는 그래프
    'Check your fact and ~ ’ 논문 찾아볼 것
    Road map LLM -KG survey 논문 읽기

  • 할루시네이션 방지 방법 제안한 논문
    → rewriteLM
    → Gorilla
    trusting your evidence : hallucinate less w/ Context arware decoding
    변화력의 차이를 확인해서 할루시네이션을 방지하는 것

4. Task-specific LLM

  • Using GPT for Non-NLP Tasks
    (뉴립스 2022) :LIFT paper 읽어 보기
    Image : 픽셀들의 시퀀스로 보고 학습하는 방안? 에 대한 생각
  • LLM as General Pattern Machine
  • -> 인풋 아웃풋을 ICL 을 이용해서 학습을 하니까 잘 되더라
  • Sequence tranformation + complement

5 최근 모델 관련 이야기

GPT-4 랑 Claude 가 탑2
오픈 소스 중에서는 라마 계열 : Vicuna

LLaMA-2 !! 가 나와서 이슈 많다
Context length 2배 :
Llama 2 chat : 챗지피티와 비슷한 성능

Video-LLaMA 도 살펴보기

생각해볼 방향

  1. How to make light efficient LLM
  2. **how to use LLM with data privacy gaurantee
  3. **how to mitigrate the hallucination of llm ****
  4. how to make task-specific LLM

Large Language Models : Efficient Training & Deployment

[!Keys]
지난 10년동안 사용하기 쉬운 오픈소스 딥러닝 SW 는 딥러닝 분야의 놀라운 발전을 이뤄냄
LLM 중 상당수가 아직 출시되지 않았고, 아직 상용화하기에는 어렵다는 특징이 존재
LLM 의 대중화를 위해서는 효율적인 Training 과 Deployment 기술이 더욱 중요하다
Co-training 을 통해 더 효과적으로 LLM 의 few-shot 능력과 zero-shot 능력을 추출해 더 효율적인 사이즈의 모델로 옮겨갈 수 있음

[!directions]

  1. 구조화된 사례로의 확장
  2. Co-training aware 프롬프트
  3. Prompt aware 사전 학습

Entity Recognition
Summarization
Translation
QA

위와 같이 우리가 해결하고 싶은 문제들이 다양하게 존재한다

  1. 기존 방식
    문제 → 문제에 맞는 데이터 수집 - 모델 학습 - 적용
    다른 문제 → 다른 모델

  2. 현재 상황 : New Paradigm
    데이터를 수집하는 것 대신에 문제에 맞게 LM 을 학습시키는 것으로 변화 - 그리고 문제에 맞게 적용시키는 것

어떤 문제든 결국 다음 토큰 예측 - 결국 사용하는 모델은 같다는 것
모델의 구현 아이디어 자체는 간단한데 왜 이전에는 만들어지지 못했을까?
LLM! Capability 가 이것을 가능하게 만들었다

(!LLMs are surprisingly sophsiticated but expensive )
→ 하지만 비용으로 인해 개인이 모델 훈련 및 추론하는 것이 어려움

PEFT → Efficient Makes Democratization

Efficient training and Efficient deployment
Learning to grow pretrained ~ 23
현재의 LLM 은 다수의 GPU 를 오랜 시간동안 사용

우리는 LLM 의 학습 시간을 줄일 수 있지 않을까?
작은 모델들의 곱으로 구성
작은 모델을 Wider 하게 만드는 것

  • Linear Growth Operator
    https://arxiv.org/abs/2303.00980
    Other growth operators 또한 이런 효율적인 학습방법을 연구하고 있으니 찾아볼 것

CO-Training

  • Co-training for smaller models 관련 논문 소개

세부 작업 에 대해서 수많은 서버를 사용하지 않고 적용할 수 있을 것인가?

  1. Idea : self instruction / Replace human annotators
  2. Co-training for smaller models
    1. Use LLM to label raw text -> Train smaller models on good pseudo-lables
    2. Train LLM on good pseudo-label (from smaller model) (위의 과정을 역으로)

[!개인적인 생각]
생각 위와 같은 과정을 언어에다가 적용을 시키면 어떤 결과가 ?
한국어 특화 모델로 학습시키고 싶어 : LLM 에 prompting 하고
작은 모델을 학습시키면 ?

  • 대화 평가 메트릭 (Dialogue Evaluation Metric)을 사용하여 모델 간 한국어 대화를 평가 했습니다. 대화 평가 메트릭은 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment (Yang Liu. et. al. 2023)과 USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation (Shikib Mehri. et. al. 2020)을 활용하여 평가 Prompt를 구성했습니다.
  • https://github.com/nlpai-lab/KULLM

위 내용은 Wecover 에서 개최한 LLM Trends 컨퍼런스를 기반으로 작성했습니다.


“이 글은 Obsidian 에서 작성되어 업로드 되었습니다”