2023. 9. 24. 19:24ㆍDL Life/Graph
현재 어떤 분야들이 활발한지?
- ICLR -> Unified view 로 많은 연구가 진행
- GPT 도 sparse하게 만들어보겠다 : Sparse GPT
1. 더 효율적인 LLM 을 만드는 방법
- Low-rank Approximation (LoRA) : 행렬을 간소화하여 계산 효율성 증대
- pruning 같은 경우도 많이 진행되고 있음 : 모델의 불필요한 가중치 제거
- Prefix/prompt tuning : 모델의 결과물을 수정하기 위한 프롬프트 수정
- Qunatization : 가중치 간소화로 모델 크기 축소
(LLM.int8 : 16비트와 유사한 성능 + 속도 향상) - Model Distillation : reason generation 을 LLM 에게 하게 함
→ LLM 의 지식을 작은 모델에 전이
참고 : https://arxiv.org/abs/2302.12813
2. 보안 관련 주제
Attack on text vision model arxiv 23
Privacy Attack and Defense
- Diffrential Privacy - Global DP, Local DP 방법
Global De-identification
3.할루시네이션 관련 주제
-
RAG : 답변의 출처를 먼저 시맨틱 검색 후 답변 생성
- RAG 뉴립스 20 -> 할루시네이션에 도움이 되었다 SIGDAT 21
-
**Knowledge graph : 개체명 간 관계를 나타내는 그래프
'Check your fact and ~ ’ 논문 찾아볼 것
Road map LLM -KG survey 논문 읽기 -
할루시네이션 방지 방법 제안한 논문
→ rewriteLM
→ Gorilla
trusting your evidence : hallucinate less w/ Context arware decoding
변화력의 차이를 확인해서 할루시네이션을 방지하는 것
4. Task-specific LLM
- Using GPT for Non-NLP Tasks
(뉴립스 2022) :LIFT paper 읽어 보기
Image : 픽셀들의 시퀀스로 보고 학습하는 방안? 에 대한 생각
- LLM as General Pattern Machine
- -> 인풋 아웃풋을 ICL 을 이용해서 학습을 하니까 잘 되더라
- Sequence tranformation + complement
5 최근 모델 관련 이야기
GPT-4 랑 Claude 가 탑2
오픈 소스 중에서는 라마 계열 : Vicuna
LLaMA-2 !! 가 나와서 이슈 많다
Context length 2배 :
Llama 2 chat : 챗지피티와 비슷한 성능
Video-LLaMA 도 살펴보기
생각해볼 방향
- How to make light efficient LLM
- **how to use LLM with data privacy gaurantee
- **how to mitigrate the hallucination of llm ****
- how to make task-specific LLM
Large Language Models : Efficient Training & Deployment
[!Keys]
지난 10년동안 사용하기 쉬운 오픈소스 딥러닝 SW 는 딥러닝 분야의 놀라운 발전을 이뤄냄
LLM 중 상당수가 아직 출시되지 않았고, 아직 상용화하기에는 어렵다는 특징이 존재
LLM 의 대중화를 위해서는 효율적인 Training 과 Deployment 기술이 더욱 중요하다
Co-training 을 통해 더 효과적으로 LLM 의 few-shot 능력과 zero-shot 능력을 추출해 더 효율적인 사이즈의 모델로 옮겨갈 수 있음
[!directions]
- 구조화된 사례로의 확장
- Co-training aware 프롬프트
- Prompt aware 사전 학습
Entity Recognition
Summarization
Translation
QA
위와 같이 우리가 해결하고 싶은 문제들이 다양하게 존재한다
-
기존 방식
문제 → 문제에 맞는 데이터 수집 - 모델 학습 - 적용
다른 문제 → 다른 모델 -
현재 상황 : New Paradigm
데이터를 수집하는 것 대신에 문제에 맞게 LM 을 학습시키는 것으로 변화 - 그리고 문제에 맞게 적용시키는 것
어떤 문제든 결국 다음 토큰 예측 - 결국 사용하는 모델은 같다는 것
모델의 구현 아이디어 자체는 간단한데 왜 이전에는 만들어지지 못했을까?
LLM! Capability 가 이것을 가능하게 만들었다
(!LLMs are surprisingly sophsiticated but expensive )
→ 하지만 비용으로 인해 개인이 모델 훈련 및 추론하는 것이 어려움
PEFT → Efficient Makes Democratization
Efficient training and Efficient deployment
Learning to grow pretrained ~ 23
현재의 LLM 은 다수의 GPU 를 오랜 시간동안 사용
우리는 LLM 의 학습 시간을 줄일 수 있지 않을까?
작은 모델들의 곱으로 구성
작은 모델을 Wider 하게 만드는 것
- Linear Growth Operator
https://arxiv.org/abs/2303.00980
Other growth operators 또한 이런 효율적인 학습방법을 연구하고 있으니 찾아볼 것
CO-Training
- Co-training for smaller models 관련 논문 소개
세부 작업 에 대해서 수많은 서버를 사용하지 않고 적용할 수 있을 것인가?
- Idea : self instruction / Replace human annotators
- Co-training for smaller models
- Use LLM to label raw text -> Train smaller models on good pseudo-lables
- Train LLM on good pseudo-label (from smaller model) (위의 과정을 역으로)
[!개인적인 생각]
생각 위와 같은 과정을 언어에다가 적용을 시키면 어떤 결과가 ?
한국어 특화 모델로 학습시키고 싶어 : LLM 에 prompting 하고
작은 모델을 학습시키면 ?
- 대화 평가 메트릭 (Dialogue Evaluation Metric)을 사용하여 모델 간 한국어 대화를 평가 했습니다. 대화 평가 메트릭은 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment (Yang Liu. et. al. 2023)과 USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation (Shikib Mehri. et. al. 2020)을 활용하여 평가 Prompt를 구성했습니다.
- https://github.com/nlpai-lab/KULLM
위 내용은 Wecover 에서 개최한 LLM Trends 컨퍼런스를 기반으로 작성했습니다.
“이 글은 Obsidian 에서 작성되어 업로드 되었습니다”