Latest Posts
-
Four Agentic Design Patterns - Andrew Ng
Agentic Design Pattern LLM 에게 한번의 Zero-shot 으로 사용 1. 수정 없이, -> Reflection 2. 외부자료 없이, -> Tool Use 3.백지 상태에서, -> Planning 4.의견을 나눌 사람 없는 상황에서 -> Multi Agent 높은 퀄리티를 기대하는 것이다이렇게 부탁하면 어떨까? → Agent Workflow글의 아웃라인을 작성하세요1. 글에서 필요한 정보가 무엇인지, 어디서 찾을지 결정하고 정보를 수집하세요2. 초안을 작성하세요3. 초안을 다시 읽고 근거 없는 주장이나 관련 없는 정보를 찾으세요4. 초안에서 발견된 부족한 부분들을 수정하세요5. 관련 전문가에게 검토를 받으세요6. 이를 반복하세요세대 업그레이드 보다 에이전트 워크플로우를 적용하는 것의 ..
2024.06.24 00:02 -
Dacon 도배 하자 질의 응답 처리 경진대회 (4)QLoRA + 4bit quantization + LDCC-SOLAR-10.7B(≈9GB vram used) 코드 테스트
(3) 번 코드와 별개로 테스트는 계속 해보는게 좋을 것 같아서 다른 코드를 돌려보았다… 누군가가 나에게 도망친 곳에 낙원은 없다고 했는데 진짜 그 말 대로 이거 저거 안되면 포기하고 돌아다니고 있는데 디버깅을 끈기 있게 해봐야겠다… QLoRA 랑 Quantization 을 적용한 SOLAR 모델 코드가 올라와서 해당 모델에서 내가 다운받았던 yanolja/KoSOLAR-10.7B-v0.3 으로 바꿔서 돌려보고 있다. 잠깐 bitsandbytes 라이브러리 문제가 있긴 했는데 그냥 코드 그대로 사용하니까 돌아가서 돌려보는 중이다. 2시간 정도 걸렸고 Training loss 는 다음과 같았다. Inference 를 하려고 했는데 코드 게시글에 올라온 코드를 참고하라고 원 글에 적혀있어서 사용해보려 했지만..
2024.02.20 16:25 -
Dacon 도배 하자 질의 응답 처리 경진대회 (3) Ko-SOLAR 모델 테스트 및 Data Parallel
Ko-SOLAR 모델을 한번 시도해보려고 있는데 생각보다 GPU 가 많이 필요하다. OutOfMemoryError: CUDA out of memory. Tried to allocate 224.00 MiB (GPU 1; 79.35 GiB total capacity; 78.18 GiB already allocated; 165.19 MiB free; 78.20 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF ..
2024.02.20 14:47 -
Dacon 도배 하자 질의 응답 처리 경진대회 (2) 임베딩 모델 및 베이스라인 코드
1. Embedding Vector 추출 모델 ? AI 동계 강좌를 듣고 온 사이 몇개의 코드 공유 글이 더 올라와서 해당 코드들을 참고해보려고 한다 import numpy as np from sentence_transformers import SentenceTransformer # SentenceTransformer Version 2.2.2 # Embedding Vector 추출에 활용할 모델(distiluse-base-multilingual-cased-v1) 불러오기 model = SentenceTransformer('distiluse-base-multilingual-cased-v1') Distiluse-base-mulitlingual-cased-v1 모델도 잘 몰라서 찾아보니 (Reference #..
2024.02.19 18:53 -
Diffusion (1) Model Background
What is Diffusion Model Data 에 Noise 를 조금씩 더해가거나 noise 로부터 조금씩 복원해가는 과정으로 Data 를 생성하는 모델 위 그림에서 는 실제 데이터, 는 최종 Noise, 중간의 는 Data 에 Noise 가 더해진 상태의 Latent variable Forward Process → 데이터에 노이즈를 더해가는 과정 Reverse(Backward) Process → 반대로 노이즈를 제거하면서 추정해가는 과정 → 이 Reverse Process 를 활용해서 Random noise 로부터 우리가 원하는 image, text, graph 등을 생성하는 모델을 만들어내는 것 작동 원리 일부 공간에 모여 있던 분자들이 Diffusion Process 를 거쳐 전 공간에 일정하..
2024.02.12 18:19