[1] introduction
[1] introduction
The structure of Seraph
- 3개의 서버 클러스터로 구성
- 1개의 클러스터는…
- 1개의 master
- 1개의 NAS storage: 파일 저장
- 컴퓨팅 노드들
- 접속하려면 IP Address 보고 xxx에 해당 숫자 넣어서 접속
용어
- Master
- 최초로 접속 되는 곳
- GPU들을 여기서 배정
- 여긴 GPU가 없기에 CPU node
- NAS/Storage/File system
- 작업한 코드들…모델 웨이트들..저장 장소(모든 노드에서 공유해야하기에)
- Computing node / GPU node
접속이 뭐냐?
What is Slurm?
- Slurm: 리소스 매니저 / Scheduler for cluster
- GPU가 굉장히 많고, 노드들이 흩어져 있기에.. 이들을 하나로 묶어서 유기적으로 써야함.
- 하는 일:
- resource(cpus, mems, gpus)들을 자동으로 할당
- Queueing: 자리가 없으면 저장..후 자리 나면 보냄
-> job: 딥러닝 연구 하다보면, 모델 train -> test가 일련의 스크립트로 구성! 이걸 job으로 구성
-> job을 master에게 submit. master가 빈 노드에 할당
-> Slurm 없는 경우…유저가 빈노드 수동으로 찾아야함.
-> batch 여러개 던져놓고 퇴근하면.. master가 알아서 해줌.
This post is licensed under CC BY 4.0 by the author.



