ncclInvalidArgument: Invalid value for an argument.

2024. 9. 20. 17:18·Error Note
728x90
반응형

pytorch 분산 처리 코드 부분에서 다음과 같은 에러가 발생하는 경우가 있습니다.

  File "/opt/conda/lib/python3.10/site-packages/torch/distributed/c10d_logger.py", line 47, in wrapper
    return func(*args, **kwargs)
  File "/opt/conda/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py", line 2806, in all_gather
    work = default_pg.allgather([tensor_list], [tensor])
torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/NCCLUtils.hpp:219, invalid argument, NCCL version 2.14.3
ncclInvalidArgument: Invalid value for an argument.
Last error:
Invalid config blocking attribute value -2147483648

 

nvidia-nccl이 서로 다른 버전으로 중복 설치되어 발생하는 에러였습니다.

 

[해결 방법] 

먼저 아래 명령어로 설치된 nvidia-nccl 목록들을 확인해줍니다.

pip list | grep nccl

 

저의 경우에는 2.14.3 과 2.18.1 두 가지가 설치되었네요

 

저는 cuda 12.1을 사용 중이므로 nvidia-nccl-cu11 는 삭제해주겠습니다. 

pip uninstall nvidia-nccl-cu11

 

 

코드를 다시 실행하면 정상 작동합니다! 

728x90
반응형
저작자표시 (새창열림)

'Error Note' 카테고리의 다른 글

Missing key(s) in state_dict: "clip_model.vision_tower.vision_model.embeddings.position_ids".  (0) 2024.12.12
TypeError: load_checkpoint_and_dispatch() got an unexpected keyword argument 'force_hooks'  (0) 2024.11.29
ValueError: Cannot load <class 'diffusers.models.controlnet.ControlNetModel'> from / because the following keys are missing: Please make sure to pass `low_cpu_mem_usage=False` and `device_map=None` if you want to randomly initialize those weights or else  (1) 2024.08.13
[dlib] dlib 설치시 에러  (1) 2024.05.10
TypeError: Unable to convert function return value to a Python type! The signature was () -> handle  (1) 2024.04.02
'Error Note' 카테고리의 다른 글
  • Missing key(s) in state_dict: "clip_model.vision_tower.vision_model.embeddings.position_ids".
  • TypeError: load_checkpoint_and_dispatch() got an unexpected keyword argument 'force_hooks'
  • ValueError: Cannot load <class 'diffusers.models.controlnet.ControlNetModel'> from / because the following keys are missing: Please make sure to pass `low_cpu_mem_usage=False` and `device_map=None` if you want to randomly initialize those weights or else
  • [dlib] dlib 설치시 에러
ga.0_0.ga
ga.0_0.ga
    반응형
    250x250
  • ga.0_0.ga
    ##뚝딱뚝딱 딥러닝##
    ga.0_0.ga
  • 전체
    오늘
    어제
    • 분류 전체보기 (181)
      • Paper Review (51)
        • Video Scene Graph Generation (6)
        • Image Scene Graph Generation (18)
        • Graph Model (5)
        • Key Information Extraction (4)
        • Fake Detection (2)
        • Text to Image (1)
        • Diffusion Personalization (4)
        • etc (11)
      • AI Research (49)
        • Deep Learning (30)
        • Artificial Intelligence (15)
        • Data Analysis (4)
      • Pytorch (10)
      • ONNX (5)
      • OpenCV (2)
      • Error Note (34)
      • Linux (2)
      • Docker (3)
      • Etc (7)
      • My Study (16)
        • Algorithm (10)
        • Project (4)
        • Interview (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    그래프신경망
    tensorflow
    fine tuning
    dataloader
    JNI
    transformer
    GCN
    Inductive bias
    pandas
    contiguous
    Logistic regression
    오차 역전파
    Activation Function
    나이브 베이즈 분류
    linear regression
    torch.nn
    알고리즘
    ONNX
    HRNet
    dataset
    i3d
    permute
    정규화
    forch.nn.functional
    RuntimeError
    활성화 함수
    pytorch
    3dinput
    TypeError
    차원의 저주
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
ga.0_0.ga
ncclInvalidArgument: Invalid value for an argument.
상단으로

티스토리툴바