ncclInvalidArgument: Invalid value for an argument.
·
Error Note
pytorch 분산 처리 코드 부분에서 다음과 같은 에러가 발생하는 경우가 있습니다. File "/opt/conda/lib/python3.10/site-packages/torch/distributed/c10d_logger.py", line 47, in wrapper return func(*args, **kwargs) File "/opt/conda/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py", line 2806, in all_gather work = default_pg.allgather([tensor_list], [tensor])torch.distributed.DistBackendError: NCCL error in..