[Usage]: vllm serve setup issues on B300

### Your current environment

The output of `python collect_env.py`
```text


Collecting environment information...
uv is set
==============================
        System Info
==============================
OS                           : Amazon Linux 2023.9.20251208 (x86_64)
GCC version                  : (GCC) 11.5.0 20240719 (Red Hat 11.5.0-5)
Clang version                : Could not collect
CMake version                : version 3.22.2
Libc version                 : glibc-2.34

==============================
       PyTorch Info
==============================
PyTorch version              : 2.9.0+cu130
Is debug build               : False
CUDA used to build PyTorch   : 13.0
ROCM used to build PyTorch   : N/A

==============================
      Python Environment
==============================
Python version               : 3.11.14 (main, Nov 12 2025, 00:00:00) [GCC 11.5.0 20240719 (Red Hat 11.5.0-5)] (64-bit runtime)
Python platform              : Linux-6.1.158-180.294.amzn2023.x86_64-x86_64-with-glibc2.34

==============================
       CUDA / GPU Info
==============================
Is CUDA available            : True
CUDA runtime version         : 13.0.88
CUDA_MODULE_LOADING set to   : 
GPU models and configuration : 
GPU 0: NVIDIA B300 SXM6 AC
GPU 1: NVIDIA B300 SXM6 AC
GPU 2: NVIDIA B300 SXM6 AC
GPU 3: NVIDIA B300 SXM6 AC
GPU 4: NVIDIA B300 SXM6 AC
GPU 5: NVIDIA B300 SXM6 AC
GPU 6: NVIDIA B300 SXM6 AC
GPU 7: NVIDIA B300 SXM6 AC

Nvidia driver version        : 580.105.08
cuDNN version                : Could not collect
HIP runtime version          : N/A
MIOpen runtime version       : N/A
Is XNNPACK available         : True

==============================
          CPU Info
==============================
Architecture:                            x86_64
CPU op-mode(s):                          32-bit, 64-bit
Address sizes:                           46 bits physical, 48 bits virtual
Byte Order:                              Little Endian
CPU(s):                                  192
On-line CPU(s) list:                     0-191
Vendor ID:                               GenuineIntel
Model name:                              Intel(R) Xeon(R) Platinum 8559C
CPU family:                              6
Model:                                   207
Thread(s) per core:                      2
Core(s) per socket:                      48
Socket(s):                               2
Stepping:                                2
BogoMIPS:                                4800.00
Flags:                                   fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclmulqdq monitor ssse3 fma cx16 pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch invpcid_single ssbd ibrs ibpb stibp ibrs_enhanced fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves avx_vnni avx512_bf16 wbnoinvd ida arat avx512vbmi umip pku ospke waitpkg avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg tme avx512_vpopcntdq rdpid cldemote movdiri movdir64b md_clear serialize amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
Hypervisor vendor:                       KVM
Virtualization type:                     full
L1d cache:                               4.5 MiB (96 instances)
L1i cache:                               3 MiB (96 instances)
L2 cache:                                192 MiB (96 instances)
L3 cache:                                640 MiB (2 instances)
NUMA node(s):                            2
NUMA node0 CPU(s):                       0-47,96-143
NUMA node1 CPU(s):                       48-95,144-191
Vulnerability Gather data sampling:      Not affected
Vulnerability Indirect target selection: Not affected
Vulnerability Itlb multihit:             Not affected
Vulnerability L1tf:                      Not affected
Vulnerability Mds:                       Not affected
Vulnerability Meltdown:                  Not affected
Vulnerability Mmio stale data:           Not affected
Vulnerability Reg file data sampling:    Not affected
Vulnerability Retbleed:                  Not affected
Vulnerability Spec rstack overflow:      Not affected
Vulnerability Spec store bypass:         Mitigation; Speculative Store Bypass disabled via prctl
Vulnerability Spectre v1:                Mitigation; usercopy/swapgs barriers and __user pointer sanitization
Vulnerability Spectre v2:                Mitigation; Enhanced / Automatic IBRS; IBPB conditional; PBRSB-eIBRS SW sequence; BHI BHI_DIS_S
Vulnerability Srbds:                     Not affected
Vulnerability Tsa:                       Not affected
Vulnerability Tsx async abort:           Not affected
Vulnerability Vmscape:                   Not affected

==============================
Versions of relevant libraries
==============================
[pip3] flashinfer-python==0.5.3
[pip3] numpy==2.2.6
[pip3] nvidia-cublas==13.0.0.19
[pip3] nvidia-cuda-cupti==13.0.48
[pip3] nvidia-cuda-nvrtc==13.0.48
[pip3] nvidia-cuda-runtime==13.0.48
[pip3] nvidia-cudnn-cu13==9.13.0.50
[pip3] nvidia-cudnn-frontend==1.16.0
[pip3] nvidia-cufft==12.0.0.15
[pip3] nvidia-cufile==1.15.0.42
[pip3] nvidia-curand==10.4.0.35
[pip3] nvidia-cusolver==12.0.3.29
[pip3] nvidia-cusparse==12.6.2.49
[pip3] nvidia-cusparselt-cu13==0.8.0
[pip3] nvidia-cutlass-dsl==4.3.3
[pip3] nvidia-ml-py==13.590.44
[pip3] nvidia-nccl-cu13==2.27.7
[pip3] nvidia-nvjitlink==13.0.39
[pip3] nvidia-nvshmem-cu13==3.3.24
[pip3] nvidia-nvtx==13.0.39
[pip3] pyzmq==27.1.0
[pip3] torch==2.9.0+cu130
[pip3] torchaudio==2.9.0+cu130
[pip3] torchvision==0.24.0+cu130
[pip3] transformers==4.57.3
[pip3] triton==3.5.0
[conda] Could not collect

==============================
         vLLM Info
==============================
ROCM Version                 : Could not collect
vLLM Version                 : 0.12.0
vLLM Build Flags:
  CUDA Archs: Not Set; ROCm: Disabled
GPU Topology:
        GPU0    GPU1    GPU2    GPU3    GPU4    GPU5    GPU6    GPU7    NIC0    NIC1    CPU Affinity    NUMA Affinity   GPU NUMA ID
GPU0     X      NV18    NV18    NV18    NV18    NV18    NV18    NV18    SYS     SYS     0-47,96-143     0               N/A
GPU1    NV18     X      NV18    NV18    NV18    NV18    NV18    NV18    SYS     SYS     0-47,96-143     0               N/A
GPU2    NV18    NV18     X      NV18    NV18    NV18    NV18    NV18    SYS     SYS     0-47,96-143     0               N/A
GPU3    NV18    NV18    NV18     X      NV18    NV18    NV18    NV18    SYS     SYS     0-47,96-143     0               N/A
GPU4    NV18    NV18    NV18    NV18     X      NV18    NV18    NV18    NODE    NODE    48-95,144-191   1               N/A
GPU5    NV18    NV18    NV18    NV18    NV18     X      NV18    NV18    NODE    NODE    48-95,144-191   1               N/A
GPU6    NV18    NV18    NV18    NV18    NV18    NV18     X      NV18    NODE    NODE    48-95,144-191   1               N/A
GPU7    NV18    NV18    NV18    NV18    NV18    NV18    NV18     X      NODE    NODE    48-95,144-191   1               N/A
NIC0    SYS     SYS     SYS     SYS     NODE    NODE    NODE    NODE     X      PIX
NIC1    SYS     SYS     SYS     SYS     NODE    NODE    NODE    NODE    PIX      X 

Legend:

  X    = Self
  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
  PXB  = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge)
  PIX  = Connection traversing at most a single PCIe bridge
  NV#  = Connection traversing a bonded set of # NVLinks

NIC Legend:

  NIC0: ibp198s0f0
  NIC1: ibp199s0f0

==============================
     Environment Variables
==============================
LD_LIBRARY_PATH=/opt/amazon/openmpi/lib64:/opt/amazon/efa/lib64:/opt/amazon/ofi-nccl/lib64:/usr/local/cuda/lib:/usr/local/cuda:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/targets/x86_64-linux/lib:/usr/local/lib:/usr/lib:/lib:/opt/amazon/openmpi/lib64:/opt/amazon/efa/lib64:/opt/amazon/ofi-nccl/lib64:/usr/local/cuda/lib:/usr/local/cuda:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/targets/x86_64-linux/lib:/usr/local/lib:/usr/lib:/lib:/opt/amazon/openmpi/lib64:/opt/amazon/efa/lib64:/opt/amazon/ofi-nccl/lib64:/usr/local/cuda/lib:/usr/local/cuda:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/targets/x86_64-linux/lib:/usr/local/lib:/usr/lib:/lib:/opt/amazon/openmpi/lib64:/opt/amazon/efa/lib64:/opt/amazon/ofi-nccl/lib64:/usr/local/cuda/lib:/usr/local/cuda:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/targets/x86_64-linux/lib:/usr/local/lib:/usr/lib:/lib
PYTORCH_NVML_BASED_CUDA_CHECK=1
TORCHINDUCTOR_COMPILE_THREADS=1
```


### How would you like to use vllm

Hi, I am facing issues when using vllm on B300 instances.

launch command
```
vllm serve --tensor-parallel-size 8    \
 --kv-cache-dtype fp8     \
--tool-call-parser glm45     \
--reasoning-parser glm45     \
--enable-auto-tool-choice     \
--model zai-org/GLM-4.6-FP8
```

Error logs (attached full log)
```text
[0;36m(Worker_TP2 pid=340105)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822] 
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822] WorkerProc hit an exception.
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822] Traceback (most recent call last):
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/v1/executor/multiproc_executor.py", line 817, in worker_busy_loop
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     output = func(*args, **kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]              ^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return func(*args, **kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/v1/worker/gpu_worker.py", line 324, in determine_available_memory
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self.model_runner.profile_run()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/v1/worker/gpu_model_runner.py", line 4357, in profile_run
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     hidden_states, last_hidden_states = self._dummy_run(
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                                         ^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return func(*args, **kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/v1/worker/gpu_model_runner.py", line 4071, in _dummy_run
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     outputs = self.model(
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]               ^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/compilation/cuda_graph.py", line 126, in __call__
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return self.runnable(*args, **kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/nn/modules/module.py", line 1775, in _wrapped_call_impl
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return self._call_impl(*args, **kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/nn/modules/module.py", line 1786, in _call_impl
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return forward_call(*args, **kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/model_executor/models/glm4_moe.py", line 708, in forward
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     hidden_states = self.model(
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                     ^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/compilation/decorators.py", line 514, in __call__
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     output = TorchCompileWithNoGuardsWrapper.__call__(self, *args, **kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/compilation/wrapper.py", line 171, in __call__
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return self._compiled_callable(*args, **kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_dynamo/eval_frame.py", line 845, in compile_wrapper
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     raise e.remove_dynamo_frames() from None  # see TORCHDYNAMO_VERBOSE=1
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/compile_fx.py", line 990, in _compile_fx_inner
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     raise InductorError(e, currentframe()).with_traceback(
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/compile_fx.py", line 974, in _compile_fx_inner
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     mb_compiled_graph = fx_codegen_and_compile(
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                         ^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/compile_fx.py", line 1695, in fx_codegen_and_compile
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return scheme.codegen_and_compile(gm, example_inputs, inputs_to_check, graph_kwargs)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/compile_fx.py", line 1505, in codegen_and_compile
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     compiled_module = graph.compile_to_module()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                       ^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/graph.py", line 2319, in compile_to_module
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return self._compile_to_module()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/graph.py", line 2325, in _compile_to_module
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self.codegen_with_cpp_wrapper() if self.cpp_wrapper else self.codegen()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                                                              ^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/graph.py", line 2260, in codegen
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self._update_scheduler()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/vllm/env_override.py", line 363, in _update_scheduler_patched
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self.scheduler = Scheduler(self.operations)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                      ^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/scheduler.py", line 2250, in __init__
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self._init(nodes)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/scheduler.py", line 2344, in _init
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self.create_combo_kernel_nodes(num_ck_nodes=None)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/scheduler.py", line 3645, in create_combo_kernel_nodes
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     if not self.speedup_by_combo_kernel(node_list):
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/scheduler.py", line 5517, in speedup_by_combo_kernel
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     ms, path = self.benchmark_fused_nodes(node_list)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/scheduler.py", line 3047, in benchmark_fused_nodes
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return backend.benchmark_fused_nodes(nodes)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/codegen/cuda_combined_scheduling.py", line 141, in benchmark_fused_nodes
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return self._triton_scheduling.benchmark_fused_nodes(nodes)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/codegen/triton.py", line 4778, in benchmark_fused_nodes
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     src_code = self.generate_kernel_code_from_nodes(nodes, benchmark_kernel=True)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/codegen/simd.py", line 2576, in generate_kernel_code_from_nodes
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     src_code = kernel.codegen_kernel()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                ^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/codegen/triton.py", line 4173, in codegen_kernel
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     **self.inductor_meta_common(),
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/_inductor/codegen/triton.py", line 3992, in inductor_meta_common
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     "backend_hash": torch.utils._triton.triton_hash_with_backend(),
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/utils/_triton.py", line 175, in triton_hash_with_backend
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     backend = triton_backend()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]               ^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/torch/utils/_triton.py", line 167, in triton_backend
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     target = driver.active.get_current_target()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]              ^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/triton/runtime/driver.py", line 28, in active
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self._active = self.default
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                    ^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/triton/runtime/driver.py", line 22, in default
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self._default = _create_driver()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                     ^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/triton/runtime/driver.py", line 10, in _create_driver
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     return active_drivers[0]()
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]            ^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/triton/backends/nvidia/driver.py", line 719, in __init__
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     self.utils = CudaUtils()  # TODO: make static
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]                  ^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/triton/backends/nvidia/driver.py", line 63, in __init__
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     mod = compile_module_from_src(
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]           ^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/triton/runtime/build.py", line 89, in compile_module_from_src
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     so = _build(name, src_path, tmpdir, library_dirs or [], include_dirs or [], libraries or [], ccflags or [])
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/home/coder/vllm-benchmarking/.venv/lib64/python3.11/site-packages/triton/runtime/build.py", line 51, in _build
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     subprocess.check_call(cc_cmd, stdout=subprocess.DEVNULL)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]   File "/usr/lib64/python3.11/subprocess.py", line 413, in check_call
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822]     raise CalledProcessError(retcode, cmd)
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822] torch._inductor.exc.InductorError: CalledProcessError: Command '['/usr/bin/gcc', '/tmp/tmpqxw0ckl9/cuda_utils.c', '-O3', '-shared', '-fPIC', '-Wno-psabi', '-o', '/tmp/tmpqxw0ckl9/cuda_utils.cpython-311-x86_64-linux-gnu.so', '-lcuda', '-L/home/coder/vllm-benchmarking/.venv/lib/python3.11/site-packages/triton/backends/nvidia/lib', '-L/lib64', '-L/lib', '-I/home/coder/vllm-benchmarking/.venv/lib/python3.11/site-packages/triton/backends/nvidia/include', '-I/tmp/tmpqxw0ckl9', '-I/usr/include/python3.11']' returned non-zero exit status 1.
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822] 
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822] Set TORCHDYNAMO_VERBOSE=1 for the internal stack trace (please do this especially if you're reporting a bug to PyTorch). For even more developer context, set TORCH_LOGS="+dynamo"
[0;36m(Worker_TP3 pid=340106)[0;0m ERROR 12-10 23:42:18 [multiproc_executor.py:822] 
```

[error.log](https://github.com/user-attachments/files/24090105/error.log)

### Before submitting a new issue...

- [x] Make sure you already searched for relevant issues, and asked the chatbot living at the bottom right corner of the [documentation page](https://docs.vllm.ai/en/latest/), which can answer lots of frequently asked questions.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

[Usage]: vllm serve setup issues on B300 #30441

Your current environment

How would you like to use vllm

Before submitting a new issue...

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Uh oh!

[Usage]: vllm serve setup issues on B300 #30441

Description

Your current environment

How would you like to use vllm

Before submitting a new issue...

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions