Uploaded image for project: 'Red Hat Enterprise Linux AI'
  1. Red Hat Enterprise Linux AI
  2. RHELAI-4954

RHEL AI 1.5.4.1 ILAB MODEL SERVE FAILS.

XMLWordPrintable

    • False
    • Hide

      None

      Show
      None
    • False
    • Approved

      To Reproduce Steps to reproduce the behavior:

      1. Follow the instructions from this snippet until ilab model chat- https://gitlab.cee.redhat.com/-/snippets/9540

      Expected behavior

      • ILAB MODEL SERVE Should work on CUDA please refer logs attached
      [cloud-user@ip-172-31-42-205 iso-testrun]$ nvidia-smi
      Mon Oct 13 22:17:13 2025       
      +-----------------------------------------------------------------------------------------+
      | NVIDIA-SMI 570.172.08             Driver Version: 570.172.08     CUDA Version: 12.8     |
      |-----------------------------------------+------------------------+----------------------+
      | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
      |                                         |                        |               MIG M. |
      |=========================================+========================+======================|
      |   0  NVIDIA L4                      On  |   00000000:9F:00.0 Off |                    0 |
      | N/A   35C    P8             16W /   72W |       0MiB /  23034MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
      |   1  NVIDIA L4                      On  |   00000000:A1:00.0 Off |                    0 |
      | N/A   34C    P8             15W /   72W |       0MiB /  23034MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
      |   2  NVIDIA L4                      On  |   00000000:A3:00.0 Off |                    0 |
      | N/A   35C    P8             16W /   72W |       0MiB /  23034MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
      |   3  NVIDIA L4                      On  |   00000000:A5:00.0 Off |                    0 |
      | N/A   34C    P8             16W /   72W |       0MiB /  23034MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
      |   4  NVIDIA L4                      On  |   00000000:AE:00.0 Off |                    0 |
      | N/A   33C    P8             16W /   72W |       0MiB /  23034MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
      |   5  NVIDIA L4                      On  |   00000000:B0:00.0 Off |                    0 |
      | N/A   33C    P8             15W /   72W |       0MiB /  23034MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
      |   6  NVIDIA L4                      On  |   00000000:B2:00.0 Off |                    0 |
      | N/A   33C    P8             16W /   72W |       0MiB /  23034MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
      |   7  NVIDIA L4                      On  |   00000000:B4:00.0 Off |                    0 |
      | N/A   33C    P8             16W /   72W |       0MiB /  23034MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
                                                                                               
      +-----------------------------------------------------------------------------------------+
      | Processes:                                                                              |
      |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
      |        ID   ID                                                               Usage      |
      |=========================================================================================|
      |  No running processes found                                                             |
      +-----------------------------------------------------------------------------------------+
      [cloud-user@ip-172-31-42-205 iso-testrun]$ lscpu
      Architecture:             x86_64
        CPU op-mode(s):         32-bit, 64-bit
        Address sizes:          48 bits physical, 48 bits virtual
        Byte Order:             Little Endian
      CPU(s):                   192
        On-line CPU(s) list:    0-191
      Vendor ID:                AuthenticAMD
        Model name:             AMD EPYC 7R13 Processor
          CPU family:           25
          Model:                1
          Thread(s) per core:   2
          Core(s) per socket:   48
          Socket(s):            2
          Stepping:             1
          BogoMIPS:             5299.99
          Flags:                fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl nonstop_tsc cpuid extd_apicid aperfmperf tsc_known_freq pni pclmulqdq monitor ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic
                                 movbe popcnt aes xsave avx f16c rdrand hypervisor lahf_lm cmp_legacy cr8_legacy abm sse4a misalignsse 3dnowprefetch topoext perfctr_core ssbd ibrs ibpb stibp vmmcall fsgsbase bmi1 avx2 smep bmi2 invpcid rdseed adx smap clflushopt clwb sha_ni xsaveopt xsavec xgetbv1 clzero xsaveerptr rdpru 
                                wbnoinvd arat npt nrip_save vaes vpclmulqdq rdpid
      Virtualization features:  
        Hypervisor vendor:      KVM
        Virtualization type:    full
      Caches (sum of all):      
        L1d:                    3 MiB (96 instances)
        L1i:                    3 MiB (96 instances)
        L2:                     48 MiB (96 instances)
        L3:                     384 MiB (12 instances)
      NUMA:                     
        NUMA node(s):           2
        NUMA node0 CPU(s):      0-47,96-143
        NUMA node1 CPU(s):      48-95,144-191
      Vulnerabilities:          
        Gather data sampling:   Not affected
        Itlb multihit:          Not affected
        L1tf:                   Not affected
        Mds:                    Not affected
        Meltdown:               Not affected
        Mmio stale data:        Not affected
        Reg file data sampling: Not affected
        Retbleed:               Not affected
        Spec rstack overflow:   Mitigation; Safe RET
        Spec store bypass:      Mitigation; Speculative Store Bypass disabled via prctl
        Spectre v1:             Mitigation; usercopy/swapgs barriers and __user pointer sanitization
        Spectre v2:             Mitigation; Retpolines; IBPB conditional; IBRS_FW; STIBP always-on; RSB filling; PBRSB-eIBRS Not affected; BHI Not affected
        Srbds:                  Not affected
        Tsx async abort:        Not affected
      [cloud-user@ip-172-31-42-205 iso-testrun]$ 
       

        1. issue.log
          62 kB
        2. issue_debug_info.log
          65 kB

              rh-ee-pcherupa Pavan Kalyan Reddy Cherupally
              rh-ee-vshaw Vikash Shaw
              Votes:
              0 Vote for this issue
              Watchers:
              8 Start watching this issue

                Created:
                Updated:
                Resolved: