@@ -13,17 +13,24 @@ spec:
13
13
app.kubernetes.io/name : vllm
14
14
app.kubernetes.io/component : vllm
15
15
app.kubernetes.io/model : ${MODEL_LABEL}
16
+ app : ${POOL_NAME}
16
17
template :
17
18
metadata :
18
19
labels :
19
20
app.kubernetes.io/name : vllm
20
21
app.kubernetes.io/component : vllm
21
22
app.kubernetes.io/model : ${MODEL_LABEL}
23
+ app : ${POOL_NAME}
22
24
spec :
25
+ # securityContext:
26
+ # runAsUser: ${PROXY_UID}
27
+ # runAsNonRoot: true
28
+ # seccompProfile:
29
+ # type: RuntimeDefault
23
30
containers :
24
31
- name : vllm
25
32
image : ${VLLM_IMAGE}:${VLLM_TAG}
26
- imagePullPolicy : Always
33
+ imagePullPolicy : IfNotPresent
27
34
command :
28
35
- /bin/sh
29
36
- " -c"
@@ -40,22 +47,78 @@ spec:
40
47
ports :
41
48
- name : http
42
49
containerPort : 8000
43
- - name : lmcache-dist
50
+ protocol : TCP
51
+ - name : lmcache-dist # Assuming port 80 is used for LMCACHE_DISTRIBUTED_URL
44
52
containerPort : 80
53
+ protocol : TCP
54
+ livenessProbe :
55
+ failureThreshold : 3
56
+ httpGet :
57
+ path : /health
58
+ port : 8000
59
+ scheme : HTTP
60
+ initialDelaySeconds : 15
61
+ periodSeconds : 10
62
+ successThreshold : 1
63
+ timeoutSeconds : 1
64
+ startupProbe :
65
+ failureThreshold : 60
66
+ httpGet :
67
+ path : /health
68
+ port : 8000
69
+ scheme : HTTP
70
+ initialDelaySeconds : 15
71
+ periodSeconds : 10
72
+ successThreshold : 1
73
+ timeoutSeconds : 1
45
74
env :
46
- - name : HF_TOKEN
47
- valueFrom :
48
- secretKeyRef :
49
- name : ${HF_SECRET_NAME}
50
- key : ${HF_SECRET_KEY}
75
+ - name : HF_HOME
76
+ value : /data
51
77
- name : POD_IP
52
78
valueFrom :
53
79
fieldRef :
80
+ apiVersion : v1
54
81
fieldPath : status.podIP
55
- volumeMounts :
56
- - name : model-storage
57
- mountPath : ${VOLUME_MOUNT_PATH}
58
- volumes :
59
- - name : model-storage
60
- persistentVolumeClaim :
61
- claimName : ${PVC_NAME}
82
+ - name : HF_TOKEN
83
+ valueFrom :
84
+ secretKeyRef :
85
+ name : vllm-p2p-secrets
86
+ key : hf_token_mistral7b
87
+ - name : LMCACHE_LOOKUP_URL
88
+ value : vllm-p2p-lookup-server-service.kvcache-manager.svc.cluster.local:8100
89
+ - name : LMCACHE_ENABLE_DEBUG
90
+ value : " True"
91
+ - name : LMCACHE_ENABLE_P2P
92
+ value : " True"
93
+ - name : LMCACHE_LOCAL_CPU
94
+ value : " True"
95
+ - name : LMCACHE_MAX_LOCAL_CPU_SIZE
96
+ value : " 20"
97
+ - name : LMCACHE_USE_EXPERIMENTAL
98
+ value : " True"
99
+ - name : VLLM_RPC_TIMEOUT
100
+ value : " 1000000"
101
+ resources :
102
+ limits :
103
+ nvidia.com/gpu : " 1"
104
+ requests :
105
+ cpu : " 10"
106
+ memory : 40Gi
107
+ nvidia.com/gpu : " 1"
108
+ terminationMessagePath : /dev/termination-log
109
+ terminationMessagePolicy : File
110
+ securityContext :
111
+ runAsNonRoot : false
112
+ restartPolicy : Always
113
+ terminationGracePeriodSeconds : 30
114
+ dnsPolicy : ClusterFirst
115
+ securityContext : {}
116
+ schedulerName : default-scheduler
117
+ strategy :
118
+ type : RollingUpdate
119
+ rollingUpdate :
120
+ maxUnavailable : 0
121
+ maxSurge : " 100%"
122
+ revisionHistoryLimit : 10
123
+ progressDeadlineSeconds : 1200
124
+
0 commit comments