
בעשור האחרון, חוות שרתים היו נתפסות בעיקר כנדל״ן טכנולוגי מקום לארח בו שרתים, עם SLA גבוה ויתירות סטנדרטית. אבל המעבר המהיר לעולמות של AI, ובעיקר ל-GPU clusters בקנה מידה גדול, שינה את התמונה לחלוטין.
היום, חוות שרתים היא כבר לא רק מעטפת היא חלק מהמערכת עצמה. כל החלטה פיזית, מרמת החשמל ועד מבנה הרשת, משפיעה ישירות על ביצועי המודלים.
הפער בין חוות שרתים “רגילה” לבין חוות שרתים מוכנה ל-AI הוא עצום והוא לא תמיד נראה לעין בשלב הבחירה.
צפיפות חשמל: כש-GPU הופך את המשחק
כאשר עובדים עם מערכות כמו NVIDIA H100 או A100, הדרישות משתנות בצורה דרמטית. כל שרת יכול להגיע ל-6–10kW, ורק מלא עם מספר GPUs כבר עובר בקלות את ה-30kW. בפרויקטי training גדולים, אנחנו מדברים על 50kW, 80kW ואפילו 100kW למס״ד.
רוב חוות השרתים בישראל עדיין מתוכננות ל-5–10kW. זה מתאים ל-IT מסורתי לא ל-AI.
חוות שרתים שמוגדרת באמת כ-AI-ready תכלול:
- Busway במקום PDU סטטי
- חלוקה ל-A/B feeds עם יתירות אמיתית
- UPS מבוסס lithium-ion עם זמני תגובה מהירים
- תכנון חשמל מודולרי להתרחבות עתידית
דוגמה מהשטח:
ארגון שמרים חוות שרתים ל-training עם 200+ GPUs יגיע מהר מאוד לדרישות של מגה-וואטים. אם התשתית לא תומכת בזה מראש, תיווצר מגבלה תפעולית מיידית.
קירור: נקודת הכשל המרכזית של חוות שרתים ל-AI
AI לא נופל בגלל קוד הוא נופל בגלל חום.
GPU מייצר עומס תרמי גבוה מאוד, ובחוות שרתים רגילות המבוססות על air cooling, אפילו עם hot/cold aisle containment, פשוט אין יכולת להתמודד עם זה לאורך זמן.
לכן, חוות שרתים מתקדמת תשלב:
- Direct-to-Chip Liquid Cooling
- Rear Door Heat Exchanger
- מוכנות ל-Immersion Cooling
במיוחד כאשר מדובר בחוות שרתים תת קרקעית, יש יתרון מסוים ביציבות תרמית טבעית אך עדיין נדרש תכנון הנדסי מדויק.
רשת: ה-Fabric שמחזיק את הכל
ב-AI, התקשורת בין השרתים חשובה לא פחות מהחישוב עצמו. Training מבוזר מייצר עומס עצום של east-west traffic בתוך חוות השרתים.
לכן נדרשת ארכיטקטורת רשת מבוססת:
- InfiniBand (HDR/NDR)
- או RoCEv2 על גבי Ethernet
- Leaf-Spine עם oversubscription נמוך
Latency של מיקרו-שניות הוא קריטי. כל jitter קטן משפיע על זמן האימון.
קישוריות חיצונית: חוות שרתים כחלק מאקוסיסטם
חוות שרתים בישראל חייבת להיות מחוברת:
- לכל ספקי התקשורת
- לנקודות exchange כמו IIX
- לחיבור ישיר לעננים ציבוריים
- לכבלי תקשורת בינלאומיים
Carrier-neutral architecture מאפשר גמישות אמיתית.
סיכום
חוות שרתים מוכנה ל-AI היא לא חוות שרתים רגילה עם GPUs.
זו תשתית שתוכננה מחדש סביב עומסים פיזיים, רשתיים ותרמיים שונים לחלוטין.
מי שלא מבין את זה מגלה מהר מאוד שהבעיה היא לא במודל, אלא בתשתית.