מה הופך בקשה אחת ל-LLM למורכבת כל כך מאחורי הקלעים? איך מאות מיליארדי פרמטרים נדחסים על עשרות GPUs, ואיך כל ה-cluster הזה משרת אלפי משתמשים במקביל בלי להתפוצץ?
אירחתי את מייק ארליכסון, אושייה בעולם הAI, ופירקנו את עולם ה-inference מבפנים: KV cache, batching, ההבדל בין prefill ל-decode, חלוקה של מודל בין GPUs שונים, ו-Mixture of Experts. דיברנו גם על למה זה הפך לאחד התחומים הכי קריטיים בעולם ה-AI - וגם איך נכנסים אליו אם אתם מהנדסים שרוצים להתחיל להריץ מודלים בעצמכם.
האזנה נעימה, עמית בן דור.