מחקר חדש חושף את גבולות הבינה המלאכותית בהשגת פרויקטים של עבודה מרחוק

שבת 17 ינואר 2026 - שעה: 07:56

סאדה ניוז - ההתקדמות המהירה בטכנולוגיות הבינה המלאכותית העלתה שאלות ישנות מחדש לגבי אוטומציה ועתיד העבודה. מהפקת תוכנה ועד להפקת תוכן, מערכות הבינה המלאכותית מראות יכולות מרשימות במבחני מחקר וקריטריונים טכנולוגיים. אך קיים עדיין פער בסיסי הנוגע ליכולת של מערכות אלו לבצע עבודות אמיתיות בעלות ערך כלכלי, כפי שנדרשות בשוק העבודה האמיתי.

מחקר חדש שואף להשיב על שאלה זו באמצעות מסגרת מדידה חדשנית הידועה בשם "מדד העבודה מרחוק" (Remote Labor Index – RLI), שהוא המדד הניסי הראשון המודד באופן שיטתי את יכולת הסוכנים של הבינה המלאכותית לאוטומט פרויקטים של עבודה משולבת שנלקחו משווקי העבודה החופשית האמיתיים. התוצאות מפתיעות, ומציאותיות יותר ממה שמעיד רבות מהנרטיבים המוכרים על קרבת ההחלפה של משרות אנושיות.

מעבר לקריטריונים המלאכותיים

רוב מבחני הבינה המלאכותית הנוכחיים מתמקדים במשימות מוגדרות או מבודדות כגון כתיבת קודים קצרים או מענה על שאלות טכניות או גלישה באינטרנט או ביצוע פקודות מחשב פשוטות. למרות החשיבות של קריטריונים אלה, פעמים רבות הם אינם משקפים את המורכבות, השילוב והלא ידיעויות שמבחינות את העבודה המקצועית האמיתית.

מכאן הגיע הפיתוח של "מדד העבודה מרחוק", שאינו בודק מיומנויות נפרדות, אלא מודד את יכולת מערכות הבינה המלאכותית לבצע פרויקטים שלמים מהתחלה ועד הסוף, בדיוק כפי שנמסרים למקצוענים העובדים על פי לקוחות אמיתיים. פרויקטים אלו כוללים תחומים כמו עיצוב, ארכיטקטורה, הפקת וידיאו, ניתוח נתונים, פיתוח משחקים, הכנת מסמכים ועוד צורות עבודה מרחוק המרכיבות את עיקר הכלכלה הדיגיטלית המודרנית. בכך, העבירה המחקר את הדיון מרמת היכולת התיאורטית לרמת הביצוע האמיתי הניתן למדידה בשוק.

מדידת מדד העבודה מרחוק

מאגר המידע של המדד מורכב מ-240 פרויקטים של עבודה חופשית שהושלמו, כאשר כל פרויקט מכיל שלושה מרכיבים עיקריים שהם תיאור מפורט של המשימה, הקבצים הנדרשים לביצועה ותוצרים סופיים שהושגו על ידי מקצוענים אנושיים כנקודת ייחוס. המחקר לא הסתפק בתוצרים בלבד, אלא גם אסף נתונים על הזמן והעלות הנדרשים לביצוע כל פרויקט. כל פרויקט לקח בממוצע כ-29 שעות עבודה אנושית להשלמה, בעוד שחלק מהפרויקטים חצו את רף ה-100 שעות. עלויות הפרויקטים נעו בין פחות מ-$10 לבין יותר מ-$10,000, עם סך כל הערך העולה על $140,000 ויותר מ-6,000 שעות עבודה אמיתיות.

הגיוון והמורכבות המתוכננת הזו משקפים את טבען של עבודות אמיתיות, הרחק מהמשימות הפשוטות או המיוחדות.

הערכת ביצועי הבינה המלאכותית

החוקרים בדקו מספר מודלים מתקדמים של סוכני בינה מלאכותית באמצעות תהליך הערכה אנושית מדויק שבו הוקצו למערכות אותם תיאורים של פרויקטים והקבצים שהתקבלו על ידי מקצוענים, והן התבקשו לייצר תוצרים שלמים. לאחר מכן, עריכי הערכה מאומנים השוו את תוצאות הבינה המלאכותית עם התוצרים האנושיים כנקודת ייחוס, עם דגש על שאלה יסודית הנוגעת למידת קבלת הלקוח האמיתי את העבודה הזו כהשוואתית או טובה יותר מעבודה של מקצוען אנושי.

המדד הבסיסי במחקר הוא "שיעור האוטומציה" כלומר אחוז הפרויקטים שהבינה המלאכותית הצליחה להשיג ברמה מקצועית מקובלת. כמו כן, המחקר השתמש במערכת דירוג דומה לזו של "אילו" כדי לבצע השוואות מדויקות בין המודלים השונים, גם במקרים שבהם לא הגיעה שום אחת מהם לרמת הביצועים האנושיים.

האוטומציה עדיין מוגבלת מאוד

למרות ההתקדמות הגדולה ביכולות החשיבה והטיפול במולטימדיה, התוצאות חושפות שמערכות הבינה המלאכותית הנוכחיות עדיין רחוקות מאוטומציה רחבה של עבודה מרחוק. כך, שיעור האוטומציה הגבוה ביותר שהושג היה 2.5 אחוזים בלבד, כלומר שפחות משלושה פרויקטים מתוך כל מאה הגיעו לרמה מקובלת בהשוואה לעבודה אנושית. תוצאה זו מאחוזת את ההנחה השלטת שהשיפור בקריטריונים הטכנולוגיים משמעו בהכרח יכולת מיידית להחליף את העבודה האנושית. גם המודלים המתקדמים שיכולים לכתוב קודים או לייצר תמונות וטקסטים, לעיתים קרובות נכשלות כאשר מתבקשות מהם לשלב מיומנויות שונות, או לעמוד בפרטים מורכבים או להגיש קבצים שלמים באיכות מקצועית.

המכשולים של הבינה המלאכותית... והצלחה שלה

הניתוח האיכותי של הגורמים לכישלון מגלה בעיות חוזרות, מהן שגיאות טכניות בסיסיות כגון קבצים פגומים או לא ניתנים לשימוש או פורמטים לא נכונים או תוצרים חסרים ואי-סדרים. במקרים אחרים, הפרויקטים היו שלמים מבחינת הצורה אך לא עמדו ברמה המקצועית המצופה בשוק העבודה החופשי.

מנגד, המחקר זיהה תחומים מוגבלים שבהם הבינה המלאכותית הציגה ביצועים טובים יחסית, במיוחד במשימות המתמקדות בעיבוד טקסטים או ייצור תמונות או טיפול בקול כמו חלק מעבודות עריכת סאונד ועיצוב ויזואלי פשוט וכתיבת דוחות והצגת נתונים המבוססת על קוד. תוצאות אלו מצביעות על כך שהבינה המלאכותית אכן משחקת תפקיד תומך בחלק מסוגי העבודה, אם כי לא הגיעה עדיין לשלב האוטומציה המלאה.

מדידת התקדמות מבלי להפריז

על אף הירידה בשיעורי האוטומציה המוחלטים, המדד מציג שיפור יחסי ברור בין המודלים השונים. דירוגי "אילו" שהוא מערכת מתמטית להערכת ביצועים יחסיים, מצביעים על כך שהמערכות החדשות מתעלות באופן שיטתי על קודמותיהן, מה שמעיד שההתקדמות היא אמיתית וניתנת למדידה, גם אם עדיין לא התורגמה להשלמת פרויקטים שלמים. ערכו של "מדד העבודה מרחוק" טמון בעובדה שהוא מהווה כלי ארוך טווח למעקב התקדמות, רחוק מהציפיות המופרזות או ההערכות הדו-ערכיות.

ממצאי המחקר מצביעים על כך שההחלפה הרחבה של עובדים בעבודות מרחוק אינה צפויה בקרוב. במקום זאת, ייתכן שההשפעה הקרובה של הבינה המלאכותית תתבטא בהגברת הפרודוקטיביות ברמת המשימות, ולא בהחלפת משרות באופן מלא.

והשיפוט האנושי והיכולת לשלב ולבקר את האיכות יישארו מרכיבים מרכזיים בעבודה המקצועית. עם זאת, המחקר מזהיר כי הבינה המלאכותית שונה מהטכנולוגיות הקודמות של אוטומציה; היא שואפת לחקות יכולות קוגניטיביות כלליות. אם המערכות העתידיות יצליחו לגשר על הפער שמגלה המדד מבלי להתאים את עצמן באופן מלאכותי אליו, ייתכן שההשלכות על שוק העבודה יהיו עמוקות הרבה יותר.

קו בסיס חדש לדיון

מחקר זה לא טוען לנבא את העתיד, אלא מספק קו בסיס מדעי ומעשי להבנת מיקום הבינה המלאכותית כיום. על ידי קישור ההערכה לעבודה אמיתית, עלות מעשית וקריטריונים מקצועיים ריאליים, הוא מציב מסגרת מדויקת יותר לדיונים אודות אוטומציה ועבודה. עם ההתפתחות המתמשכת של הבינה המלאכותית, כלים כגון "מדד העבודה מרחוק" יהפכו לנחוצים להפריד בין התקדמות אמיתית לרעש תקשורתי, ולוודא שהדיון אודות עתיד העבודה ייבנה על עובדות ולא על הנחות.

עקוב אחרי החדשות האחרונות של צדא דרך Google News