השיעור שניתן ללמוד מהראיון המפתיע של סטיב ג'ובס

השיחה שלא באמת התקיימה בין מייסד אפל סטיב ג'ובס לפודקאסטר המצליח בעולם ג'ו רוגן מסמנת את הכיוון שאליו הולכת הבינה המלאכותית • מדובר בלא פחות ממהפכה שתשנה את האופן שבו אנחנו מתקשרים ואת היחס שלנו למשאב הזמן, ותשכתב את כל התסריטים המקובלים

סטיב ג'ובס. ה''ראיון'' עמו מדגים כיצד ניתן לייצר לכל אדם דמות ''מורחבת'' ללא מגבלת זמן ושפה / צילום: Associated Press
סטיב ג'ובס. ה''ראיון'' עמו מדגים כיצד ניתן לייצר לכל אדם דמות ''מורחבת'' ללא מגבלת זמן ושפה / צילום: Associated Press

הכותב הוא מנכ"ל Anyverse, מרצה ומומחה בינלאומי לחדשנות וטכנולוגיה

לפני קצת יותר משבוע הגיע סטיב ג'ובס להתראיין אצל הפודקאסטר המצליח בעולם ג'ו רוגן, לראיון מרתק של 19 דקות. ג'ובס אומנם נפטר ב־2011, אבל הבינה המלאכותית ייצגה אותו - וזה אירוע ששווה שנדבר עליו.

נתחיל מהפרטים: חברה מדובאי בשם Play.ht, שעוסקת ביצור של קולות אנושיים באמצעות בינה מלאכותית, יצרה ראיון פיקטיבי לחלוטין שבו גם הטקסטים של המשתתפים (ג'ובס ורוגן) וגם הקולות שלהם יוצרו על־ידי AI. 

השיעור המרתק שכולנו צריכים ללמוד מחברת משלוחי הסופר אינסטה קארט
מה תעדיפו: לשלם יותר על אפליקציות או לקבל פרסומות ממוקדות אישית?

מאחר ש־Play.ht לא עוסקת ביצור טקסטים אלא רק קולות, את הטקסטים היא יצרה עם מודל שפה חיצוני אחר שלא פורסם מהו, אך ניתן להעריך כי מדובר באחד המודלים הנפוצים של OpenAI (שנקרא GPT-3) או של AI21LABS (שנקרא Jurassic-1).

איך מאמנים מודל בינה מלאכותית לייצר את הקולות של ג'ובס או רוגן, או לכתוב עבורם טקסטים? בנוגע לקולות, כל מה שמודלים היום צריכים זה כמה שיותר דגימות קול של אותו אדם שרוצים לעשות סימולציה לקול שלו, ובמקרה של רוגן וג'ובס, אני בטוח שלא הייתה בעיה למצוא שעות רבות של הקלטות איכותיות שלהם.

עניין הטקסטים מורכב יותר: כדי שמודל השפה באמת ייצר טקסטים רלוונטיים, הוא צריך כמה שיותר מידע גולמי. מתוך אותו מידע הוא מתחיל להבין את צורת ההתנסחות, הדעות של אותו אדם וכן הלאה. במקרה של רוגן לא אמורה להיות בעיה, כי יש לו אלפי שעות מוקלטות בפודקאסטים שלו וביוטיוב. לגבי ג'ובס זה קצת יותר קשה, ולכן השתמשו גם בביוגרפיה שלו כאינפוט עבור המודל, בנוסף לראיונות שפורסמו איתו.

בשורה התחתונה, הרעיון עצמו היה טוב מאוד, אבל הביצוע לא מצוין. היו פספוסים, לא הכול היה מושלם, והשיחה לא הייתה קולחת, אבל אין ספק שזה מצית את הדמיון לגבי מה שצופן לנו העתיד ומה אפשר יהיה לעשות בעוד שנים ספורות מאוד. ואגב, זה מתחבר לדיווח אחר מלפני מספר שבועות (שהוכחש לאחר מכן), שלפיו השחקן ברוס וויליס מכר את הזכויות להשתמש בדמות ובקול שלו ללא הגבלת זמן לחברה בשם Deepcake. איך? בואו נצלול בשביל להבין.

הסרט הבא בנטפליקס

הבינה המלאכותית יודעת כבר היום לייצר "אנשים וירטואליים" שנראים אחד לאחד כמו אנשים אמיתיים (לא מאמינים לי? תחפשו בגוגל Metahumans), קולות שנשמעים כמו אדם אמיתי (Play.ht אינה היחידה, יש עוד רבות וטובות) ותוכן שמתקרב לאופן שבו האדם המקורי היה מתנסח ואולי אפילו חושב. כל זה עומד לפגוש אותנו במגוון עצום של תחומים.

אלה יכולות להיות דמויות וירטואליות במשחקי מחשב, או עולמות וירטואליים שיגיבו להתקדמות שלנו, יענו לשאלות שלנו ואולי אפילו יתאימו את עצמם תוך כדי תנועה לאופן בו אנחנו מתקשרים איתם. זה רלוונטי גם לדמויות בסרטים וסדרות, שבהיעדר צורך בצילום אמיתי של כל סצנה וסצנה, יוכלו להתאים את העלילה, את המראה ואת הקול של הדמויות ואת הסצנות להעדפות האישיות שלנו. ולבסוף, כפי שכתבנו כאן לאחרונה, ניתן יהיה "לשמר" בני אדם שכבר נפטרו לטובת שיחות אישיות, התייעצות וכן הלאה.

כדי להמחיש את הפוטנציאל, נתעמק בכמה דוגמאות ספציפיות. היום כשאנחנו צופים בנטפליקס, למשל, אנחנו צופים בסרט אחד שצולם על־ידי סט שחקנים אחד, עם עלילה אחת, באורך אחד ובאופן הגשה אחד. אבל בעוד לא הרבה שנים, הטכנולוגיה תאפשר לנו לקחת את אותם שחקנים ולייצר איתם אינסוף סרטים שונים.

שונים במה? באופן שבו העלילה מתקדמת, באופן שבו השחקנים נשמעים, באורך הסרט או אפילו בדמויות עצמן. תכלס, כל אחד ואחת מהמשתמשים יוכל לצפות בסרט אחר לגמרי שמבוסס על אותו שלד של עלילה, וכל זה מבלי שיצטרכו לצלם או אפילו לתסרט או לביים את כל האופציות. האם אלה דמויות שמייצגות אנשים מפורסמים או לא (כמו במקרה של ברוס וויליס)? זו כבר שאלה שרק הזמן יוכל לענות עליה.

חיבור נוסף לעולם הפרסום והשיווק הוא כמובן הגביע הקדוש של פרסומות מותאמות אישית. אנחנו מדברים על זה כבר לפחות שני עשורים, אבל מי שתעזור לחלום הזה להפוך למציאות היא בראש ובראשונה הבינה המלאכותית - אותם אנשים, טקסטים וקולות וירטואליים.

תחברו את היכולות האלה לטלוויזיות חכמות באמת, כמו הטלוויזיות החדשות של אמזון והסטיקים החדשים של Roku, והרי לכם הנתיב לכך שכל משתמש שצופה בטלוויזיה יקבל פרסומת שלא רק הותאמה עבורו מבחינת המפרסם או התוכן, אלא גם מבחינת הדמויות, התסריט ואפילו הקולות.

להתייעץ עם דיסני

בואו ניקח דוגמה נוספת. היום היכולת של אדם מפורסם (ספורטאי, אמן או כל דבר אחר) לייצר אינטראקציה עם המעריצים מוגבלת לזמן הפנוי שיש לו ביום, לשפות שהוא יודע וכדומה. אבל באמצעות מודלים של בינה מלאכותית אותו מפורסם יוכל לייצר דמות או דמויות שהן מעין הרחבה שלו, כאלה שיוכלו לייצר אינטראקציות עם המעריצים כל יום, כל היום. הוא כמובן ידאג לאמן את המודל, להגדיר מה גבולות הגזרה של הנושאים או הדברים שמותר לו לענות לגביהם, ומשם הוא זמין בשבילם 24/7 בכל מקום.

ל־NLP (עיבוד שפה טבעי, הטכנולוגיה שעל בסיסה בנויים מודלים של בינה מלאכותית ללימוד והבנה של שפה) יש פוטנציאל גם בתחומים כמו הארכת חיים (כתבתי על כך כאן בעבר) - במקום שאדם שנפטר ייעלם מחיינו בין־לילה, אפשר לשמר סוג של דמות שתייצג אותו, ולייצר איתה אינטראקציות במקרים מסוימים.

אישית אני בטוח שאם היו דמויות כאלה מתוחזקות (כלומר שהמידע שלהן מתעדכן גם בהתאם למה שקורה היום בעולם, ולא נשאר "קפוא") של צ'רצ'יל, וולט דיסני, דה וינצ'י, בן גוריון, הרמב"ם ועוד כמה אנשים שאני מעריך - הייתי שמח להתייעץ איתם על לא מעט דברים ביומיום שלי.

כמובן שהארכת חיים וירטואלית היא נושא רגיש מאוד, שפותח שאלות פילוסופיות רבות בנוגע למהו אדם, מהי דעה ואיך בכלל אפשר לומר שבוט שמדבר במקומך מייצג אותך בצורה כזו או אחרת. האמת היא שאין תשובה אחת לשאלות האלה. בסוף אנחנו כחברה (Society) נצטרך להגדיר את גבולות הגזרה האלה ולהחליט מה מקובל ומה לא, ואיפה הקווים האדומים.

עם זאת, המהפכה של הבינה המלאכותית בשנים האחרונות, ובפרט של ה־NLP - כולל הראיון הזה של ג'ובס ורוגן - עומדת לשנות את האופן שבו אנחנו מתקשרים, ואת היחס שלנו למשאב המוגבל שנקרא זמן. במציאות שבה אפשר לייצר לכל אחד מאיתנו הרחבות והתפצלויות כאלה שפועלות ללא הגבלת זמן או במקביל - השמיים הם הגבול, עם כל הסיכונים והשאלות הקשות שעולות מסביב.