האזינו: התוכנה החכמה של גוגל שיודעת להזמין תורים בטלפון

Google Duplex, שהוצגה אתמול בכנס המפתחים של גוגל, פותחה ע"י חוקרים ישראלים • חוץ מקביעת תורים, הטכנולוגיה יכולה גם להתקשר לעסקים כדי להציג שאלות במקרה של מידע שלא מופיע אונליין, כמו שעות פתיחה של עסק מסוים, ולעדכן את האינפורמציה בגוגל לאחר מכן

סונדר פיצ'אי, מנכ"ל גוגל בכנס אתמול / צילום: סטפן לם, רויטרס
סונדר פיצ'אי, מנכ"ל גוגל בכנס אתמול / צילום: סטפן לם, רויטרס

אחד החידושים המעניינים ביותר שהוצגו אתמול (ג') בפתיחת כנס המפתחים של גוגל (Google I/O) היא תוכנת Google Duplex - בינה מלאכותית שתבצע עבור המשתמשים משימות טלפוניות. איך זה יעבוד? המשתמש יבקש מהעוזרת הקולית גוגל אסיסטנט לקבוע לו תור לרופא השיניים, למשל, או להזמין עבורו מקומות במסעדה. לאחר מכן, גוגל דופלקס תופעל ותתקשר למקום הרצוי כדי לבצע את המשימה, ותנהל שיחת טלפון שלמה בעצמה, בקול שמתקרב להיות טבעי ואנושי. 

האזינו:

ניתן להאזין להדגמות נוספות של שיחות כאלה בפוסט בנושא שפורסם בבלוג של Google AI. התוכנה פותחה במרכז המחקר של גוגל בישראל, בשיתוף פעולה עם חוקרי גוגל נוספים, ועל הפוסט אף חתומים שני ישראלים - יוסי מטיאס, סגן נשיא בגוגל ופרופ' למדעי המחשב מאוניברסיטת ת"א, ויניב לוויתן, מהנדס ראשי בגוגל.

חוץ מקביעת תורים, הטכנולוגיה יכולה גם להתקשר לעסקים כדי להציג שאלות במקרה של מידע שלא מופיע אונליין, כמו שעות פתיחה של עסק מסוים, ולעדכן את האינפורמציה בגוגל לאחר מכן. כך, שיידרשו פחות שיחות כאלה בעתיד.

גוגל מתארת את חווית השיחה עם דופלקס כטבעית ככל האפשר, כך שנותני השירות שידברו איתה בטלפון יוכלו להשתמש גם הם בדיבור טבעי, כפי שיעשו מול בני אדם ולא מול מכונות. לשם כך בין היתר שולבו במערכת קולות שנשמעים אנושיים, כמו "אממ" שאנשים נוטים לומר כשהם עוד חושבים על תשובה. צליל כזה יאותת בצורה טבעית שהמערכת עדיין מעבדת מידע מסוים.

דופלקס מסוגלת לבצע את רוב המשימות בעצמה, ולזהות את המשימות שאינה מסוגלת לעשות באופן אוטונומי. במקרה כזה, היא מאותתת על כך למשתמש.

בפוסט המפתחים מפרטים את האתגרים הרבים עבור מערכות בינה מלאכותית בביצוע שיחות טבעיות. ביניהם הקושי בהבנת שפה טבעית, הצורך בעיבוד מהיר וביצירת קול טבעי עם אינטונציות מתאימות. הוסבר כי כשאנשים מדברים ביניהם הם משתמשים במשפטים מורכבים יותר מאשר כשהם מדברים עם מחשב, מדברים מהר יותר, עשויים לתקן את עצמם באמצע משפט או משמיטים מילים כי הם נשענים על ההקשר. לעתים משפט אחד אף עשוי להיות בעל מספר משמעויות. בשיחות טלפון מתווספים לאלה קשיים ייחודיים כמו רעשי רקע ובעיות באיכות הסאונד שיקשו על זיהוי הדיבור.

כדי לתכנן את המערכת שתתגבר על כל הקשיים הללו, מתואר כי גוגל בנתה רשת נוירונים עמוקה שעוצבה כדי להתמודד עם האתגרים. הרשת אומנה באמצעות דאטה משיחות טלפון, שכלל את השיחות עצמן ומידע אודותיהן כמו הזמן בו התרחשו והשירות המבוקש, שאיפשר למערכת להסיק מסקנות נוספות. המערכת אומנה באופן מפוקח, וכשביצעה שיחות טלפון, המפתחים תיקנו אותה בכל פעם והשפיעו על התנהגותה עד שהגיעה לרמת הביצועים הרצויה.

בין החידושים עליהם גוגל הודיעה אתמול היו גם פיצ'רים שילמדו את דפוסי השימוש של המשתמשים במערכת ההפעלה אנדרואיד P, וכך המערכת תנהל טוב יותר את חיי הסוללה למשל. המערכת תראה למשתמשים כמה זמן הם מבלים במכשיר הסלולרי, בניסיון לסייע להם לנהל את זמנם טוב יותר ותאפשר לקבוע מסגרת זמן לשימוש בכל אפליקציה. גוגל מאפס תראה למשתמש לאיזה כיוון להתקדם על פני תצוגה של הרחוב דרך המצלמה ולא על פני מפה, כדי לעזור לו לנווט.