פריצת דרך לגוגל: פיתחה תוכנה משופרת לדיבור ממוחשב

על הפיתוח רשומה חטיבת DeepMind בחברה, העוסקת בפיתוח בבינה מלאכותית ■ התוכנה מסוגלת ללמוד מילים חדשות באופן עצמאי ■ בודקת כל אות אודיו כ-16 אלף פעמים בשניה

גוגל / צילום: Shutterstock/ א.ס.א.פ קרייטיב
גוגל / צילום: Shutterstock/ א.ס.א.פ קרייטיב

יחידת DeepMind של גוגל, העוסקת בפיתוח מחשבים סופר-אינטליגנטיים, פיתחה תוכנה להפקת דיבור ממוחשב. לדברי החברה, הביצועים של התוכנה עולים ב-50% על ביצועיהן של תוכנות שפועלות על בסיס טכנולוגיות קיימות.

DeepMind, הפועלת מבריטניה, נרכשה בידי גוגל תמורת 400 מיליון ליש"ט (533 מיליון דולר) ב-2014. החברה פיתחה תוכנת בינה מלאכותית בשם WaveNet שמסוגלת לחקות דיבור אנושי הודות לכך שהיא מלמדת את עצמה כיצד להפיק גלי קול. בבדיקות שנערכו באנגלית אמריקאית ובסינית מנדרינית, דיווחו המשתתפים בניסוי כי הדיבור שהפיקה WaveNet נשמע טבעי יותר מהדיבור שהפיקו התוכנות הקיימות של גוגל להמרת טקסט לקול. התוכנות הקיימות פועלות באמצעות טכנולוגיות שונות. עם זאת, עדיין ביצועיה של WaveNet היו נחותים מהקלטות של דיבור אנושי אמיתי.

תוכנות דיבור ממוחשב רבות פועלות באמצעות שימוש במאגר נתונים גדול של הקלטות קצרות של דובר אנושי יחיד. התוכנות משלבות פיסות דיבור אלה כדי ליצור מילים חדשות. התוצאה היא דיבור ברור שנשמע אנושי, אך לא טבעי לחלוטין. חיסרון נוסף הוא שלא ניתן לשנות בקלות את נימת הקול. תוכנות אחרות יוצרות את הקול באופן אלקטרוני לחלוטין, בדרך כלל על בסיס כללים שמתייחסים לאופן שבו מבוטאים צירופי אותיות מסוימים. מערכות אלה מאפשרות מניפולציה קלה של נימת הקול, אך הדיבור נשמע פחות טבעי משל דיבור ממוחשב שמבוסס על הקלטות של דוברים אנושיים, לטענת DeepMind.

"משימה מאתגרת"

WaveNet היא בינה מלאכותית מהסוג המכונה 'רשת עצבית', שנועד לחקות את האופן שבו מתפקדים חלקים מסוימים מהמוח האנושי. רשתות כאלה צריכות לעבור הכשרה באמצעות שימוש במאגר נתונים גדולים.

ל-WaveNet אין כעת יישומים מסחריים מכיוון שהיא דורשת עוצמה חישובית רבה מדי. המערכת צריכה לבדוק 16 אלף פעמים בשניה, ואף יותר, את אות האודיו שהיא לומדת, לדברי DeepMind. בכל אחת מהבדיקות האלה צריכה המערכת לנחש את הצליל על בסיס כל אחד מהצלילים הקודמים. אפילו החוקרים ב-DeepMind מודים בהודעת הבלוג שלהם שזוהי "משימה מאתגרת בבירור".

עם זאת, צפויות חברות טכנולוגיה להתייחס בתשומת לב רבה לפריצת הדרך של DeepMind. הדיבור הופך לאמצעי בעל חשיבות גוברת באינטראקציה של בני אדם עם כל המכשירים, החל ממכשירי טלפון ניידים וכלה במכוניות. אמזון, אפל, מיקרוסופט ואלפבית של גוגל משקיעות בפיתוח עוזרים דיגיטליים אישיים שעיקר האינטראקציה שלהם עם המשתמשים מתבצעת באמצעות הדיבור. מארק בנט, המנהל הבינלאומי של גוגל פליי, שמוכרת יישומי אנדרואיד, אמר בכנס מפתחי אנדרואיד בלונדון בשבוע שעבר כי 20% מהחיפושים הניידים בגוגל מתבצעים באמצעות הקול, ולא באמצעות טקסט מוקלד.

למרות שהחוקרים עשו צעדים גדולים בלימוד מחשבים להבין שפה מדוברת, לא נרשמו הישגים דומים בפיתוח יכולתם של המחשבים לענות למשתמש באופן שנשמע אנושי לחלוטין.

WaveNet מהווה הישג מזהיר נוסף ל-DeepMind, שהתפרסמה בעיקר הודות ליצירת AlphaGo, תוכנת בינה מלאכותית שניצחה השנה את השחקן הטוב ביותר בעולם במשחק האסטרטגיה גו.

עם זאת, לא חשפה גוגל את התרומה המסחרית שהניב המחקר של DeepMind, למרות שהיא כן חשפה כי השתמשה בטכנולוגיה של DeepMind כדי לצמצם ב-40% את צריכת החשמל של מרכזי הנתונים שלה, וכי סכום הכסף שנחסך גבוה דיו כדי להצדיק את הסכום ששילמה גוגל עבור מפתחת הבינה המלאכותית מלונדון. כמו כן אמרה גוגל כי DeepMind סייעה לה לבצע "שיפורים משמעותיים בשורת שירותים, החל ביוטיוב וכלה בגוגל פליי ובמוצרי הפרסום של גוגל".