חמישה מיתוסים על מדע הנתונים - שצריך לנפץ

ככל שהתחום הופך יותר ויותר נפוץ ונדרש - כך גוברים העיוותים לגביו • הגיע הזמן לתאם ציפיות מול לקוחות, עובדים, מעסיקים ומשקיעים

מרכז נתונים בארה"ב / צילום: shutterstock, שאטרסטוק
מרכז נתונים בארה"ב / צילום: shutterstock, שאטרסטוק

בעשור האחרון חשיבותו של המידע וההשפעה שלו על הצלחת הארגון הפכה ברורה לכול. עם זאת, ארגונים רבים עדיין אינם מנצלים היטב את הפוטנציאל הגלום במידע הזמין להם. בסקר שנערך ע"י גרטנר ב-2019, נמצא כי פחות מ-50% מהתוכניות האסטרטגיות של ארגונים גלובליים מכילות דאטה כרכיב מרכזי. אחת הסיבות העיקריות לכך היא חוסר ההבנה ששורר לעיתים בארגונים בנוגע לתחום מדע הנתונים (Data Science) ולדרכים השונות להפיק תועלות ממנו.

על מדעני הנתונים מופקדת המשימה החשובה של חילוץ תובנות ממידע בעזרת אוסף של שיטות ואלגוריתמים שונים, כמו הבנת ההעדפות של הלקוחות לצורך הצעת מוצרים מותאמים אישית. תפקיד זה תופס תאוצה בשנים האחרונות, וכבר זמן רב אינו בשימוש בלעדי של חברות מובילות וגדולות (כדוגמת פייסבוק וגוגל), אלא גם של חברות בסדר גודל קטן יותר, כולל חברות שלא מוגדרות במהות שלהן "חברות מבוססות טכנולוגיה".

בשנים האחרונות שמעתי כמה מיתוסים בנוגע למדע הנתונים, חלקם רחוקים מהמציאות. הגיע הזמן לרסק את הפופולריים שבהם.

1. יותר מידע שווה יותר דיוק

בזמן שארגונים אוספים ושומרים כמויות עצומות של מידע, רובם עדיין לא מנצלים אותו לתובנות משמעותיות שיקדמו אותם. עם זאת, מידע רב לאו דווקא מוביל לדיוק רב יותר או ליותר תובנות.

בתהליך יצירת הערך ממידע ישנם מספר שלבים. שלב איסוף המידע הוא רק ההתחלה. השלבים הבאים כוללים בדיקה ובחירה של מערכי הנתונים (Datasets) המתאימים לעולם הבעיה העסקית, ואותם אנו צריכים לנתח. לאחר מכן אנשי הדאטה בארגון ישתמשו בכלי הניתוח השונים כדי לחלץ תובנות ויבנו את המודלים. תוך כדי התהליך יעברו מספר שלבי טיוב שנועדו לשיפור איכות הנתונים. כלומר, נקבל מודל מדויק יותר ככל שנשקיע בתהליכים אלו. המודל לא יהפוך למדויק יותר גם אם ישנן כמויות גדולות מאוד של מידע.

2. השקעה תמיד מובילה לתוצאה בעלת ערך

"השקענו משאבים תשתיתיים, בנינו צוותים של אנשי דאטה שונים, כולל מדעני נתונים, קנינו כלים ומערכי נתונים - ועכשיו הגיע הזמן לקבל תוצרים. ומהר". אני בטוח שכמעט כל מי שמתעסק בדאטה שמע אמירה דומה לזו.

איסוף וניתוח נתונים וחילוץ תובנות מהם הוא קריטי לכל ארגון מודרני. בשימוש במדע נתונים ארגונים מצפים לקבל ערך, אך לא כל תהליך כזה מייצר תמיד תוצאה בעלת ערך. במדע הנתונים מנסים לזהות דפוסים במידע, אולם לא מובטח שתמיד נמצא אותם. ישנם מצבים שכלל לא ניתן למצוא תובנות, ויותר מכך - לעיתים מוצאים תובנות שאינן בעלות ערך עסקי.

נניח שאנו מנהלים חברה למכירת שואבי אבק מדלת לדלת. יש לנו נתונים בנוגע לפעילות אנשי המכירות שלנו: האם המכירה הצליחה, מועד/תקופה בשנה, דגם המוצר, מיקום ואפילו מזג האוויר באותה עת. כעת, החלטנו להעסיק מדען נתונים ונתנו לו את המשימה למצוא דפוסים למכירות מוצלחות. לאחר מחקר רחב, עשוי מדען הנתונים להגיע למסקנה שבנתונים שלנו אין מאפיינים חד משמעיים שמשפיעים בצורה מובהקת על הצלחת העסקה.

לכן חשוב שאנשי הדאטה יעבדו בצמוד עם גורמים עסקיים, כדי לצמצם ככל האפשר מקרים כאלו, אך הם כאמור עדיין עשויים לקרות מסיבות שונות, כגון: מידע מועט, חלקי או "רועש".

3. מדע נתונים לא מתאים לארגונים קטנים

אם יש רק דבר אחד לזכור מהמאמר - ארצה שהוא יהיה הפרכת המיתוס הזה.

המון ארגונים קטנים ובינוניים מאמינים שלא יוכלו לשלב יכולות מדע נתונים בארגון, מאחר שאין להם משאבים להשקיע בתשתיות דאטה גדולות ומורכבות. בפועל ישנם היום כלים (חלקם חינמיים ככלי קוד פתוח) שניתן להטמיעם בקלות יחסית ובשילוב צוות קטן יחסית של אנשי דאטה.

ניקח למשל עסק המוכר מוצרים ושירותים אונליין. העסק חשוף לפרטים רבים על פעילות הלקוחות: באילו דפים הם מבקרים, על מה הם לוחצים, מה נמצא בעגלת הקניות וכו'. ע"י גיוס של מדען נתונים ובעזרת שימוש בכלים פשוטים יחסית, נוכל לבנות מודל המציע מוצרים המתאימים לטעמי הלקוח בהתבסס על נתוני השימוש שלו.

4. חייבים להיות עילוי כדי להפוך למדעני נתונים

ישנה הילה גדולה סביב מקצוע מדע הנתונים והוא אחד המבוקשים בהייטק. אבל, חשוב לציין שבעולם המידע ישנם מקצועות נוספים וחשובים, המוסיפים ערך רב לאורך כל שרשרת המידע: מנתחי מידע, מהנדסי נתונים, אנשי בינה עסקית ואחרים.

יש לי בשורה טובה למי שמבקש להיות מדען נתונים - אתם לא חייבים להיות גאוני הדור. כשחיפשתי לגייס מדעני נתונים לפני כמה שנים, עברתי בתחילה על דרישות משרה של חברות רבות מחפשות תארים מתקדמים ואכן הבנה עמוקה בסטטיסטיקה ובאלגוריתמיקה, למשל, חשובה מאוד למקצוע. אולם בצוות מאוזן של מדעני נתונים, אין צורך שכולם יהיו ד"ר. זהו מקצוע שאפשר ללמוד ולהתפתח אליו ממקצועות שונים בעולמות מדעי המחשב בכלל והדאטה בפרט.

5. מדע נתונים הוא מונח נרדף לבינה מלאכותית

לצערי אני שומע אמירה זו לעיתים יותר תכופות ממה שהייתם מצפים. מדע הנתונים ובינה מלאכותית קשורים ומכילים כמה אזורי השקה, אך אינם זהים.

בהגדרה פשטנית, מדע נתונים הוא תחום שמטרתו ניתוח נתונים ומציאת דפוסים לצורך חילוץ תובנות ממערכי נתונים בעזרת שיטות ניתוח מתקדמות ומגוונות. מטרתו של תחום הבינה מלאכותית (שהוא יותר מונח שיווקי מטכנולוגי) היא לבצע אמולציה של הבינה האנושית דרך שימוש באלגוריתמים שונים על מנת להגיע למצב אוטונומי שלהם ככל האפשר. בהקשר של מדע נתונים, בינה מלאכותית יכולה להיחשב ככלי עבור מדע הנתונים. כלומר, במסגרת עבודתו מדען הנתונים עשוי להשתמש בשיטות מבוססות בינה מלאכותית כמו למידה עמוקה על מנת לחלץ תובנות מתקדמות ממידע.

מידע הוא כאמור קריטי להצלחה של הארגון וחשוב שנבין בצורה נכונה את העקרונות העומדים בבסיסו, כולל הפרכת האמירות המוטעות. הבנה זו יכולה להפוך אותנו לסוכני שינוי שיקחו קדימה את הארגון בו אנו עובדים.

מנהל מחלקת מידע ותובנות וממונה על אסטרטגיית המידע בחטיבת הטכנולוגיה של הפועלים