חיזוי אנליטי – הלכה למעשה

חיזוי אנליטי – הלכה למעשה

עולם החיזוי רחב ומרתק ובפועל כולל הפעלת מנגנוני חיזוי סטטיסטיים. במאמר זה נתמקד בשאלה – באיזה אלגוריתם להשתמש וכיצד מדען הנתונים מפעיל אותם.

התשובה לכך תלויה מאוד בגודל, איכות וסוג הנתונים וכן באופי התשובה שמעוניינים לקבל. האם הכוונה לקבל שיוך לקבוצות או חיזוי מדויק של ערך מסוים. כמו כן, כאשר בוחרים אלגוריתם יש לקחת בחשבון את האילוצים שבאים עם האלגוריתם הנבחר ואיך ההתמודדות עם הנתונים הקיימים. בהרבה מקרים בודקים מספר אלגוריתמים ובודקים איזה מהם מספק את התוצר הטוב ביותר.
ישנה חלוקה כללית של סוגי האלגוריתמים ל-3 משפחות: Supervised, UnSupervised, Reinforcement learning
Supervised
אלגוריתמי Supervised יוצרים תחזיות המבוססות על סדרה של נתונים היסטוריים. לדוגמה, ניתן להשתמש בשערי הדולר ההיסטוריים כדי לנחש סיכונים או שערים עתידיים. כל נתון המשמש לאימון מסומנת עם ערכה – במקרה זה שער הדולר. האלגוריתם לומד ומחפש דפוסים באותם נתונים המתויגים כלמידה. האלגוריתם יכול להשתמש בכל מידע שעשוי להיות רלוונטי – יום בשבוע, העונה, שערי מטבע אחרים, הריבית במשק,, הנוכחות של אירועים מדיניים או בטחוניים. לאחר שהאלגוריתם מצא את התבנית הטובה ביותר שהוא יכול לעשות, הוא משתמש בדפוס זה כדי ליצור תחזיות כאשר יש הנתונים המסבירים בלבד
Supervised learning היא בשימוש שכיח בתעשייה וקלה להבנה ולשימוש. החלוקה הפנימית היא לרוב :Classification – כאשר הנתונים משמשים לחזות קטגוריה, Regression – כאשר יש ערך אותו מעוניינים לנבא ( לחץ דם, שערי מניות, גובה , משקל)
שמות כמה האלגוריתמים: Linear regression, Logistic regression, Decision trees, Random forests, Neural networks
דוגמא: כאשר מעוניינים לדעת איזה לקוחות מתאימים להצעה שיווקית מסוימת. אוספים מכלול של לקוחות עבר עם מידע כאשר לחלק יש המוצר או השירות ולחלק אין ומסמנים אותם בהתאם (1 עבור לקוח עם המוצר או שירות ו-0 עבור לקוח ללא ). לומדים עפ"י נתוני העבר איזה לקוחות בעלי הסיכוי הגבוה לרכוש את המוצר. כאשר המודל קיים וטוב ניתן לבדוק על לקוחות חדשים ע"י הרצת המודל על הלקוח החדש ( ביצוע scoring על רשומות הלקוח) וקבלת הסיכוי שירכוש את המוצר. את אלו עם הסיכוי הגבוה ביותר מעבירים לאנשים המכירות או מוקד המכירות.
UnSupervised
המטרה של אלגוריתם למידה זה היא לארגן את הנתונים בצורה כלשהי חדשה או לתאר את המבנה שלה. הכוונה היא למצוא סגמנטים או אשכולות דומים. בשימוש זה מוצאים דרכים להסתכל על נתונים מורכבים כך שזה יראה פשוט ומאורגן יותר.
שמות כמה האלגוריתמים: k-means, Hierarchical clustering
דוגמא: כפי שכתבתי בפוסט קודם ניתן לבצע סגמנטציה על הלקוחות כדי להבין באיזה שלב הם וכדי להתאים את ההצעה השיווקית למצב שלהם בcustomer life cycle. ברגע שאנו נבין את הסגמנט אליו מתאים הלקוח נוכל להתאים את ה- Customer Journey כך שנמקסם את ה-ROI מכל לקוח. בדוגמא שנתתי בפוסט הקודם השתמשתי ב-KMEANS על נתוני הלקוח כדי לחלק לסגמנטים.
Reinforcement learning
האלגוריתם מקבל לבחור פעולה בתגובה לכל נקודת נתונים. אלגוריתם הלמידה מקבל גם אות תגמול זמן קצר לאחר מכן, המציין כמה טוב היה ההחלטה. על בסיס זה, האלגוריתם משנה את האסטרטגיה שלו על מנת להשיג את הפרס הגבוה ביותר. אלגוריתמים אלו פחות שכיחים הם בשימוש במכונית האוטונומית וכד' בשימוש ב- deep reinforcement learning
שיקולים בבחירת אלגוריתם – דיוק החיזוי, זמן הלימוד ואימון המודל, מספר המשתנים המסבירים ואיך תשפיע על זמן האימון והאם ישים בכלל, הנחת לינאריות של המודל והאם היא מתאימה לנתונים
לסיכום, בחירת המודל תלויה מאוד בבעיה העסקית אותה מנסים לפתור ויש לדעת את החסרונות והיתרונות של המודלים והשימושים השונים שלהם כדי לבחור בצורה נבונה והגיונית. גם טובי ה-Data Scientists בוחנים מספר מודלים לפני שבוחרים את האחד וזאת על מנת לקבל את התוצאות המיטביות. הבנת מבנה הנתונים וסוג הנתונים מאוד חשובה ויש להשקיע זמן הכנה ולימוד לפני הרצת המודל כדי לא לבזבז זמן יקר על מודל שאינו רלבנטי לנתונים.

אם תרצו להרחיב או לבדוק אפשרות של הפעלת מנגנוני חיזוי אצלכם – נשמח להרחיב ולהיפגש.

שלום דינור, Senior data scientist
צביקה ירון, סמנכ"ל מכירות
דטה קיוב.

Zvika Yaron

zvi@datacube.co.il

No Comments

Post a Comment