חיזוי נטישה באמצעות Microsoft Azure Machine Learning

הנטישה המשמעותית ביותר באפליקציה מתרחשת מיד לאחר ההתקנה בין אם היא נמצאת במכשיר נייד או בפייסבוק.
השעות הראשונות, שלא לומר הדקות הראשונות הן קריטיות לחוויה הראשונית של המשתמש.
בפוסט זה אתמקד באפליקציה אך המתודולוגיה רלוונטית גם לתחומים אחרים וניתן להתאימה בקלות.

ההשפעה החיובית של עלייה של 10% + בשימור ביום השני היא סיבה טובה לבניית מודלים של נטישה. מתוך המחקר וההבנה של בסיס המשתמשים מתברר כי הגדלת השימור לטווח הקצר היא קריטית על מנת לשמור ולבנות צמיחה בריאה עם זנב ארוך של משתמשים ותיקים. השפעה החיובית על ה- LTV – Life time value מושגת ביעילות רבה יותר באמצעות שימור לטווח ארוך בהשוואה לשיפור בשימור לטווח קצר. לדוגמה -השפעה של עליה ה10% בשימור שבוע ראשון הרבה יותר משמעותי בעליה ב-10% בשימור אחרי 30 יום. למידע נוסף על A/B Testing.

המטרה של המודל churn היא לנבא מתי משתמשים נוטשים או במקרה הזה מי משחקנים חדשים אשר התקינו ושיחקו ינטשו את המשחק למחרת.

הגדרת המדד אותו מנסים לחזות – חוסר פעילות ביום הראשון והשני לאחר ההתקנה. (0 הוא יום ההתקנה)

במקום לחכות ליום 3 של חוסר פעילות על מנת לוודא אם השחקן עזב ולא יחזור, המטרה היא לחזות נטישה כבר ביום ההתקנה.

באשר לזמינות הנתונים הרלוונטיים למודל, לא היה מחסור במאגרי המידע שלנו. המיקום שלנו של סף חוסר הפעילות עבור נטישה ביום 2 היה גם לא בעיה, שכן נטישה נפוצה מאוד ביום השני לאחר ההתקנה (כ 55% על ניידים ו -75% בפייסבוק).

לקחנו נתונים של 2 שבועות עם כ-7000 התקנות ביום ונתוני משחק ליום הראשון של כל התקנה. השתמשנו ב-Cortana intelligence suite וספציפית ב- Azure Data Warehouse ו- Azure Machine Learing לבניית המודלים (Predictive analytics via Azure Machine learning), בניית פאנל הנתונים , ניתוח נתונים, בנייה מודלים ו-Scoring ראשוני. Azure ML מאפשר בדיקה של סוגי מודלים שונים בהתאם לצורך :clustering, classification , regresion , וזיהוי אנומליות. כך שיכולנו לנסות מודלים שונים על הדאטה

בניית פאנל הנתונים

בנינו פאנל המבוסס על נתונים היסטוריים של התקנות חדשות וחוויית היום הראשון. הנתונים כללו כ 90,000 התקנות, מתוכם 80% churned בתוך 2 ימים. משתנים מסבירים רבים נוספו עבור כל אחד מהמשתמשים ליום המשחק הראשון.

משתנים מסבירים:

מספר הפעילויות, זמן ממוצע של פעילות באתר, סה"כ זמן משחק, מספר ה-Levels שעבר, סוגי משחקים ששוחקו, סוף שבוע או יום בשבוע להתקין, ניצחונות גדולים, מקור ההתקנה, סוג ה-device

ואינדיקטור נטישה Churn Indicator (אותו מנסים לחזות)

בניית ובדיקה של המודל

בחרנו לעבוד עם רגרסיה לוגיסטית (Cross validated logistic regression) משום הפשטות, קלות הפרשנות ויציבות המודל.

תרגיל החיזוי הניב תוצאות טובות. השיטות שיושמו הניבו AUC: הנע בין 0.82 ל 0.92, בהתאם למשתנים המסבירים שהיו במודל. כיסוי היה מעל 80% של churners ו-false-positive היה מתחת 20%.

המשתנים שהתבררו משמעותיים (p-value <0.05) לתחזית (Prediction): סה"כ זמן במשחק, סוף שבוע או יום בשבוע להתקין, זכייה גדולה, סוג device.

תוצאות המודל

אחת התובנות היא כי נטישה של משתמשים אחרי היום הראשון היא התנהגות הניתנת לחיזוי באחוזי פגיעה גבוהים יחסית ועם ROI חיובי. התבוננות נוספת היא שניתן לזהות באגים ש- QA לא זיהה (למשל, גרסאות ספציפיות לנייד שאינן פועלות היטב). התכונות החיזוי שהתברר בסופו של דבר להיות משמעותי היו בעיקר משתני הזמן שימוש ביום הראשון.

כיצד פעלנו עם מידע זה?

ההתערבות בוצעה באמצעות הודעות דוא"ל והודעות ביום שלאחר ההתקנה הראשונית עם הודעה ספציפית עבור אלה שנטשו. ההודעה כללה בונוס (Incentive) מיוחד וחוויה ייחודית שהשתנתה מעת לעת. שיעורי התגובה היו נמוכים למדי, אך כ -10% מהנוטשים חזרו בעקבות פעולות אלה. ( כמובן שניתן להפיק מגוון פעילויות שיווקיות לאוכלוסייה זאת אך לא אכנס לזה בפוסט זה)

התערבות נוספת היא לזהות אילו גרסאות ניידים (devices) הציגו שיעורי נטישה נמוכים משמעותית ביום שני (מובהקים סטטיסטית) ולטפל בגרסאות אלה.

אנו פועלים במגוון ורטיקליים עסקיים ומפעילים מנועים סטטיסטיים על מנת להרחיב את יכולות המידע התחרותי – נשמח להיפגש ולבדוק יחד מה מתאים עבורכם.

נכתב ע"י

שלום דינור Data Scientist, דטה קיוב

צביקה ירון, סמנכ"ל עסקי, דטה קיוב