מדען נתונים-טכנולוגיות וכלים בשימוש

משרת ה-Data Scientist היא אחת המקצועות החמים בשוק העבודה הנוכחי. יותר מזאת ב-Glassdoor מעניקים לעבודה זאת התואר העבודה הטובה ביותר של 2017. כבר בשנת 2011, בחברת McKinsey חזו כי יהיה מחסור של 1.5 מיליון מנהלים ואנליסטים עם הידע להשתמש בניתוח של נתוני Big Data על מנת לקבל החלטות מושכלות.
כל פעולה שמבצעים באינטרנט מייצרת נתונים הנרשמים בבסיס נתונים או קובץ כלשהו. ה-Data Scientist צריך להבין את הנתונים, לגלות מגמות בנתונים ולבצע תחזיות כדי לראות אם הנתונים שימושיים. בפוסט הזה אתמקד במיומנויות הנדרשות ובכלים הדרושים והנפוצים ביותר בשוק.

תִכנוּת וכתיבת סקריפטים – Data Scientist משתמשים בתכנות כדי לעבוד עם מסדי נתונים שלמים שהם מטפלים בהם כדי לאסוף מידע המשמש אותם. שפות ( חלקם שפות סקריפט) הנפוצות ביותר בשימוש למטרות אלו עפ"י סקר של KDnuggets הם: R, Python, SQL, Java/Scala, C/C++, Perl, Julia

ניתוח נתונים – ניתן להתחיל עם בעיה ולנתח נתונים בניסיון למצוא את הפתרון לבעיה זו, וניתן להתחיל עם כמויות גדולות של נתונים (Big Data) ולנתח אותו בחיפוש אחר מגמות ספציפיות להצביע על הזדמנויות הנובעות מתוך הנתונים. לפני שמתחילים את מלאכת הניתוח יש לנקות ולסדר את ה-Data לבצע אגרגציות או לצמצם את מספר המשתנים המסבירים. כמובן שלאחר הניתוח יש להציג את התובנות באופן המובן לקהל שאינו Data Scientist. שלב הניקיון וסידור הנתונים ניתן לבניה תהליכית בשימוש ב-KNIME או Pentaho לדוגמה.

חזוי ובניית מודלים סטטיסטיים – בניית מודלים וחיזוי הוא מה שמפריד בין Data Scientist ובין אנליסט / מנתח הנתונים. Data Scientists צריכים לנבא באמצעות נתונים מן העבר. על כך כתבנו בפוסטים קודמים. הכלים שמשתמשים הם מגוונים ומשתנים מארגון לארגון. מרבית האנליסטים משתמשים ב-R וב-Python כברירת מחדל ולו בשביל מחקר ראשוני מקדים. אחרי הניתוח וההסתכלות הראשוניים ישנם מוצרים שונים המקלים מאוד על העבודה ובוודאי בסביבת Production. מתוך אותו סקר ניתן לראות במה Data Scientists משתמשים:

מעניין גם לראות את הכלים שחוו ירידה משמעותי בשימוש :

Major Analytics/Data Science Tools with the largest decline in usage
Tool % change 2017
% usage 2016
% usage
Turi (former Dato/GraphLab) -93% 0.2% 2.4%
RapidInsight/Veera -92% 0.2% 3.0%
Salford SPM/CART/RF/MARS/TreeNet -89% 0.4% 3.5%
MLlib -61% 4.5% 11.6%
C4.5/C5.0/See5 -38% 1.2% 2.0%
Hadoop: Open Source Tools -32% 15.0% 22.1%
Other free analytics/data mining tools -29% 4.8% 6.8%
Rattle -28% 2.6% 3.6%
Perl -27% 1.7% 2.3%
Pentaho -23% 1.8% 2.3%
Gnu Octave -22% 2.4% 3.1%
QlikView -21% 4.2% 5.3%

שימוש ב – R, Python, SQL היא בד"כ הגישה הפרקטית והמהירה לנתח לבנות תחזיות ולהפיץ מידע. כאשר Python בדרך כלל מהיר יותר מאשר R ומאפשר משיכה ודחיפת נתונים קלה יותר. R מספק הרבה מאוד חבילות ומודלים לכל דרישה ניתוחית סטטיסטית. R מציע מודלי נישה רבים אבל Python נתמך טוב יותר ויש לו את היתרון של Scale. כמו כן' הרבה מוצרים תומכים בהרחבות ע"י הוספה של סקריפטים ב- R ו-Python כגון Azure ML, KNIME. או שילוב של Python עם Tensorflow.

שלום דינור, Senior data scientist
צביקה ירון, סמנכ"ל מכירות
דטה קיוב.

שיתוף ב facebook
שיתוף ב google
שיתוף ב twitter
שיתוף ב linkedin
×
דילוג לתוכן