معرفی و هدف دوره :
در این دوره آموزشی مباحث مقدماتی در تحلیل داده های کلان، ابزارها و تکنیکهای مهم در آماده سازی، پاکسازی، تحلیل و مدیریت داده های کلان بررسی خواهند شد.
هدف این دوره آموزشی بررسی مباحث در حوزه ابزارهای اکوسیستم هادوپ جهت احراز نیازمندی های مشاغل
Data Scientist
Data Engineer
Integration Engineer
Big Data Specialist
هدف دوره پیش رو، یادگیری چگونگی انجام یک پروژه تحلیل داده از ابتدا یعنی فاز جمع آوری و پاکسازی داده تا انتها یعنی استخراج الگوهای مفید و سودمند از مجموعه داده مدنظر می باشد.
هدف ما در این دوره آماده سازی برای موقعیت شغلی Data Scientist با محوریت کار با کتابخانه های کلیدی و مطرح در حوزه Data Science بر اساس زبان قدرتمند Python می باشد.
از سوی دیگر کار با Hadoop Ecosystem به عنوان قلب تپنده پروژه های Big Data در سطح جهان و Apache Spark Stack به عنوان یک چارچوب جامع تحلیل و پردازش داده، شاکله اصلی دوره را تشکیل می دهند.
از موقعیت شغلی دانشمند علمداده براساس آخرین آمارهای رسمی جزو برترین مشاغل آینده دنیای فناوری یاد می شود. حرفه ای که علاوه بر جذابیت کاری دارای حقوق و مزایای برجسته تری به نسبت سایر موقعیت های کاری می باشد.
بیگ دیتا چیست؟
بیگ دیتا چیست؟
همانطور که از این نام یا بهتر است بگوئیم اصطلاح مشخص است، مبحث بیگ دیتا به حجم عظیمی از دیتا (اطلاعات) اطلاق میشود که در زمانی کوتاه و با سرعت و دقت بالایی تجزیه و تحلیل میشود. این اطلاعات میتواند ساختاریافته (اطلاعات منظم و دستهبندی شده) یا غیرساختاریافته (اطلاعات حجمی نامنظم و تصادفی) باشد. اما برخلاف چیزی که به نظر میرسد، این حجم اطلاعات نیست که اهمیت و اولویت دارد؛ بلکه نوع استفاده و بهرهبرداری از یک بخش یا تمام این اطلاعات توسط سازمانها و تجارتها است که مهم میباشد. بیگ دیتا در حقیقت عنوان و سیستمی جامع برای کسبوکارها به ویژه کسبوکارهای بزرگ است تا بتوانند از طریق اطلاعات حجیم به دست آمده از این سیستم، برای آینده کاری خود تصمیمات بهتری بگیرند.
چرا بیگ دیتا مهم است؟
کلاندادهها به این دلیل که صرفاً حجم زیادی از اطلاعات را در اختیار دارند اهمیت چندانی ندارند؛ بلکه همانطور که گفتیم، این استفاده و نحوه بهرهبرداری شما از این اطلاعات است که اهمیت دارد. اما به طور کل میتوان گفت که به خاطر اینکه بیگ دیتا منابع مناسبی از اطلاعات زیاد در زمینههای مختلف است، شما میتوانید از بین این منابع اقدام به جمعآوری اطلاعات مهم و حیاتی کنید. اطلاعاتی که هزاران کمپانی و شرکت تجاری از آنها برای اهداف خودشان استفاده میکنند.
شما با بررسی، تحقیق و مقایسه این اطلاعات در وهله اول میتوانید اطلاعات فعلی خود را با آخرین اطلاعات روز دنیا بهروز کنید تا از ترندها و تکنیکهای بازاریابی جدید عقب نمانید. در مرحله دوم، میتوانید با بررسی دقیق و آنالیز این اطلاعات راه و روشهای بسیار کاربردی برای خودتان دست و پا کنید. این روشها میتوانند به کاهش هزینهها، کاهش صرف زمان و توسعه و گسترش کاربردی فعالیتهای اقتصادی و تجاری شما منجر شوند.
نتایج نشان دادهاند که کمپانیهایی که از بیگ دیتا برای پیشرفت تجارت خود استفاده کردهاند نه تنها هزینههای خود را از این طریق کاهش دادهاند، بلکه با کمک این اطلاعات محصولات و سرویسهای به مراتب بهینهتری تولید کرده و به دنبال آن فروش خود را چندین برابر افزایش دادهاند.
بیگ دیتا به شما کمک میکند تا با اطلاعات مفیدی که به دست میآورید تصمیمات هوشمندانه بگیرید. همچنین اگر بتوانید به طور مناسب و اصولی از این اطلاعات استفاده کرده و به صورت سیستماتیک آنها را آنالیز کنید، میتوانید نقاط ضعف و دلایل شکستهای خود را نیز خیلی سریعتر پیدا کنید و با همین اطلاعات این مشکلات را برطرف کنید.
شما با کمک Big Data میتوانید شناخت خیلی خوبی از مشتریان و مصرفکنندگان نیز به دست بیاورید. این شناخت یکی از چند نکته اساسی برای کسب موفقیتهای چشمگیر در حوزه بازاریابی B2C است.
چه سازمانهایی از بیگ دیتا استفاده میکنند؟
با اینکه کلاندادهها برای هر صنعت و کسبوکاری قابل استفاده هستند، اما بعضی از سازمانها به نوعی وابسته به این سیستم هستند. جالب است بدانید اغلب تجارتهای بزرگ صرفاً یک دپارتمان مجزا برای همین منظور ایجاد میکنند. در ادامه مهمترین سازمانهایی که برای بقاء کاری به بیگ دیتا نیاز دارند را معرفی خواهیم کرد.
سیستمهای بانکداری
بانکها و مؤسسات مالی یکی از مهمترین استفادهکنندگان از کلاندادهها هستند. در دنیای مدرن ما در هر ثانیه مقدار غیرقابل شمارشی اطلاعات از منابع بسیار زیادی در حال رد و بدل میباشد. بانکها یکی از مؤسساتی هستند که همیشه در این اطلاعات هنگفت سهم زیادی دارند. به همین خاطر آنها همواره به دنبال راهی برای مدیریت این حجم عظیم از اطلاعات میباشند.
این سازمانهای مالیاتی دنبال راهی هستند تا بتوانند در عین حالی که از طریق آن رضایت مشتریان خود را جلب میکنند، خطر ریسکهای جبران ناپذیر را نیز به حداقل برسانند. این پروسه بسیار حساس است و به همین دلیل است که بانکها سرمایهگذاری خاصی روی بحث بیگ دیتا میکنند. آنها میخواهند با اطلاعات کامل در این حوزه فعالیت داشته باشند و با چالشهای مالی آشنا باشند. برای همین به سراغ بیگ دیتا میروند و با آنالیز دقیق و پیشرفته، خودشان را نه تنها برای چالشهای سخت آماده میکنند، بلکه راهکارهای نوینی برای ایجاد ارتباط و تعامل بهتر با مشتریان پیدا میکنند.
سیستمهای آموزشی
اطلاعات یعنی آموزش و وقتی بحث به سازمان تخصصی این مورد مثل وزارت آموزش و پرورش میرسد، اهمیت دادهها نیز به وضوح مشخص میشود. سازمانهای آموزشی مثل مدارس، مؤسسات آموزش عالی، دانشگاهها، آموزشگاهها و ... نیاز شدیدی به اطلاعات بروز در مباحث آموزشی دارند. درواقع آنها باید هر لحظه و هر ثانیه پایگاه اطلاعاتی خودشان را ارتقاء داده و بروزرسانی کنند تا متدهای جدید، مباحث جدید و تکنیکهای آموزشی مدرن را در اختیار داشته باشند.
با کمک بیگ دیتا این مؤسسات آموزشی نه تنها نواقص کاری خود را پوشش میدهند، بلکه میتوانند از سیستمها و راهکارهای آموزشی جدید برای برنامه درسی استفاده کنند. مزیت دوم کلاندادهها برای سیستمهای آموزشی این است که آنها میتوانند با آنالیز و رفتارشناسی کارشناسی شده، دانشآموزانی که به هر شکلی مشکل داشته یا در خطر خاصی هستند را شناسایی کنند.
بیگ دیتا یک روند اصولی ایجاد میکند و باعث میشود تا این مؤسسات بتوانند روند پیشرفت دانشآموزان را با روند پیشرفت تحصیلی کلی مطابقت دهند و با برطرف سازی کم و کاستیها از این طریق، سیستم آموزشی خود را بهبود ببخشند. این حرکت در نهایت باعث افزایش بهرهوری و بهبود هرچه بهتر سیستم آموزشی یک کشور میشود. در ایران نیز طی سالهای اخیر تلاشهای زیادی برای الگوبرداری از سیستمهای آموزشی موفق در کشورهای دیگر صورت گرفت. این اقدام از طریق آنالیز بیگ دیتا انجام شده است.
ارگانهای دولتی
بیگ دیتا سهم عظیمی در امور دولتی دارد. میتوان گفت که تقریباً همه دولتهای جهان رابطه بسیار تنگاتنگی با مسئله کلاندادهها دارند. آژانسها و مؤسسات دولتی از این حجم اطلاعات برای اهداف مختلفی استفاده میکنند. درواقع شاید بهتر باشد بگوئیم بیشترین استفاده غیرمادی از بیگ دیتا توسط دولتها صورت میگیرد. تمام اتفاقات و رخدادهای داخلی ضبط شده در یک سیستم یکپارچه ذخیرهسازی میشوند. این اطلاعات توسط همین آژانسهای دولتی و یا شرکتهای نیمهدولتی جمعآوری میشوند. دولت نیز با کمک این اطلاعات اقدام به بررسی شرایط اقتصادی، سیاسی و دیگر مسائل مطرح در کشور میکند.
این اطلاعات و تحلیلها کمک خیلی بزرگی به دولتها میکنند تا بتوانند با قدرت بیشتری به مدیریت اوضاع یک کشور بپردازند و حتی با اطلاعات کافی که دارند بتوانند جلوی تهدیدات مختلف را نیز قبل از وقوع بگیرند! لازم به گفتن نیست که اهمیت اطلاعات برای سازمانهای نظامی به چه مقدار زیاد است. درواقع این همان بیگ دیتا است که دولتها و ارتشهای نظامی آنها را از تهدیدات و مسائلی از این قبیل آگاه میسازد.
سازمانهای بهداشتی و سلامتی
بیمارستانها و دیگر مراکز درمانی و بهداشتی نیز سهم خیلی زیادی از اطلاعات حجیم روزانه دارند. به همین خاطر در همه کشورها وزارت بهداشت و درمان بخشی را برای جمعآوری اطلاعات مورد نیاز و بروز از طریق سیستم بیگ دیتا فراهم میآورد. پروندههای پزشکی، آموزشهای درمانی، لیست داروها و مسائل مشابه از جمله اطلاعاتی هستند که سازمانهای بهداشتی و سلامتی به دنبال آنها هستند.
کلاندادهها به مراکز درمانی کمک میکنند تا آئیننامههای جدید و جهانی را به صورت سریع و مؤثر به لیست دستورالعملهای خود اضافه کنند. همین مسئله باعث ایجاد یک سیستم یکپارچه برای تبادل اطلاعات و کشفیات جدید نیز میشود و به بهبود وضعیت سلامت و بهداشت مردم کمک زیادی خواهد کرد.
کارخانهها، فروشگاهها و شرکتهای تجاری
آمار و ارقام واقعی و جالبی طی سالهای پیش از سوی مراکز آماری معتبر منتشر شده است که نشان میدهد اطلاعات حجیم چه تأثیر شگفتانگیزی در روند پیشرفت تجارتها و کارخانهها داشته است. موفقترین کمپانیهای جهان تمرکز زیادی روی بیگ دیتا گذاشتهاند تا آخرین تغییرات بازار، آخرین تکنولوژیها و از همه این موارد مهمتر، دغدغههای جدید مشتریان و مصرفکنندگان را کشف کنند.
مهم نیست کسبوکار شما بزرگ است یا کوچک؛ حتی اینکه سبک کاری شما سنتی است یا به صورت بازاریابی اینترنتی فعالیت میکنید نیز فرقی ندارد. بیگ دیتا به هر تجارتی کمک میکند که در دنیایی مملو از اطلاعات پیچیده، استراتژیهای فوقالعادهای داشته باشید. کارخانههای زیادی که در معرض ورشکستگی قرار داشتند توانستند با کمک Big Data مجدداً خود را به چرخه تولید بازگردانند. این روش به صاحبین مشاغل کمک میکند تا دقیقاً همان نقاط ضعفی که باعث کاهش سرعت پیشرفت میباشد را کشف کنند. از طرف دیگر، بیگ دیتا به این افراد نشان میدهد که رقبای قدرتمند و موفق آنها از چه راهی به این موفقیتها دست یافتهاند.
این سیستم حتی به خردهفروشها و کسبوکارهای کوچک نیز کمک میکند تا روند رو به رشدی داشته باشند. حتی اگر شخصی بروز باشید و مطالعه کافی هم داشته باشید باز هم بیگ دیتا اطلاعاتی در اختیار شما قرار میدهد که شاید به فکرتان هم نرسیده باشد!
سر فصل های کارگاه:
*مقدمات بیگ دیتا
تعریف بیگ دیتا مدل 3V (سرعت، حجم، تنوع)
تاریخچه هدوپ و معرفی اکوسیستم
خط فرمان لینوکس و معرفی دستورات پر کاربرد
نصب هدوپ
مقدمه بر مجازی سازی و معرفی پیش نیاز های نصب
نصب هدوپ در حالت سینگل نود
HDFS
* معرفی فایل سیستم هدوپ و معماری آن
مدیریت فایل (خواندن، لیست کردن و طبقه بندی)
انتقال فایل به HDFS و برعکس
معرفی ابزارهای مرتبط
*الگوریتم نگاشت کاهش
مقدمه ای بر پردازش دسته ای اطلاعات
معرفی مدل برنامه نویسی نگاشت کاهش
توضیح مثال توکنایز کردن متن و اجرای مثال در هدوپ
* بازیابی اطلاعات
مقدمه ای بر بازیابی اطلاعات
بازیابی دودویی اطلاعات و ساخت ایندکس
آشنایی با خزش وب (crawling)
معرفی پروژه Apache Nutch
نصب و راه اندازی کرولر ناچ
معرفی Apache Solr
نصب و راه اندازی Apache Solr
ایجاد موتور جستجو با استفاده از ناچ و سولار
*پردازش جریان با اسپارک
معرفی پردازش جریانی اطلاعات و موارد کاربرد آن
معرفی پلتفرم اسپارک
مقایسه پردازش دسته ای و جریانی در هدوپ و اسپارک
نصب و راه اندازی اسپارک
اجرای مثال توکنایز کلمات در اسپارک
*مقدمه ای بر یادگیری ماشین
معرفی الگوریتم های یادگیری ماشین با ناظر
معرفی کتابخانه های یادگیری ماشین در اسپارک و هدوپ
اجرای مثال classification داده ها
مدرس کارگاه

مهندس کامران محمودی
عضو تیم آزمایشگاه تحلیل داده پژوهشگاه دانشهای بنیادی(IPM)*مدیرعامل آزمایشگاه علوم داده دیزل
*عضو IEEE Computer Society
*عضو تیم آزمایشگاه تحلیل داده پژوهشگاه دانشهای بنیادی(IPM)
*دستیار پژوهشی BigData در دانشگاه بینالمللی امام خمینی(ره)
برگزارکنندگان

مرکز توسعه کارآفرینی و مهارت آموزی ریمیا

دنبال کننده
کل رویدادها
رویداد فعال