زمانبندی کارگاه «مهندسی داده با پایتون: پردازش زبان طبیعی»
عنوان | شروع | پایان |
---|---|---|
نصب و راهاندازی نرمافزارهای پیش نیاز (اگر مسألهای داشتید) | ۸ | ۸:۳۰ |
بخش اول کارگاه | ۸:۳۰ | ۱۳:۱۵ |
استراحت، عبادت، ناهار [مهمان بیان]، فوتبال دستی، پینگ پنگ و… | ۱۳:۱۵ | ۱۴ |
بخش دوم کارگاه | ۱۴ | ۱۸:۳۰ |
دوره «مهندسی داده با پایتون» (Applied Data Science with Python)
نکات کلی:
- ظرفیت هر کارگاه ۱۵ نفر است.
- به شرکتکنندگان کارگاهها، گواهینامه رسمی بیان (دو زبانه، با هولوگرام شرکت بیان و امضای مدیر عامل) اهدا میشود؛ گواهینامهها، پس از پایان یک دوره از کارگاهها صادر و برای افراد ارسال میشود و البته در آن، عنوان کارگاههایی ذکر خواهد شد که آن شخص در آنها حضور یافته است.
- برای شرکت کنندگان در یکی از کارگاههای هر دوره، کد تخفیف ۳۰ درصدی برای کارگاههای بعدی ارائه میشود.
- پس از هر کارگاه، دسترسی به ویدئوی مباحث ارائه شده برای شرکت کنندگان فراهم خواهد شد.
- میتوانید برای اطلاعات بیشتر به تارنمای مدرسه فناوری بیان مراجعه نمایید.
علم داده (Data Science)، دانشی میانرشتهای پیرامون استخراج دانش و آگاهی از مجموعهای داده و اطلاعات است. علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روشهای موجود در حوزههای مختلف علمی بنا شدهاست. تعدادی از این حوزهها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و غیره. هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذابترین شغل قرن بیست و یکم» متخصصین علم داده را این طور تعریف میکنند: «کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار، پاسخ سوالهای کسبوکار را پیدا کرد». همچنین استنتون در سال ۲۰۱۳ علم داده را این طور تعریف میکند: «علم داده، رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد». دریسکول نیز در سال ۲۰۱۴ علم داده را این طور تعریف میکند: «علم داده، مهندسی عمران دادههاست. متخصص علم داده، دانشی کاربردی از دادهها و ابزارها دارد، به علاوه، درکی نظری دارد که مشخص میکند چه چیزی از نظر علمی ممکن است» (منبع: دانشنامه آزاد ویکیپدیا).
این دوره برای چه کسانی مناسب است؟
- همه افرادی که با «علم داده» آشنا بوده و مطالعاتی در این زمینه داشتهاند (اعم از دانشجویان یا فارغ التحصیلان رشتههای زیرمجموعه کامپیوتر، علوم کامپیوتر، فناوری اطلاعات، ریاضی، آمار و غیره).
- در واقع، این کارگاهها برای کسانی طراحی شده است که در کنار نظریههای مورد نیاز تحلیل داده که معمولاً در دانشگاهها آموزش داده میشود، علاقمند به استفاده از تجربههای عملی و یادگیری مهارتهای واقعی و کاربردی نیز هستند.
پیش نیاز کارگاه:
- سابقه آشنایی با زبان پایتون
- همراه داشتن لپ تاپ و نصب Anaconda (ترجیحاً Python 3.x)
- اگر مشکلی در نصب و راهاندازی نرمافزارهای پیش نیاز داشتید، نیم ساعت قبل از شروع کارگاه حضور پیدا کنید تا از مباحث عقب نیافتید.
محتوای دوره
هدف از کل این دوره، آموزش مهارتهای مورد نیاز در زمینه هوش مصنوعی، یادگیری ماشین، آمار و دیداریسازی اطلاعات و... است. در این مجموعه کارگاهها، مهندسی داده با استفاده از زبان محبوب پایتون آموزش داده میشود که یکی از رایجترین و بهترین زبانهای تحلیل داده است (منبع: دانشنامه آزاد ویکیپدیا).
مباحث کارگاه این هفته:
پردازش زبان طبیعی با استفاده از پایتون
پردازش زبان طبیعی، یکی از زیرشاخههای مهم در حوزه گسترده علوم رایانه، هوش مصنوعی و نیز دانش زبانشناسی محاسباتی است که به تعامل بین کامپیوتر و زبانهای (طبیعی) انسانی میپردازد؛ بنابراین پردازش زبانهای طبیعی بر ارتباط انسان و رایانه، متمرکز است. پس چالش اصلی و عمده در این زمینه، درک زبان طبیعی و ماشینی کردن فرآیند درک و برداشت مفاهیم بیانشده با یک زبان طبیعی انسانی است و به تعریف دقیقتر، اینکه رایانهها را قادر سازیم تا قالب و ساختار یک زبان طبیعی را تحلیل و درک نموده یا آن را تولید نمایند.
کاربردهای متنوعی پردازش زبانهای طبیعی نوشتاری وجود دارد، مثلاً با استفاده از آن میتوان از صفحات وب و بانکهای اطلاعاتی، جهت پاسخ دادن به پرسشها استفاده کرد و یا به استخراج اطلاعاتی خاص از یک متن یا پیدا کردن مستندات ویژهای در یک پایگاه داده پرداخت و...
هدف اصلی در پردازش زبان طبیعی، ایجاد تئوریهایی محاسباتی از زبان، با استفاده از الگوریتمها و ساختارهای دادهای موجود در علوم رایانه است. با پردازش اطلاعات زبانی میتوان آمارهای مورد نیاز برای کار با زبان طبیعی را استخراج کرد. در سالهای اخیر، این حوزه تحقیقاتی توجه دانشمندان را به خود جلب کرده و تحقیقات قابل ملاحظهای در این زمینه صورت گرفته است (منبع: دانشنامه آزاد ویکیپدیا).
Natural Language Processing using Python
[ Language Processing in Python by NLTK ]
[ Processing Raw Text ]
[ Categorizing and Tagging Words ]
[ Learning to Classify Text ]
[ Extracting Information from Text ]
در کارگاههای گذشته به این سرفصلها پرداخته شده است:
تحلیل و واکاوی دادهها در پایتون
در کارگاه اول، پس از معرفی کلی زبان برنامه نویسی پایتون و اصول کلی برنامهنویسی با آن، روشهای مطالعه و تغییر داده تمرین میشود.
Exploratory Data Analysis in Python
[ Introduction to Data Science and Programming with Python ]
[ Setup & getting started ]
[ Essential Python Libraries ]
[ Exploratory analysis in Python using Pandas ]
[ Data Munging in Python using Pandas ]
[ Introduction to Numpy and SciPy ]
استفاده از پایتون برای استخراج داده از وب
وجود داده، پیش نیاز پردازش و تحلیل داده در مهندسی داده است؛ گاهی داده بصورت دادگان آماده در دسترس پژوهشگران قرار می گیرد و گاهی هم نیاز است آن را از منابع مختلف همچون وب استخراج کنیم. در کارگاه استخراج داده از وب، بر آنیم که طریقه استفاده از اینترنت را به عنوان یک منبع عظیم و مفید داده بوسیله زبان برنامه نویسی پایتون یاد بگیریم.
در این میان خواهیم آموخت که چگونه صفحات وب را خوانده، تجزیه کرده و اطلاعات مورد نیاز خود را از آن استخراج کنیم. همچنین با معماری صفحات html، فایلهای json و xml آشنا خواهیم شد و بوسیله فریم ورک Scrapy (دهمین کتابخانه پرطرفدار پایتون در GitHub) به خزش روی صفحات سایتهای مختلف خواهیم پرداخت. در انتها نیز در قالب یک پروژه، استخراج تمامی دادههای یک سایت خبری و یا یک سایت خرید کالا را مرور میکنیم.
Web Scraping using Python
[ Introduction to Data scraping ]
[ Introduction to Data Scraping ]
[ Working With APIs ]
[ XML, JSON and the REST Architecture ]
[ Parsing Html ]
[ Regular Expression ]
[ XPath and CSS Selector ]
[ Web Scraping Using Scrapy ]
[ Writing a Crawler ]
دیداری سازی دادهها با پایتون
دیداری سازی یا مصورسازی داده، بخش مهمی از مهندسی داده است که به مطالعه چگونگی نمایش داده و انتقال اطلاعات به بیننده میپردازد. یک هدف اصلی دیداری سازی داده، انتقال بهینه اطلاعات به بیننده توسط دادهنمایی است. مصورسازی بهینه، کاربر را قادر به تحلیل داده و استدلال در مورد آن میکند. در واقع، دیداری سازی دادهها هم علم است و هم هنر (منبع: دانشنامه آزاد ویکیپدیا).
Data Visualization with Python
[ Introduction to Applied Plotting, Charting & Data Representation ]
[ 2D and 3D plotting with matplotlib ]
[ The matplotlib object-oriented API ]
[ Customizing Charts ]
[ Plotting high dimension data ]
یادگیری ماشین کاربردی با پایتون
یادگیری ماشین (Machine learning)، یکی از زیرمجموعههای علوم کامپیوتر است که به رایانهها توانایی یادگیری را بدون برنامهنویسی مستقیم میدهد. به عنوان یکی از شاخههای وسیع و پرکاربرد هوش مصنوعی، یادگیری ماشین به تنظیم و اکتشاف شیوهها و الگوریتمهایی میپردازد که بر اساس آنها رایانهها و سامانهها قدرت یادگیری پیدا میکنند.
هدف یادگیری ماشین این است که ماشین (در کلیترین مفهوم آن) بتواند به تدریج و با افزایش دادهها کارایی بهتری در انجام وظیفه مورد نظر پیدا کند. گستره این وظیفه میتواند از تشخیص خودکار چهره با دیدن چند نمونه از چهره مورد نظر، تا فراگیری شیوه گامبرداری روباتهای دوپا با دریافت سیگنال پاداش و تنبیه باشد (منبع: دانشنامه آزاد ویکیپدیا).
Practical Machine Learning with Python
[ Introduction to Scikit-learn ]
[ Supervised learning algorithms ]
[ Cross-validation ]
[ Unsupervised learning algorithms ]
[ Feature extraction ]
معرفی مدرس
«محمد مهدی نعمت الهی» دانشجوی دکتری هوش مصنوعی و مدیر واحد پردازش زبانهای طبیعی «شرکت بیان» هستند.
کارگاه گذشته

دنبال کننده
کل رویدادها
اعضای شرکت بیان که همواره از وضعیت نهچندان حرفهای فعالیتهای سخت افزاری و نرم افزاری و کیفیت نامناسب محصولات و خدمات ...