مهندسی داده با پایتون ـ کارگاه پنجم: پردازش زبان طبیعی

شروع رویداد
جمعه ۲۴ دی ۹۵ ۰۸:۰۰
پایان رویداد
جمعه ۲۴ دی ۹۵ ۱۸:۳۰
مکان رویدادتهران
موضوع رویدادتکنولوژی / برنامه نویسی
اضافه به تقویم
مهندسی داده با پایتون ـ کارگاه پنجم: پردازش زبان طبیعی
برگزارکننده‌ی رویداد
تماس با برگزارکننده
۶۱۵۳
گزارش
مهلت ثبت‌نام برای این رویداد به پایان رسیده است.

زمان‌بندی کارگاه «مهندسی داده با پایتون: پردازش زبان طبیعی»

جمعه ۲۴ دی
عنوانشروعپایان
نصب و راه‌اندازی نرم‌افزارهای پیش نیاز (اگر مسأله‌ای داشتید)۸۸:۳۰
بخش اول کارگاه۸:۳۰۱۳:۱۵
استراحت، عبادت، ناهار [مهمان بیان]، فوتبال دستی، پینگ پنگ و…۱۳:۱۵۱۴
بخش دوم کارگاه۱۴۱۸:۳۰

دوره «مهندسی داده با پایتون» (Applied Data Science with Python)

 نکات کلی:

  • ظرفیت هر کارگاه ۱۵ نفر است.
  • به شرکت‌کنندگان کارگاه‌ها، گواهینامه رسمی بیان (دو زبانه، با هولوگرام شرکت بیان و امضای مدیر عامل) اهدا می‌شود؛ گواهی‌نامه‌ها، پس از پایان یک دوره از کارگاه‌ها صادر و برای افراد ارسال می‌شود و البته در آن، عنوان کارگاه‌هایی ذکر خواهد شد که آن شخص در آنها حضور یافته است.
  • برای شرکت کنندگان در یکی از کارگاه‌های هر دوره، کد تخفیف ۳۰ درصدی برای کارگاه‌های بعدی ارائه می‌شود.
  • پس از هر کارگاه، دسترسی به ویدئوی مباحث ارائه شده برای شرکت کنندگان فراهم خواهد شد.لطفاً هر پرسش، پیشنهاد و یا انتقادی را با ما مطرح فرمایید: academy@bayan.co.ir

  

 علم داده (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است. علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و غیره. هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.

آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده را این طور تعریف می‌کنند: «کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار، پاسخ سوال‌های کسب‌وکار را پیدا کرد». همچنین استنتون در سال ۲۰۱۳ علم داده را این طور تعریف می‌کند: «علم داده، رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد». دریسکول نیز در سال ۲۰۱۴ علم داده را این طور تعریف می‌کند: «علم داده، مهندسی عمران داده‌هاست. متخصص علم داده، دانشی کاربردی از داده‌ها و ابزارها دارد، به علاوه، درکی نظری دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است» (منبع: دانش‌نامه آزاد ویکی‌پدیا).

این دوره برای چه کسانی مناسب است؟

  • همه افرادی که با «علم داده» آشنا بوده و مطالعاتی در این زمینه داشته‌اند (اعم از دانشجویان یا فارغ التحصیلان رشته‌های زیرمجموعه کامپیوتر، علوم کامپیوتر، فناوری اطلاعات، ریاضی، آمار و غیره).
  • در واقع، این کارگاه‌ها برای کسانی طراحی شده است که در کنار نظریه‌های مورد نیاز تحلیل داده که معمولاً در دانشگاه‌ها آموزش داده می‌شود، علاقمند به استفاده از تجربه‌های عملی و یادگیری مهارت‌های واقعی و کاربردی نیز هستند.

 پیش نیاز کارگاه:

  • سابقه آشنایی با زبان پایتون
  • همراه داشتن لپ تاپ و نصب Anaconda (ترجیحاً Python 3.x)
  • اگر مشکلی در نصب و راه‌اندازی نرم‌افزارهای پیش نیاز داشتید، نیم ساعت قبل از شروع کارگاه حضور پیدا کنید تا از مباحث عقب نیافتید.

محتوای دوره

هدف از کل این دوره، آموزش مهارت‌های مورد نیاز در زمینه هوش مصنوعی، یادگیری ماشین، آمار و دیداری‌سازی اطلاعات و... است. در این مجموعه کارگاه‌ها، مهندسی داده با استفاده از زبان محبوب پایتون آموزش داده می‌شود که یکی از رایج‌ترین و بهترین زبان‌های تحلیل داده است (منبع: دانش‌نامه آزاد ویکی‌پدیا).

مباحث کارگاه این هفته:

پردازش زبان طبیعی با استفاده از پایتون

پردازش زبان طبیعی، یکی از زیرشاخه‌های مهم در حوزه گسترده علوم رایانه، هوش مصنوعی و نیز دانش زبان‌شناسی محاسباتی است که به تعامل بین کامپیوتر و زبان‌های (طبیعی) انسانی می‌پردازد؛ بنابراین پردازش زبان‌های طبیعی بر ارتباط انسان و رایانه، متمرکز است. پس چالش اصلی و عمده در این زمینه، درک زبان طبیعی و ماشینی کردن فرآیند درک و برداشت مفاهیم بیان‌شده با یک زبان طبیعی انسانی است و به تعریف دقیق‌تر، اینکه رایانه‌ها را قادر سازیم تا قالب و ساختار یک زبان طبیعی را تحلیل و درک نموده یا آن را تولید نمایند.

کاربردهای متنوعی پردازش زبان‌های طبیعی نوشتاری وجود دارد، مثلاً با استفاده از آن می‌توان از صفحات وب و بانک‌های اطلاعاتی، جهت پاسخ دادن به پرسش‌ها استفاده کرد و یا به استخراج اطلاعاتی خاص از یک متن یا پیدا کردن مستندات ویژه‌ای در یک پایگاه داده پرداخت و...

هدف اصلی در پردازش زبان طبیعی، ایجاد تئوری‌هایی محاسباتی از زبان، با استفاده از الگوریتم‌ها و ساختارهای داده‌ای موجود در علوم رایانه است. با پردازش اطلاعات زبانی می‌توان آمارهای مورد نیاز برای کار با زبان طبیعی را استخراج کرد. در سال‌های اخیر، این حوزه تحقیقاتی توجه دانشمندان را به خود جلب کرده و تحقیقات قابل ملاحظه‌ای در این زمینه صورت گرفته است (منبع: دانش‌نامه آزاد ویکی‌پدیا).

Natural Language Processing using Python

[ Language Processing in Python by NLTK ]

[ Processing Raw Text ]

[ Categorizing and Tagging Words ]

[ Learning to Classify Text ]

[ Extracting Information from Text ]

 

 

در کارگاه‌های گذشته به این سرفصل‌ها پرداخته شده است:

تحلیل و واکاوی داده‌ها در پایتون

در کارگاه اول، پس از معرفی کلی زبان برنامه نویسی پایتون و اصول کلی برنامه‌نویسی با آن، روش‌های مطالعه و تغییر داده تمرین می‌شود.

Exploratory Data Analysis in Python

[ Introduction to Data Science and Programming with Python ]

[ Setup & getting started ]

[ Essential Python Libraries ]

[ Exploratory analysis in Python using Pandas ]

[ Data Munging in Python using Pandas ]

[ Introduction to Numpy and SciPy ]

 

استفاده از پایتون برای استخراج داده از وب

وجود داده، پیش نیاز پردازش و تحلیل داده در مهندسی داده است؛ گاهی داده بصورت دادگان آماده در دسترس پژوهشگران قرار می گیرد و گاهی هم نیاز است آن را از منابع مختلف همچون وب استخراج کنیم. در کارگاه استخراج داده از وب، بر آنیم که طریقه استفاده از اینترنت را به عنوان یک منبع عظیم و مفید داده بوسیله زبان برنامه نویسی پایتون یاد بگیریم.

در این میان خواهیم آموخت که چگونه صفحات وب را خوانده، تجزیه کرده و اطلاعات مورد نیاز خود را از آن استخراج کنیم. همچنین با معماری صفحات html، فایل‌های json و xml آشنا خواهیم شد و بوسیله فریم ورک Scrapy (دهمین کتابخانه پرطرفدار پایتون در GitHub) به خزش روی صفحات سایت‌های مختلف خواهیم پرداخت. در انتها نیز در قالب یک پروژه، استخراج تمامی داده‌های یک سایت خبری و یا یک سایت خرید کالا را مرور می‌کنیم.

Web Scraping using Python

[ Introduction to Data scraping ]

[ Introduction to Data Scraping ]

[ Working With APIs ]

[ XML, JSON and the REST Architecture ]

[ Parsing Html ]

[ Regular Expression ]

[ XPath and CSS Selector ]

[ Web Scraping Using Scrapy ]

[ Writing a Crawler ]

 

دیداری سازی داده‌ها با پایتون

 

دیداری سازی یا مصورسازی داده، بخش مهمی از مهندسی داده است که به مطالعه چگونگی نمایش داده و انتقال اطلاعات به بیننده می‌پردازد. یک هدف اصلی دیداری سازی داده، انتقال بهینه اطلاعات به بیننده توسط داده‌نمایی است. مصورسازی بهینه، کاربر را قادر به تحلیل داده و استدلال در مورد آن می‌کند. در واقع، دیداری سازی داده‌ها هم علم است و هم هنر (منبع: دانش‌نامه آزاد ویکی‌پدیا).

Data Visualization with Python

 [ Introduction to Applied Plotting, Charting & Data Representation ]

[ 2D and 3D plotting with matplotlib ]

[ The matplotlib object-oriented API ]

[ Customizing Charts ]

[ Plotting high dimension data ]

 

یادگیری ماشین کاربردی با پایتون

یادگیری ماشین (Machine learning)، یکی از زیرمجموعه‌های علوم کامپیوتر است که به رایانه‌ها توانایی یادگیری را بدون برنامه‌نویسی مستقیم می‌دهد. به عنوان یکی از شاخه‌های وسیع و پرکاربرد هوش مصنوعی، یادگیری ماشین به تنظیم و اکتشاف شیوه‌ها و الگوریتم‌هایی می‌پردازد که بر اساس آنها رایانه‌ها و سامانه‌ها قدرت یادگیری پیدا می‌کنند.

هدف یادگیری ماشین این است که ماشین (در کلی‌ترین مفهوم آن) بتواند به تدریج و با افزایش داده‌ها کارایی بهتری در انجام وظیفه مورد نظر پیدا کند. گستره این وظیفه می‌تواند از تشخیص خودکار چهره با دیدن چند نمونه از چهره مورد نظر، تا فراگیری شیوه گام‌برداری روبات‌های دوپا با دریافت سیگنال پاداش و تنبیه باشد (منبع: دانش‌نامه آزاد ویکی‌پدیا).

Practical Machine Learning with Python

[ Introduction to Scikit-learn ]

[ Supervised learning algorithms ]

[ Cross-validation ]

[ Unsupervised learning algorithms ]

[ Feature extraction ]

معرفی مدرس

«محمد مهدی نعمت الهی» دانشجوی دکتری هوش مصنوعی و مدیر واحد پردازش زبان‌های طبیعی «شرکت بیان» هستند.

کارگاه گذشته

آدرس:تهران جنب ایستگاه متروی دانشگاه صنعتی شریف، کوچه زهره، پلاک ۳ (ساختمان بیان)، واحد ۳