دکتر محی الدین جعفری
پژوهشگر ارشد دانشگاه هلسینکی
عنوان | شروع | پایان | |
---|---|---|---|
کار با رشتههای متنی و regular expressions | ۱۴:۰۰ | ۱۵:۳۰ | |
آنالیز متن بر اساس فراوانی واژگان(ابر واژگان، نمودار هرمی و غیره) | ۱۵:۴۵ | ۱۷:۱۵ | |
رویکرد bag of words و ماتریس های DTM و TDM | ۱۷:۳۰ | ۱۹:۰۰ |
عنوان | شروع | پایان | |
---|---|---|---|
آشنایی با پکیجهای dplyr و tidytext | ۸:۰۰ | ۹:۳۰ | |
آشنایی با sentiment lexicon ها | ۹:۴۵ | ۱۱:۱۵ | |
چند مطالعه موردی | ۱۱:۳۰ | ۱۳:۰۰ |
هدف متن کاوی که یکی از شاخه های علم داده کاوی است، کشف دانش در متون است.
نیاز به روش های متن کاوی زمانی احساس می شود که با حجم زیادی از داده های متنی سر و کار داریم. به طور مثال برای این که احساس مردم یک ناحیه درباره ی یک واقعه یا یک شخص را از توییت های آن ها بفهمیم باید از تکنیک های آنالیز احساسات یا عقاید در متن کاوی کمک بگیریم. چرا که داده های توییتر داده هایی بسیار حجیم هستند و انسان نمی تواند با خواندن آن ها این اطلاعات را استخراج کند.
در این دوره شما با استفاده از زبان R که یکی از زبان های قدرتمند در متن کاوی است می آموزید که چگونه با رشته های متنی کار کنید و الگوهایی را استخراج کنید، با ماتریس های سند-واژه(TDM وDTM) آشنا می شوید که به آنالیز متون بر اساس فراوانی واژگان کمک می کنند، با تصویرسازی در متن کاوی (نمودارهای ابرواژگان و هرمی) آشنا می شوید، ابزارهای آنالیز احساسات را می آموزید و در نهایت تمام آموخته هایتان را بر روی چند case study پیاده سازی می کنید.
پژوهشگر ارشد دانشگاه هلسینکی
کارشناس علوم کامپیوتر و همکار تحقیقاتی در آزمایشگاه
دانشجوی دکتری طب سنتی دانشگاه علوم پزشکی تهران