به نظر شما چرا ما به مهارت های ریاضی در علم داده و یادگیری ماشین نیاز داریم؟ چرا ریاضیات در علم اطلاعات بسیار مهم است؟ قبل از اینکه به پاسخ ما نگاه کنید، خودتان را به چالش بکشید و مدتی به این سوال فکر کنید. در این مقاله، می‌خواهیم منطق یادگیری ریاضی را با هم برای علم داده و یادگیری ماشین بررسی کنیم و اهمیت یادگیری ریاضی برای حل چالش‌های دنیای واقعی را به عنوان یک متخصص یادگیری ماشین بررسی کنیم.

ریاضیات علم داده و یادگیری ماشین فقط جمع و تفریق اعداد نیست. در عوض، ما از آن استفاده می کنیم تا ببینیم:

چه اتفاقی خواهد افتاد؟

چرا این اتفاق می افتد؟

چگونه از آن برای به دست آوردن نتایج مورد نظر خود استفاده کنیم؟

افسانه ها در مورد یادگیری ریاضی در علم داده با دوره ها، فیلم ها و پست های وبلاگ با عنوان تقویت می شوند "علم داده بدون ریاضی"، "علم داده برای توسعه دهندگان"، "یادگیری ماشینی بدون ریاضی" و غیره. این پست و ویدئو به دلیل سوالات زیر منتشر شد:

چرا باید ریاضی یاد بگیرم در حالی که فقط می توانم fit() را فراخوانی کنم. مدل من را آماده کنید و predict() را فراخوانی کنید. آیا سعی کرده ای

یادگیری ماشین فقط به تخصص در کتابخانه هایی مانند SkeetLearn و TensorFlow نیاز دارد. چرا باید وقتم را برای درک ریاضی این موضوع تلف کنم؟

چقدر ریاضی برای تسلط بر علم داده نیاز دارم؟

✅ من از ریاضی می ترسم، آیا می توانم وارد علم داده شوم؟

معمولاً هیچ پاسخ صحیح واحدی برای این سؤالات وجود ندارد. علم داده از بخش های مختلفی تشکیل شده است و هر بخش از آن دانش ریاضی خاص خود را می طلبد. فقدان پاسخ‌های منسجم به این سؤالات به دلیل ماهیت گسترده اصطلاح «علم داده» است که امروزه توسط بسیاری از اساتید استفاده می‌شود.

اگر بیشتر به مباحث مهندسی داده (طراحی خطوط لوله ETL، ساخت و مدیریت زیرساخت های داده و غیره) علاقه دارید، پس نیازی به درک ریاضیات موضوع ندارید. اما برای افرادی که می خواهند به یادگیری ماشینی و به ویژه یادگیری عمیق تسلط داشته باشند، حداقل درک مفاهیم ریاضی مانند جبر خطی، حساب دیفرانسیل و انتگرال و نظریه احتمال مورد نیاز است.

در این مقاله به این سوال پاسخ خواهیم داد که چرا برای تبدیل شدن به یک متخصص علوم داده برای موقعیت‌های مبتنی بر یادگیری ماشین، مطالعه ریاضیات ضروری است. ما در مورد موقعیت های دنیای واقعی صحبت خواهیم کرد که ممکن است به درک عمیقی از الگوریتم ها نیاز داشته باشید. بنابراین، اجازه دهید ابتدا جنبه های اصلی یادگیری ماشین را مورد بحث قرار دهیم و سپس آنها را مستقیماً به ریاضیات مرتبط کنیم.



مبانی ریاضیات و یادگیری ماشین

به طور کلی، یادگیری ماشینی دارای سه جزء اصلی است.

1- داده ها

یادگیری ماشینی خود مبتنی بر داده است. داده ها قلب یادگیری ماشینی هستند. هدف اصلی یادگیری ماشینی استخراج الگوهای پنهان و مفید از داده ها است. اگرچه داده ها همیشه عددی نیستند. اما زمانی که به عنوان داده های عددی در نظر گرفته شوند مفیدتر می شوند. داده ها را همچنین می توان به عنوان بردار در نظر گرفت (اشیایی که از قوانین پیروی می کنند، حساب). این مشکل ما را به درک چگونگی عملکرد قواعد جبر خطی بر روی مجموعه داده ها سوق می دهد.


موقعیت های زندگی واقعی که در آن شما نیاز به درک ریاضی پایه دارید


می بینید که همه این مفاهیم در کتابخانه ها انتزاع شده اند، پس چرا مستقیماً روی آنها ساخته نمی شود؟ برای پاسخ به این سوال، بیایید نگاهی به برخی از موقعیت‌های زندگی واقعی بیندازیم که هر روز به‌عنوان یک متخصص ماشین یا یادگیری عمیق با آن مواجه می‌شوید:

ایجاد برنامه های یادگیری موثر

به عنوان یک دانشمند داده، شما نه تنها باید الگوریتم های یادگیری ماشین را بدانید، بلکه باید از دانش خود استفاده کنید و مدل های کارآمدتری نسبت به مدل های فعلی بسازید. یک مثال ساده عالی از این انتخاب یک معیار عملکرد برای مشکل شما است. یک معیار عملکرد به شما ایده می‌دهد که سیستم شما چقدر خطای پیش‌بینی دارد.

نمونه ای از مشکل مقایسه قیمت املاک و مستغلات با مجموعه ای از مجموعه داده های خارجی را ببینید. اکثر دانشمندان می‌دانند که ریشه میانگین مربعات خطا یا rmse معیار ترجیحی عملکرد برای مدل‌های رگرسیونی است و از این معیار برای مدل‌های خود استفاده می‌کنند. در همین حال، تعداد زیاد نقاط پرت می تواند خطاهای زیادی را به این معیار عملکرد اضافه کند.

اندازه‌گیری RMS اکنون فاصله بین بردار پیش‌بینی h(x(i)) در فرمول زیر و بردار برچسب (y(i)) در فرمول زیر را اندازه‌گیری می‌کند. این شرط در واقع مجموع مجذورات این فواصل است. حال سوال این است که چگونه می توان این کار را در یک آرایه داده بزرگ انجام داد؟ این به دلیل جادوی بردارها و جبر خطی امکان پذیر است.

یکی دیگر از معیارهای عملکرد کارآمد که مدل در این سناریو باید بر اساس آن طراحی شود، میانگین خطای مطلق است که به عنوان MAE شناخته می شود. این اندازه گیری کارآمدتر است زیرا نسبت به RMSE که فرمول آن را در زیر می بینید، حساسیت کمتری دارد.

برای دانشمندان داده شاغل در یادگیری ماشین در هر شرکت تولیدی، چالش های داده نیازمند راه حل های تصمیم گیری از طریق تحلیل خروجی مدل هستند و به همین دلیل، یک دانشمند داده باید با این حوزه کاربردی آشنا باشد.

رشته های مالی، تجارت الکترونیک، تشخیص بیماری ها و البته رشته هایی که محاسبات سنگین می طلبد. امور مالی، بانکی، و غیره بیشتر تقاضای ریاضی.

به عنوان مثال، یک تحلیلگر داده های کمی که در یک صندوق تامینی کار می کند و یک مدل قیمت گذاری مشتقه را توسعه می دهد، هنگام توسعه مدل خود باید دانش کاملی از مقادیر لگاریتمی، توزیع نرمال و انواع محاسبات داشته باشد.

تجزیه و تحلیل آماری سنتی هنوز به طور گسترده در پروژه های چند میلیارد دلاری از جمله پروژه های کشف دارو و غیره استفاده می شود، بنابراین شما باید مفاهیم آماری مانند میانگین، انحراف معیار، نمونه گیری، حداکثر درجه در نمودار آماری و نرمی و غیره را درک کنید.

مشاهده متن کامل: https://lotusmath.ir/teaching-mathematics-cat-tajrobi/ریاضی-یازدهم-تجربی/