کتاب علم داده
معرفی کتاب علم داده
کتاب علم داده نوشتهٔ جان. دی کلهر و برندن تیرنی و ترجمهٔ امیررضا تجلی و امیرمحمد رمدانی و امیرعلی رمدانی است و انتشارات چاپ و نشر بازرگانی آن را منتشر کرده است.
درباره کتاب علم داده
هدف علم داده بهبود تصمیمگیری بر مبنای تصمیمات و بینشهایی است که از مجموعهدادههای بزرگ استخراج شدند. علم داده بهعنوان یک زمینه کاری، مجموعهای از اصول، تعاریف مسئله، الگوریتمها و فرآیندهای مربوط به استخراج الگوهای غیرقابل مشاهده و سودمند از مجموعه دادههای بزرگ را در بر میگیرد. علم داده با رشتههای دادهکاوی و یادگیری ماشین ارتباط نزدیکی دارد اما نسبت به آنها دارای حوزه کاربرد گستردهتری است. امروزه علم داده تصمیمگیری، تقریبا همه بخشهای جوامع پیشرفته را تحت تاثیر قرار داده است. علم داده با روشهای متعددی میتواند زندگی روزمره شما را تحت تاثیر قرار دهد که عبارتاند از: تعیین تبلیغات و آگهیهایی که به صورت آنلاین برای شما ارسال میشوند، نوع فیلمها، کتابها و روابط دوستانهای که به شما پیشنهاد میشوند، کدام ایمیلها در پوشه اسپم قرار میگیرند، پیشنهادهایی که هنگام تمدید خدمات تلفن همراه دریافت میکنید، هزینه بیمه درمانی، ترتیبدهی و زمانبندی چراغهای راهنمایی منطقه سکونت شما، نحوه طراحی داروهای مورد نیازتان و اینکه پلیس کدام موقعیتهای شهر را هدفگیری کرده است.
رشد روزافزون استفاده از علم داده در جوامع ناشی از ظهور کلاندادهها و رسانههای اجتماعی، تسریع در انجام محاسبات، کاهش شدید در ارزش حافظه رایانه و توسعه روشهای کارآمدتر برای تجزیه و تحلیل و مدلسازی مانند یادگیری عمیق است. مجموع این عوامل بدین معناست که جمعآوری، ذخیرهسازی و پردازش دادهها هرگز برای سازمانها آسان نبوده. همچنین این نوآوریهای تخصصی و کاربرد گستردهتر علم داده به این معناست که چالشهای اخلاقی مربوط به استفاده از علم داده و محافظت از حریم خصوصی افراد تا این حد اساسی و مهم نبوده است. هدف این کتاب ارائه مقدمهای در مورد علم داده است که عناصر ضروری این رشته را بهطور دقیق و کامل پوشش میدهد و درک اصولی این رشته را فراهم میکند.
فصل ۱ کتاب رشته علم داده را معرفی کرده و تاریخچه کوتاهی از نحوه ایجاد و تکامل آن ارائه میدهد. همچنین در این فصل بررسی میشود که چرا امروزه علم داده مهم است و عوامل متعددی را بررسی میکند که موجب انتخاب آن میشود. این فصل با بررسی و شفافسازی برخی از باورهای غلط و غیرعلمی به پایان میرسد. در فصل ۲ مفاهیم اساسی و پایهای مربوط به دادهها مشخص میشوند. همچنین، در این فصل مراحل متعارف یک پروژه علم داده توصیف میشوند که عبارتند از: فهم تجاری، درک و شناخت دادهها، تهیه و آمادهسازی دادهها، مدلسازی، ارزیابی و توسعه. در فصل ۳ بر زیرساختهای داده و چالشهای ناشی از کلانداده و ادغام دادههای موجود در منابع مختلف تمرکز شده است. یکی از جنبههای زیرساخت معمول داده که چالشبرانگیز بوده، این است که دادههای موجود در پایگاههای داده و انبارهای داده در سرورهایی ذخیره میشوند که از سرورهایی که برای تجزیه و تحلیل دادهها استفاده میشوند متفاوت هستند. بنابراین، هنگامی که روی مجموعههای کلانداده کار میشود زمان زیادی صرف میگردد تا دادههایی که در سرورهای پایگاه داده یا انبار داده وجود دارند به سرورهایی منتقل شوند که برای تجزیه و تحلیل دادهها و یادگیری ماشین استفاده میشوند. فصل ۳ با توصیف زیرساختهای معمول علم داده مربوط به سازمان و برخی راهحلهای جدید برای چالشانتقال مجموعههای کلانداده در زیرساخت داده آغاز میشود که عبارتند از: استفاده از یادگیری ماشین موجود در پایگاه داده، استفاده از Hadoop برای ذخیرهسازی و پردازش دادهها و توسعه سیستمهای پایگاه داده ترکیبی که بهطور یکنواخت از پایگاه داده متعارف و راهحلهای Hadoop-مانند استفاده میکنند. در پایان این فصل چالشهایی برجسته میشوند که در فرآیند ادغام دادههای سراسر سازمان در یک بازنمایی واحد وجود دارند که برای یادگیری ماشین مناسب است. فصل ۴ به معرفی رشته یادگیری ماشین میپردازد و برخی از محبوبترین الگوریتمها و مدلهای یادگیری ماشین از جمله شبکههای عصبی، یادگیری عمیق و مدلهای درخت تصمیم را توضیح میدهد. فصل ۵ بر ارتباط تخصص یادگیری ماشین با مسائل دنیای واقعی متمرکز است و طیفی از مسائل متعارف کسب و کار را بررسی کرده و نحوه حل این مسائل با استفاده از راهحلهای یادگیری ماشین را شرح میدهد. فصل ۶ به پیامدهای اخلاقی علم داده، تحولات اخیر در تنظیم دادهها و برخی از روشهای محاسباتی جدید برای حفظ حریم خصوصی افراد در فرآیند علم داده میپردازد. در نهایت فصل ۷ مباحثی را توصیف میکند که علم داده در آیندهای نزدیک تاثیر قابل توجهی بر آنها خواهد داشت و اصولی را تعیین میکند که در موفقیت پروژه علم داده مهم هستند.
خواندن کتاب علم داده را به چه کسانی پیشنهاد میکنیم
این کتاب برای کسانی که در حوزهٔ داده و دِیتا به صورت تخصصی فعالیت میکنند مناسب است.
بخشی از کتاب علم داده
علم داده مجموعهای از اصول، تعاریف مسئله، الگوریتمها و فرآیندهای استخراج الگوهای غیرقابل مشاهده و مفید مجموعهدادههای بزرگ را در بر میگیرد. بسیاری از اصول علم داده در زمینههای مرتبط مانند یادگیری ماشین و دادهکاوی توسعه یافتند. در واقع اصطلاحات علم داده، یادگیری ماشین و دادهکاوی اغلب به جای یکدیگر به کار میروند. وجه اشتراک این زمینهها تمرکز بر بهبود تصمیمگیری از طریق تجزیه و تحلیل دادههاست. با این وجود اگر چه علم داده از رشتههای دیگر وام میگیرد اما دامنه گستردهتری راشامل میشود. یادگیری ماشین (ML)۱ بر طراحی و ارزیابی الگوریتمهای استخراج الگوهای داده متمرکز است. دادهکاوی۲ عموما با تجزیه و تحلیل دادههای ساختار یافته سر و کار داشته و در بیشتر مواقع بر کاربردهای تجاری تاکید میکند. علم داده۳ علاوه بر در بر گرفتن تمامی این ملاحظات چالشهای دیگری مانند دریافت، تصفیه و تبدیل دادههای ساختار نیافته وب و رسانههای اجتماعی، استفاده از فناوریهای کلانداده۴ به منظور ذخیره و پردازش مجموعه دادههای بزرگ و ساختار نیافته و سوالات مربوط به اخلاق و مقررات دادهها را نیز در بر میگیرد.
با استفاده از علم داده میتوان الگوهای متنوعی را استخراج کرد. برای مثال ممکن است بخواهیم الگوهایی را استخراج کنیم که به ما کمک کنند گروهی از مشتریان را شناسایی کنیم که رفتارها و سلایق مشابهی دارند. این امر در واژهنامه تجارت بهعنوان تقسیمبندی مشتری۵ معروف است و در علم داده خوشهبندی۶ نامیده میشود. به عبارت دیگر ممکن است بخواهیم الگویی را استخراج کنیم که محصولاتی را شناسایی کند که اغلب با هم خریداری میشوند که در اصطلاح قانون وابستگی۷ نامیده میشود. یا ممکن است بخواهیم الگوهایی را استخراج کنیم که وقایع عجیب یا غیرطبیعی را شناسایی کنند از جمله مطالبات نادرست حق بیمه؛ رویهای که بهعنوان ناهنجاری شناخته میشود. در نهایت ممکن است بخواهیم الگوهایی را شناسایی کنیم که در طبقهبندی موضوعات به ما کمک کنند. به عنوان مثال قانون زیر نشان میدهد که الگوی طبقهبندی که از مجموعه دادههای ایمیل استخراج شده است چگونه میتواند باشد: اگر ایمیلی حاوی عبارت «به راحتی درآمد کسب کنید» باشد احتمالا هرزنامه است. شناسایی این نوع قوانین طبقهبندی، به پیشبینی معروف است.
اگر متخصص انسانی به راحتی بتواند الگویی را در ذهن خود ایجاد نماید، این الگو ارزش این را ندارد که برای «یافتن آن» با استفاده از علم داده وقت صرف کرد
ممکن است اصلاح پیشبینی اقدام عجیبی به نظر برسد، زیرا این قانون پیشبینی نمیکند که در آینده چه اتفاقی خواهد افتاد: این ایمیل یک ایمیل اسپم است یا نیست. بنابراین، بهترین کار این است که به جای پیشبینی آینده به الگوهای پیشبینی ارزش گمشده یک ویژگی فکر کنیم. در این مثال پیشبینی کردیم که آیا این ایمیل از نظر ویژگی باید در «اسپم» قرار بگیرد یا خیر.
اگرچه میتوانیم از علم داده برای استخراج انواع مختلفی از الگوها استفاده کنیم اما همواره درصدد هستیم که این الگوها غیرقابل مشاهده و مفید باشند. مثال طبقهبندی ایمیل در پاراگراف قبلی بسیار ساده و روشن بود و در صورتی که تنها قانون استخراج شده از علم داده باشد مایوس نمیشویم. برای مثال این قانون طبقهبندی ایمیل تنها یک ویژگی ایمیل را بررسی میکند: آیا این ایمیل حاوی عبارت «به راحتی درآمد کسب کنید» است؟ اگر متخصص انسانی به راحتی بتواند الگویی را در ذهن خود ایجاد نماید، این الگو ارزش این را ندارد که برای «یافتن آن» با استفاده از علم داده وقت صرف کرد. به طور کلی، علم داده زمانی مفید است که مثالهای دادهای زیادی داشته باشیم و الگوها بسیار پیچیدهتر از آن باشند که بتوان بهطور دستی توسط انسان آنها را ایجاد کرد. میتوانیم مثالهای دادهای بسیاری را تعریف کنیم که بیشتر از تعدادی هستند که یک متخصص انسانی بتواند به راحتی آنها را بررسی نماید. با توجه به پیچیدگی الگوها باز هم میتوانیم آن را نسبت به تواناییهای انسانی تعریف کنیم. ما انسانها در تعریف قوانینی که یک، دو یا حتی سه ویژگی (که به متغیر نیز معروف است) را بررسی میکنند نسبتا خوب عمل میکنیم اما وقتی به بیش از سه ویژگی بر میخوریم برای کنترل تعاملات بین آنها با مشکل مواجه میشویم.
حجم
۳٫۳ مگابایت
سال انتشار
۱۴۰۰
تعداد صفحهها
۲۱۷ صفحه
حجم
۳٫۳ مگابایت
سال انتشار
۱۴۰۰
تعداد صفحهها
۲۱۷ صفحه
نظرات کاربران
متاسفانه تصاویر کتاب از کیفیت پایینی برخوردار هستند.