بریدههایی از کتاب همه دروغ میگویند
۳٫۲
(۱۲)
پژوهشگران اینطور نتیجه گرفتند که «هرچه محتوا مثبتتر باشد، با احتمال بیشتری محبوبیت پیدا میکند.»
این مسئله در تضاد با دیدگاه عام خبرنگاران است که میگوید انسانها به مقالات مربوط به خشونت و فاجعه بیشتر جلب میشوند. درست است که رسانههای خبری مقالات سیاهی نیز در اختیار انسانها میگذارند؛ حتی در اتاقهای خبر این ضربالمثل را دارند که «هرچه خونینتر، بهتر»، اما مقالهٔ این استادان دانشکدهٔ وارتون نشان میدهد که مردم به داستانهای شاد علاقهٔ بیشتری دارند. پس شاید یک ضربالمثل تازه لازم داشته باشیم: «هرچه خندانتر، محبوبتر»؛ گرچه این ضربالمثل قافیه ندارد.
f.r
نخستین نکتهٔ مهم، شاید مهمتر از دیگر نکات، این است که اگر میخواهید از دادههای تازه برای متحولکردن یک حوزه بهره ببرید، بهتر است از حوزهای آغاز کنید که روشهای سنتی آن ناکارآمد است. متخصصان اسب که عقدهٔ نژاد داشتند و از سیدر شکست خوردند، هنوز جا برای بهبود دارند؛ همینطور موتورهای جستوجوی علاقهمند به تکرار کلمات که از گوگل شکست خوردند.
f.r
از ۴۳ رئیسجمهوری آمریکا، به ۱۶ تن از آنان سوءقصد شده است و ۴ نفر جان خود را از دست دادهاند. زندهماندن برخی از این افراد کاملاً تصادفی است.
Mahdiyeh Moradi
کدام متغیرها تأثیری بر موفقیت ندارند؟ یکی از متغیرهایی که به نظرم بسیار تعجبآور بود، میزان پول صرفشدهٔ ایالت در زمینهٔ آموزش است. در ایالتهایی که درصد ساکنان مشابهی در مناطق شهری دارند، بودجهٔ آموزش هیچ ربطی به نرخ تولید نویسندگان، هنرمندان و رهبران تجاری برجسته ندارد.
Mahdiyeh Moradi
در اوایل تاریخ این کشور، آمریکاییها برای ایالات متحده از فعل جمع استفاده میکردند؛ برای مثال جان آدامز در نطق دولتی خود در سال ۱۷۹۹ گفت: «ایالات متحده در توافقشان با بریتانیای سلطنتی.» اگر من این کتاب را در سال ۱۸۰۰ مینوشتم، میگفتم: «ایالات متحده دچار تفرقهاند.» این تفاوت کوچک برای مدتها نظر تاریخدانان را به خود جلب کرده بود؛ چراکه نشان میداد آمریکاییها از زمانی به بعد دیگر خود را مجموعهای ایالت نمیدانند و خود را یک ملت واحد در نظر گرفتهاند.
Mahdiyeh Moradi
مهمتر از همه اینکه اگر میخواهیم با کمک دادههای بزرگ اطلاعات بیشتری به دست بیاوریم، باید پرسشهای درستی مطرح کنیم. همانطور که نمیتوان تلسکوپ را تصادفاً به نقطهای در آسمان نشانه رفت و انتظار داشت پلوتو کشف شود، نمیتوان یک مشت داده را دانلود کرد و انتظار داشت اسرار ذات انسانی را افشا کنند. شما باید در جای درست دست به جستوجو بزنید.
شاهراه
هوشمندترین شرکتهای فعال در حوزهٔ دادههای بزرگ معمولاً دادههای خود را کوچک میکنند. تصمیمهای بزرگ در گوگل براساس نمونههای کوچکی از کل اطلاعات گرفته میشود. برای درک مسائل مهم همیشه به اطلاعات زیاد نیاز نیست، بلکه باید اطلاعات درست را در اختیار داشت.
شاهراه
اطلاعاتی وجود دارد که نشان میدهند دقیقاً چه افرادی رأی خواهند داد. بیش از نیمی از شهروندانی که رأی نمیدهند درست پیش از انتخابات در نظرسنجیها اعلام میکنند که قصد رأی دادن دارند و همین تخمین ما را دربارهٔ میزان مشارکت دچار اشتباه میکند؛ در حالی که جستوجوی عباراتی چون «چطور رأی دهیم» یا «کجا رأی دهیم» درست چند هفته پیش از انتخابات میتواند مشخص کند که کدام بخش از کشور بیشترین مشارکت انتخاباتی را خواهد داشت.
شاهراه
بهطور سنتی وقتی پژوهشگران یا تاجران در پی داده بودند دست به نظرسنجی میزدند و دادهها بسیار مرتب و منظم بهصورت عدد یا عبارات تیکخورده در یک پرسشنامه از راه میرسیدند؛ اما حالا دیگر اینطور نیست. دوران دادههای ساختارمند، تمیز، ساده و نظرسنجیشده گذشته است. در این عصر تازه، ردپای نامرتبی که از خود در زندگی به جا میگذاریم بهعنوان منبع اصلی داده به کار میرود.
چنانکه پیشتر گفته شد، کلمات دادهاند؛ کلیک و لینک دادهاند؛ غلطهای تایپی دادهاند؛ موزهایی که به خواب میآیند، دادهاند؛ لحن صدا و نفسنفسزدن و تپش قلب دادهاند؛ اندازهٔ طحال هم داده است. به ادعای من، سرچ انقلابیترین نوع داده است و ظاهراً تصاویر نیز دادهاند.
6456
نتایج گنتزکو و شاپیرو نشان میدهند که رسانهها مانند هر صنعت دیگری روی کرهٔ زمین عمل میکنند؛ همانطور که سوپرمارکت تعیین میکند مردم کدام بستنی را بیشتر دوست دارند تا یخچالهایش را از آن پر کند، روزنامهها هم بررسی میکنند تا ببینند مردم خواستار چه دیدگاههاییاند تا صفحات خود را از آن پر کنند. شاپیرو به من گفت: «همهاش یک جور کسبوکار است.»
6456
این مطالعه تأثیری عمیق بر دیدگاه ما دربارهٔ رسانههای خبری دارد. بسیاری از افراد، ازجمله مارکسیستها، باور دارند که خبرنگاری در آمریکا از ثروتمندان یا سازمانهایی متأثر است که هدفشان تأثیرگذاری بر مردم و شاید راندن آنها به سمت دیدگاههای سیاسی خودشان است؛ اما مطالعهٔ گنتزکو و شاپیرو نشان داد که این انگیزهٔ اصلی مالکان نیست؛ مالکان رسانههای آمریکایی چیزی را به مردم میدهند که آنها میطلبند و بهاینترتیب مالکان را ثروتمندتر میکنند.
6456
آخرین درسی که میتوان از تلاش موفق سیدر برای پیشبینی قهرمان تاج سهگانهٔ مسابقات اسبدوانی فراگرفت این است که باید در تعیین آنچه داده محسوب میشود، از ذهنی باز و منعطف بهره ببرید. اینطور نیست که تا پیش از سیدر، دیگر متخصصان از وجود دادههای دیگر بیخبر بوده باشند؛ آنها نیز زمان مسابقه و جدولهای نژادی را دنبال میکردند. اما نبوغ سیدر این بود که در جایی متفاوت با دیگران به دنبال داده رفت و منابع دادهای غیرمتعارف را نیز در نظر گرفت. برای یک پژوهشگرِ دادهای چشمانی باز و نگاهی متفاوت ضروری است.
6456
گر هدف شما پیشبینی آینده است ـ اینکه چه شرابی خوشمزه شده است، کدام محصول بیشتر فروش میرود و کدام اسب سریعتر خواهد دوید ـ لازم نیست خودتان را چندان مشغول علت زیربنایی مدل کنید؛ فقط اعداد درست را به دست بیاورید. این دومین نکتهٔ آموزنده در ماجرای جف سیدر است.
6456
درس دوم این است که وقتی قصد پیشبینی دارید لازم نیست چندان نگران درستبودن مدل باشید. خود سیدر هم نمیدانست چرا بزرگبودن بطن چپ تا این اندازه در موفقیت اسبهای مسابقه مؤثر است و نمیتوانست تأثیر بزرگ بودن طحال در این موفقیت را توضیح دهد. شاید یک روز متخصصان قلب و عروق و خونشناسان اسب بتوانند این اسرار را رمزگشایی کنند؛ اما حالا این مسئله اهمیتی ندارد. کار سیدر پیشبینی است نه اینکه چنین نکاتی را توضیح دهد. در حوزهٔ پیشبینی همین کافی است که بدانید چه چیزی مؤثر است؛ دلیلش اهمیتی ندارد.
6456
نخستین نکتهٔ مهم، شاید مهمتر از دیگر نکات، این است که اگر میخواهید از دادههای تازه برای متحولکردن یک حوزه بهره ببرید، بهتر است از حوزهای آغاز کنید که روشهای سنتی آن ناکارآمد است. متخصصان اسب که عقدهٔ نژاد داشتند و از سیدر شکست خوردند، هنوز جا برای بهبود دارند؛ همینطور موتورهای جستوجوی علاقهمند به تکرار کلمات که از گوگل شکست خوردند.
6456
(هر سال صدها اسب در میادین اسبدوانی آمریکا جان خود را از دست میدهند که بیشتر به دلیل شکستن پای آنهاست)؛ یکسوم باقیمانده هم دچار مشکلی به نام سندروم بارتلبی میشوند: بارتلبی در داستان کوتاه و خارقالعادهٔ هرمان ملویل دست از کار میکشد و در برابر هر خواستهٔ رئیسش فقط میگوید: «ترجیح میدهم این کار را نکنم.» بسیاری از اسبها نیز در همان ابتدای فعالیت حرفهای خود به این نتیجه میرسند که اگر دلشان نخواهد مجبور نیستند بدوند: آنها مسابقه را با نهایت سرعت آغاز میکنند، اما اواسط مسابقه سرعتشان را کم میکنند یا بهکلی دست از دویدن میکشند. چرا باید مدام یک مسیر بیضیشکل را بدوند در حالی که سم و پاهایشان درد گرفته است؟ پس با خود میگویند: «ترجیح میدهم این کار را نکنم» (بارتلبیها، چه انسان و چه اسب، در قلب من جایگاه ویژهای دارند).
6456
من متوجه شدم که ترکیب عبارات مربوط به پرکردن وقت میتواند نرخ بیکاری را پیشبینی کند و بخشی از بهترین مدل برای تعیین این نرخ خواهد بود.
این مثال نشاندهندهٔ قدرت نخست دادههای بزرگ است؛ اینکه دیدگاه خود دربارهٔ معنای داده را تغییر دهیم. معمولاً ارزش دادههای بزرگ به اندازهٔ آنها برنمیگردد، بلکه ارزش آنها ناشی از کشف اطلاعات تازه برای مطالعه است؛ اطلاعاتی که تا پیش از این اصلاً جمعآوری نمیشدند.
6456
همانطور که میبینید غریزهٔ ما گاهی بهتنهایی و دور از کامپیوتر عالی عمل میکند، اما گاهی هم دچار اشتباهات بزرگ میشود. شاید مادربزرگم دچار یکی از خطاهای شناختی شده باشد: ما معمولاً دربارهٔ تأثیر تجربهٔ خود اغراق میکنیم. به زبان پژوهشگران دادهای، ما به دادهها «وزن» میدهیم و نقطهای که بیشترین وزن را در میان دادهها دریافت میکند، خودمانیم.
6456
مطالعهٔ کلمبیا و مایکروسافت نمونهای از علوم دادهای و کامپیوتری صحیح است و چیزی را به ما میآموزد که غریزهمان بهتنهایی آن را کشف نمیکرد. اینیکی از مواردی است که در آن اندازهٔ دادهها مهم است. گاهی دادههای کافی در اختیار غریزهٔ فردی ما نیست تا براساس آن نتیجهگیری کند. بعید است شما یا دوستان و خانوادهتان آنقدر بیماران مبتلا به سرطان پانکراس را دیده باشید که بتوانید میان سوءهاضمه و دلدرد با سوءهاضمهٔ صِرف تمایز قائل شوید. در واقع، هر قدر دادههای بزرگ رشد میکنند، پژوهشگران هم الگوهای ظریفتری را در ترتیب زمانی ظهورِ علائم دنبال میکنند که شاید از چشم پزشکان دور بماند.
6456
افراد بسیاری از این مسئله نگرانند؛ آنها از اطلاعات میترسند و بهراحتی در جهان اعداد گیجوگم میشوند. آنها فکر میکنند درک عددیِ جهان باید به اقلیت نوابغ با نیمکرهٔ چپِ غالب سپرده شود، نه همه و به محض اینکه با اعداد روبهرو میشوند، آمادهاند بهسرعت صفحه را ورق بزنند، جلسه را پایان دهند یا حرف را عوض کنند.
اما من ۱۰ سال در حوزهٔ تحلیل داده کار کردهام و آنقدر خوششانس بودهام که با بسیاری از افراد برجسته در این زمینه همکاری داشته باشم. یکی از مهمترین درسهایی که در این مدت آموختم این بود که علوم دادهایِ خوب آنقدرها که مردم فکر میکنند، پیچیده نیست؛ در واقع، بهترین شکل علوم دادهای بسیار غریزی و حسی است.
6456
حجم
۱٫۳ مگابایت
سال انتشار
۱۴۰۱
تعداد صفحهها
۲۴۸ صفحه
حجم
۱٫۳ مگابایت
سال انتشار
۱۴۰۱
تعداد صفحهها
۲۴۸ صفحه
قیمت:
۶۵,۰۰۰
تومان