بریدههایی از کتاب همه دروغ میگویند
۳٫۲
(۱۲)
اگر کسی به خودش دروغ بگوید، در نظرسنجی هم این کار را تکرار خواهد کرد.
f.r
در سال ۱۹۵۰ یک مقالهٔ بسیار مهم منتشر شد که با شواهد قدرتمندی نشان میداد نظرسنجیها به این خطا دچارند. پژوهشگران از منابع رسمی اطلاعاتی را دربارهٔ ساکنان دِنوِر به دست آوردند؛ اینکه چنددرصد از آنها در انتخابات شرکت میکنند، چند نفر به خیریه کمک میکنند و چند نفر کارت کتابخانه دارند. آنها سپس از شهروندان نظرسنجی کردند تا ببینند این درصدها با یکدیگر همخوانی دارند یا نه. نتایج در آن زمان شوکهکننده بود. آن چیزی که شهروندان در نظرسنجی گزارش داده بودند با دادههای جمعآوریشدهٔ پژوهشگران تفاوت بسیار داشت. با اینکه کسی هویت خودش را فاش نمیکرد، بیشتر مردم دربارهٔ میزان مشارکت خود در انتخابات و کمک به خیریهها اغراق کرده بودند.
f.r
براساس عکسهای مربوط به فعالیتهای مختلف، Premise میتواند کمکم خروجی اقتصادی و تورم را تخمین بزند. در کشورهای درحالتوسعه صف طولانی پمپ بنزین یکی از شاخصهای اصلی است که از مشکلات اقتصادی خبر میدهد؛ نبود سیب یا کال بودن سیبها هم همینطورند. تصاویر زمینی Premise از چین سبب شد آنها تورم مربوط به خوراکی را در سال ۲۰۱۱ و کاهش تورم مربوط به خوراکی را در سال ۲۰۱۲ کشف کنند؛ آن هم مدتها پیش از اینکه دادههای رسمی در این زمینه منتشر شوند
f.r
به ادعای من، سرچ انقلابیترین نوع داده است و ظاهراً تصاویر نیز دادهاند.
درست مانند کلمات که روزگاری به کتاب و روزنامه در طبقات خاکگرفته محدود بودند، حالا تصاویر دیجیتالی نیز توانستهاند از بند آلبوم و جعبههای مقوایی خلاص شوند؛ اینها هم به بیت تبدیل شده و در ابر قرار گرفتهاند و درست مانند متن، اینها هم درسهای جالبی از تاریخ با خود دارند؛ برای مثال، چنانکه گفته شد، تغییر کلمات نشاندهندهٔ تغییر در نحوهٔ حرفزدن مردم است و تصاویر هم میتوانند تغییر در نحوهٔ ژستگرفتن انسانها را نشان دهند.
f.r
مهمتر از آن، من درمجموع به پستهای مردم در فیسبوک شک دارم و دلیل این مسئله را در فصل بعد توضیح میدهم؛ اما در کل دلیلش این است که ما عادت داریم در رسانههای اجتماعی دربارهٔ زندگی خود دروغ بگوییم.
اگر شما در کریسمس تنها باشید و احساس بیچارگی کنید، شکی نیست که دلتان نمیخواهد با پستگذاشتن دربارهٔ ناراحتی خود حال دوستان و آشنایانتان را هم بد کنید. من حدس میزنم خیلیها کریسمسهای غمانگیزی را تجربه میکنند و بااینحال دربارهٔ «زندگی فوقالعاده، عالی و شاد» خود در فیسبوک پست میگذارند. اینها میتوانند نرخ خوشحالی ناخالص آمریکا را تا حد زیادی بالا ببرند؛ اما اگر قرار است نرخ خوشحالی ناخالص را بهطور واقعی محاسبه کنیم، باید از منابعی جز فیسبوک استفاده کنیم.
f.r
درواقع زبان همیشه موضوعی جالبتوجه برای پژوهشگران اجتماعی بوده است؛ ولی مطالعهٔ زبان معمولاً نیازمند بررسی دقیق متون است و تبدیل حجم زیاد متن به داده همیشه ممکن نیست. اما اکنون با ظهور کامپیوتر و دنیای دیجیتال، کشف کلمات در حجم زیادی از اسناد، کار راحتی شده است؛ بنابراین، کلمه نیز یکی دیگر از موضوعات تازه در تحلیل دادههای بزرگ است. لینکهایی که گوگل به کار میبرد همگی از کلمه تشکیل شدهاند و جستوجوهای گوگلی که من مطالعه میکنم نیز از جنس کلمهاند. مهمترین ابزار بهکاررفته در این کتاب، کلمه است. اما زبان چنان برای انقلاب دادههای بزرگ مهم است که باید بخش ویژهای را به آن اختصاص دهیم. در واقع، استفاده از زبان چنان رایج شده است که حالا حوزهای به نام «کلمه بهعنوان داده» را به آن اختصاص دادهاند.
f.r
برای مثال والمارت به کمک آمار فروش در همهٔ شعب خود میتواند پیشبینی کند که تولید کدام محصول باید متوقف شود. پیش از طوفان فرانسیس که سال ۲۰۰۴ جنوبشرقی کشور را تخریب کرد، والمارت بهدرستی حدس زده بود که الگوی خرید مردم در شهری که در خطر طوفان است تغییر میکند. آنها دادههای فروش مربوط به طوفانهای پیشین را بررسی کردند تا بفهمند مردم به خرید چه چیزهایی علاقه نشان میدهند. میدانید پاسخ چه بود؟ کیک آمادهٔ توتفرنگی. در روزهای پیش از طوفان، فروش این محصول هفتبرابر حالت عادی میشود.
براساس همین تحلیلها والمارت چند کامیون کیک آمادهٔ توتفرنگی به اتوبان شمارهٔ ۹۵ فرستاد تا فروشگاههای موجود در مسیر طوفان را تجهیز کنند و این کیکها فروش فوقالعادهای را تجربه کردند.
f.r
در حوزهٔ پیشبینی همین کافی است که بدانید چه چیزی مؤثر است؛ دلیلش اهمیتی ندارد.
f.r
درس دوم این است که وقتی قصد پیشبینی دارید لازم نیست چندان نگران درستبودن مدل باشید. خود سیدر هم نمیدانست چرا بزرگبودن بطن چپ تا این اندازه در موفقیت اسبهای مسابقه مؤثر است و نمیتوانست تأثیر بزرگ بودن طحال در این موفقیت را توضیح دهد. شاید یک روز متخصصان قلب و عروق و خونشناسان اسب بتوانند این اسرار را رمزگشایی کنند؛ اما حالا این مسئله اهمیتی ندارد. کار سیدر پیشبینی است نه اینکه چنین نکاتی را توضیح دهد. در حوزهٔ پیشبینی همین کافی است که بدانید چه چیزی مؤثر است؛ دلیلش اهمیتی ندارد.
f.r
بهطور کلی، سیدر دریافته است که در مسابقات اسبدوانی هرچه بطن چپ بزرگتر، بهتر؛ اما بطن چپ به این بزرگی زمانی نشانهٔ بیماری است که دیگر اعضای داخلی کوچک باشند. در فرعون آمریکایی همهٔ اعضای داخلیِ مهم بزرگتر از حد معمولاند و بطن چپ او فوقالعاده بزرگ است. این دادهها نشان میدهند که در میان صدهزار یا حتی یکمیلیون اسب، شمارهٔ ۸۵ از همه برتر است.
f.r
سیدر میگوید: «شاید نژاد نشان دهد که اسب شانس کمی برای موفقیت دارد؛ ولی اگر قرار است موفق شود، نژاد چه اهمیتی دارد؟»
f.r
سپس، ۱۲ سال پیش، نخستین کشف بزرگ اتفاق افتاد. سیدر تصمیم گرفت اندازهٔ اندام داخلی اسب را بررسی کند و ازآنجاکه این کار با درنظرگرفتن تکنولوژی روز محال بود، دستگاه سونوگرافی متحرکِ خودش را ساخت. نتیجه خارقالعاده بود. او متوجه شد اندازهٔ قلب، بهویژه بطن چپ، موفقیت اسب را بسیار خوب پیشبینی میکند و تنها معیار مهم در این زمینه است. یکی دیگر از اندامهای ارزشمند در این زمینه طحال بود؛ اسبهایی که طحال کوچکی داشتند هیچ موفقیتی به دست نمیآوردند.
f.r
همهٔ کسانی که میخواهند با بهکارگیری اطلاعات جهان را بهتر درک کنند میتوانند به راه گوگل بروند. انقلاب دادههای بزرگ ربطی به جمعآوری اطلاعات زیاد ندارد، بلکه بر جمعآوری دادههای درست استوار است.
f.r
دیدگاه خود دربارهٔ معنای داده را تغییر دهیم. معمولاً ارزش دادههای بزرگ به اندازهٔ آنها برنمیگردد، بلکه ارزش آنها ناشی از کشف اطلاعات تازه برای مطالعه است؛ اطلاعاتی که تا پیش از این اصلاً جمعآوری نمیشدند.
f.r
هدف پژوهشگرِ داده این است که جهان را درک کند. وقتی نتایج غیرمنتظرهای کشف کردیم، میتوانیم از علوم دادهای بیشتر بهره ببریم و کشف کنیم چرا جهان آنطور که تصور میکردیم نیست
f.r
فرزندان خانوادههای مرفه معمولاً نامهای معمولی مثل کوین، کریس یا جان دارند. کودکانی که در خانوادههای فقیر رشد کردهاند معمولاً اسامی خاصی چون نوشون، اونیک و بریونشی دارند. کودکان آفریقایی ـ آمریکایی که در فقر به دنیا میآیند، دوبرابر بیشتر از دیگر کودکان اسمی میگیرند که در آن سال روی هیچ کودک دیگری گذاشته نشده است.
f.r
حتماً متوجه شدهاید که این پژوهش از چند منبع اطلاعاتی مختلف بهره میبرد که برخی بزرگ و برخی کوچک، برخی اینترنتی و برخی کاغذیاند. با اینکه منابع دادهای دیجیتال بسیار نو و هیجانانگیزند، یک پژوهشگر دادهای خوب هیچگاه از منابع سنتی و قدیمی رویگردان نیست. بهترین روش برای یافتن پاسخ درست این است که همهٔ دادههای ممکن را با هم ترکیب کنیم
f.r
وقتی به غریزهٔ خود تکیه میکنیم ممکن است از شرایط دراماتیکی تأثیر بگیریم که همیشه انسان را مجذوب و شیفتهٔ خود میکنند. ما اغلب چیزهایی را دست بالا میگیریم که خاطرهای را بهیادماندنی میکنند؛ برای مثال مردم در یک نظرسنجی اعلام کردند که گردباد بیشتر از آسم موجب مرگومیر میشود، در حالی که مرگومیر ناشی از آسم هفتاد برابر گردباد است. اما مرگ بر اثر آسم چندان خاص نیست ـ حتی در اخبار هم به آن اشاره نمیشود؛ در صورتی که مرگ بر اثر گردباد بسیار هیجانانگیز است.
f.r
من رابطهٔ میان جستوجوی گوگل دربارهٔ افسردگی را با معیارهای منطقهای مختلف ازجمله شرایط اقتصادی، سطح تحصیلات و میزان مشارکت در کلیسا مقایسه کردم. رابطهٔ آبوهوای زمستانی با افسردگی از همه قویتر بود. در طول زمستان جستوجوی واژهٔ «افسردگی» در نقاطی که آبوهوای گرمتری دارند (مانند هونولولو و هاوایی) ۴۰ درصد کمتر از مناطق سرد (مثل شیکاگو در ایلینوی) است. این رابطه چقدر شدید است؟ یک بررسی خوشبینانه دربارهٔ تأثیر داروهای ضدافسردگی نشان میدهد که حتی بهترین داروها هم تنها ۲۰ درصد در کاهش این بیماری مؤثرند. براساس آمار و ارقام گوگل، اسبابکشی از شیکاگو به هونولولو حداقل دوبرابر مؤثرتر از بهترین داروها برای درمان افسردگی زمستانی است.
f.r
گاهی دادههای کافی در اختیار غریزهٔ فردی ما نیست تا براساس آن نتیجهگیری کند. بعید است شما یا دوستان و خانوادهتان آنقدر بیماران مبتلا به سرطان پانکراس را دیده باشید که بتوانید میان سوءهاضمه و دلدرد با سوءهاضمهٔ صِرف تمایز قائل شوید. در واقع، هر قدر دادههای بزرگ رشد میکنند، پژوهشگران هم الگوهای ظریفتری را در ترتیب زمانی ظهورِ علائم دنبال میکنند که شاید از چشم پزشکان دور بماند.
بهعلاوه، با اینکه غرایز ما میتوانند عملکرد جهان را بهگونهای نسبتاً پذیرفتنی درک کنند، این درک معمولاً دقیق نیست. ما به داده نیاز داریم تا تصویر را دقیقتر کنیم؛ مثلاً تأثیر آبوهوا بر حسوحال فرد را در نظر بگیرید. احتمالاً حدس شما این است که افراد در روزهای سرد بیحوصلهترند تا در روزهای گرم. این درست است، اما شاید ندانید این تفاوت دمایی واقعاً چه تأثیری دارد.
f.r
حجم
۱٫۳ مگابایت
سال انتشار
۱۴۰۱
تعداد صفحهها
۲۴۸ صفحه
حجم
۱٫۳ مگابایت
سال انتشار
۱۴۰۱
تعداد صفحهها
۲۴۸ صفحه
قیمت:
۶۵,۰۰۰
تومان