Преувеличеното обещание за така нареченото безпристрастно извличане на данни


Нобеловият лауреат Ричард Файнман веднъж помолил учениците си от Калифорнийския технологичен институт да изчисли вероятността, че ако той излезе извън класната стая, първата кола на паркинга ще има специална регистрационна табела, казва 6ZNA74. Ако приемем, че всеки брой и буква са еднакво вероятни и определени независимо, учениците са преценили, че вероятността да бъде по-малка от 1 на 17 милиона. Когато учениците завършиха изчисленията си, Фейнман разкри, че правилната вероятност е 1: Той е видял тази регистрационна табела на път за клас. Нещо невероятно не е малко вероятно, ако вече се е случило.

Капанът на Файнман – претърсване на данни за модели без каквато и да е предубедена идея за това, което човек търси – е ахилесовата пета на изследвания, базирани на извличане на данни. Намирането на нещо необичайно или изненадващо, след като вече се е случило, не е нито необичайно, нито изненадващо. Моделите със сигурност ще бъдат намерени и вероятно ще бъдат подвеждащи, абсурдни или по-лоши.

В най-продаваната си книга от 2001 година Добре до голямоДжим Колинс сравнява 11 компании, които са надминали общия пазар на акции през последните 40 години до 11 компании, които не са. Той идентифицира пет отличителни черти, които обединиха успешните компании. "Ние не започнахме този проект с теория, която да тестваме или да докажем", похвали се Колинс. "Ние се опитахме да изградим теория от основата, изведена директно от доказателствата."

Той влезе в капанът на Файнман. Когато погледнем назад във времето във всяка група компании, най-доброто или най-лошото, винаги можем да намерим някои общи характеристики, така че намирането им да не доказва нищо. След публикуването на. T Добре до голямо, представянето на великолепните 11 акции на Колинс е ясно посредствено: пет акции са се справили по-добре от общия фондов пазар, докато шест са се справили по-зле.

През 2011 г. Google създаде програма за изкуствен интелект, наречена Google грип, която използва заявки за търсене, за да предскаже огнища на грипа. Програмата на Google за извличане на данни разглежда 50 милиона заявки за търсене и идентифицира 45-те, които са най-тясно свързани с разпространението на грипа. Това е още един пример за капан за извличане на данни: валидно проучване ще определи ключовите думи предварително. След издаването на доклада Google грипът надцени броя на случаите на грип за 100 от следващите 108 седмици, средно с почти 100%. Google грип вече не предвижда грип.

Интернет маркетинг смята, че може да увеличи приходите си, като промени цвета на традиционната си синя уеб страница на различен цвят. След няколко седмици тестове, компанията открива статистически значим резултат: очевидно Англия обича тийла. Като разглеждат няколко алтернативни цвята за сто държави, те гарантират, че ще намерят увеличение на приходите за някакъв цвят за някоя страна, но преди това нямаха представа дали бирата ще продава повече в Англия. Както се оказа, когато цветът на интернет страницата на Англия е променен на чист, приходите са паднали.

Един стандартен невронаучен експеримент включва показване на доброволец в машина за ЯМР различни изображения и задаване на въпроси за изображенията. Измерванията са шумни, събират магнитни сигнали от околната среда и от вариации в плътността на мастната тъкан в различните части на мозъка. Понякога те пропускат мозъчната дейност; понякога те предполагат дейност, при която няма такава.

Завършил студент от Дартмут използвал ядрено-магнитен резонанс за изследване на мозъчната активност на сьомга, тъй като беше показано снимки и зададени въпроси. Най-интересното в проучването беше, че не е изследвана сьомга, а сьомгата е мъртва. Да, мъртва сьомга, купена на местния пазар, беше пусната в машината за ядрено-магнитен резонанс и бяха открити някои модели. Неизбежно имаше модели – и те винаги бяха безсмислени.

През 2018 г. преподавател по икономика в Йейл и завършил студент изчисляват корелациите между ежедневните промени в цените на биткойните и стотици други финансови променливи. Те установиха, че цените на биткойните са положително корелирани с възвръщаемостта на запасите в индустрията за потребителски стоки и здравеопазването и че те са негативно свързани с възвръщаемостта на акциите в изработените продукти и индустрията за добив на метали. "Ние не даваме обяснения", каза професорът, "ние просто документираме това поведение." С други думи, те също можеха да разгледат корелациите на цените на биткойните със стотици списъци с телефонни номера и да съобщят най-високите корелации.

Директорът на лабораторията по храните и марката на Корнелския университет е автор (или съавтор) повече от 200 рецензирани доклада и е написал две популярни книги, които са преведени на повече от 25 езика.

В блог пост през 2016 г., озаглавен „Студентът, който никога не е казвал“, той пише за докторант, който е получил данни, събрани на италиански бюфет, който можеш да изядеш.

Появи се кореспонденция по имейл, в която професорът посъветва студентите да разделят гостите на „мъже, жени, гости на обяд, гости на вечеря, хора, които седят сами, хората ядат с групи от 2 души, хората ядат в групи от 2+, хората, които поръчват алкохол хора, които поръчват безалкохолни напитки, хора, които седят близо до бюфет, хора, които седят далеч, и така нататък… ”Тогава тя можеше да разгледа различни начини, по които тези подгрупи могат да се различават:“ # парчета пица, # пътувания, ниво на запълване от чиния, дали са получили десерт, поръчали ли са едно питие, и така нататък… "

Той заключи, че тя трябва да „работи усилено, да изтръгне кръв от тази скала.” Като никога не казваше не, ученикът имаше четири статии (сега известни като „пицарски вестници“), публикувани с професор Корнел като съавтор. Най-известната хартия съобщава, че мъжете ядат 93% повече пица, когато ядат с жени. Това не свърши добре. През септември 2018 г. един факултетен комитет на Корнел стигна до заключението, че е „извършил академични нарушения в своето изследване“.

Добрите изследвания започват с ясна представа за това, което човек търси и очаква да намери. Извличането на данни просто търси модели и неизбежно открива някои.

Проблемът днес е ендемичен, защото мощните компютри са толкова добри в разграбването на големи данни. Миньорите за данни откриха корелации между думи в Twitter или заявки за търсене на Google и престъпна дейност, сърдечни атаки, цени на акциите, резултати от изборите, биткойн цени и футболни мачове. Може би си мислите, че правя тези примери. Не съм.

Има дори по-силни корелации с чисто случайни числа. Big Data Hubris е да си мисли, че корелираните данни трябва да имат смисъл. Намирането на необичаен модел в Големите данни не е по-убедително (или полезно), отколкото намирането на необичайна регистрационна табела извън класната стая на Фейнман.

Мнение на WIRED публикува произведения, написани от външни автори и представлява широк спектър от гледни точки. Прочетете повече мнения тук. Изпратете съобщение на мнение: @@wired.com


Още страхотни истории