Американские исследователи создали систему искусственного интеллекта, которая по постам и лайкам пользователей в Facebook определяет, страдают ли они табачной, алкогольной или наркотической зависимостью.
Максимальная точность программы достигает 86 процентов. Работа ученых опубликована на сервере препринтов ArXiv.org.
значительно более открыты к опыту, но менее добросовестны, чем некурящие (здесь под добросовестностью подразумевается самодисциплина, исполнение обязанностей и стремление к достижению цели). Употребление алкоголя, в свою очередь, положительно коррелирует с социальностью и экстравертностью.
Так как люди, используя социальные сети, сообщают в интернете много информации о своих интересах и чертах личности, авторы новой работы предположили, что посты и лайки также могут указывать на вредные привычки пользователей. Исследователи применили алгоритм машинного обучения, натренированный с помощью трех баз данных, которые были собраны в период с 2007 по 2012 год приложением для психологических тестов myPersonality. Первая содержала 21 миллион записей 100 тысяч пользователей Facebook; вторая — 5 миллионов лайков 250 тысяч пользователей; в третьей хранилась информация о наличии зависимостей у 13,5 тысячи пользователей. Для обучения эти наборы данных комбинировались различным образом.
После тренировки система научилась распознавать наличие вредных привычек у человека. Вероятность курения табака определяется с максимальной точностью 86 процентов, вероятность употребления наркотиков — 84 процента, вероятность употребления алкоголя — 81 процент.
При этом ученые нашли корреляции между содержанием постов, интересами пользователей и разного рода зависимостями. Например, алгоритм вычислил, что любители спиртного и сигарет чаще используют слова, связанные с движением — «машина» или «идти». Слова, имеющие отношение к злости («ненависть», «убивать») и здоровью («клиника», «таблетки»), положительно связаны с употреблением наркотиков. Кроме того, выяснилось, что пьющие алкоголь люди любят фильм «V — значит вендетта», а наркоманы слушают Radiohead, The Cure и Depeche Mode.
Тем не менее, стоит отметить, что положительная корреляция в данном случае не указывает на причинно-следственную связь. Более того, пересекающийся набор данных был намного меньше объема каждой из трех баз данных по отдельности — он содержал информацию всего о 3508 пользователях. Для того чтобы повысить точность результатов, нужен гораздо больший объем информации.