Как GURU и РЭШ устроили экзамен ChatGPT

29.05.2023

Редакция GURU и профессор РЭШ Ольга Кузьмина решили проверить познания ChatGPT в экономике. О результатах эксперимента мы рассказали здесь. А для тех, кто хотел бы ознакомиться с экспериментом во всех подробностях, мы подготовили его подробное описание.

 

Екатерина Сивякова 

 

В нашу «экзаменационную комиссию» вошли профессор РЭШ Ольга Кузьмина, журналистка GURU Екатерина Сивякова и главный редактор GURU Филипп Стеркин. Мы составили список заданий на английском языке из четырех частей, чтобы проверить: 

 - сможет ли ChatGPT проанализировать экономические проблемы и найти пробелы в научном знании;

 - решить несколько задач – так мы хотели понять, смогут ли его использовать для подобных заданий студенты;

 - как ChatGPT дает прогнозы;

 - и психологические советы. 

Два часа мы общались с ChatGPT (эксперимент был проведен 29 марта) на английском языке, специально допуская ошибки в некоторых формулировках, чтобы понять, как искусственный интеллект будет считывать общий контекст беседы. Представляясь, мы сказали, что разговариваем от имени РЭШ, и попросили чат-бот давать ясные и точные ответы, избегать лишних подробностей и не использовать ложную информацию (спойлер: он нам все же солгал). Мы просили искусственный интеллект примерить разные роли: профессора экономики, исследователя, экономического журналиста и даже тьютора. Качество ответов по экономике оценивала Ольга Кузьмина.

На вопросы из первой части чат-бот отвечал очень медленно, допуская много ошибок, лучше и быстрее справился с решением задач по микроэкономике и сумел собрать верные, пусть и банальные, советы по решению психологических проблем. 

Следует отметить, что несколько раз во время проведения эксперимента мы начинали новую беседу из-за технических неполадок, о причинах которых мы не знаем и которые могли быть обусловлены качеством связи. Это могло отразиться на том, как искусственный интеллект определял контекст беседы. Несколько раз сервис зависал и сообщал о технической ошибке уже во время написания ответа. 

На вопрос о том, какое местоимение для него предпочтительнее, сервис написал: «Как у языковой модели искусственного интеллекта, у меня нет гендерной идентичности, поэтому вы можете обращаться ко мне, используя любое местоимение, которое предпочитаете». 

 

Лавры ученого 

Мы попросили чат-бот представить, что он экономист-исследователь, и проанализировать базу академических исследований, посвященных влиянию представленности женщин в советах директоров на операционную деятельность и стоимость компаний. А также кратко описать пробелы в этой области экономики. Первая версия ответа, которая закончилась технической ошибкой, выглядела вполне убедительной – но только выглядела. 

Ольга Кузьмина: «Были использованы довольно релевантные и активно цитируемые исследования, к тому же с очень говорящими названиями из всех упомянутых ключевых слов. Но в описании каждого из исследований чат-бот допустил ошибки».

В исследовании Рени Адамс и Дэниэла Феррейры (2009) вывод был в точности противоположный описанию: представленность женщин в советах директоров отрицательно влияет на прибыльность компаний (рентабельность инвестиций). В описании исследования Дэвида Картера, Бетти Симкинс и Гарри Симпсона (2003) чат-бот не ошибся со знаком эффекта, но перепутал метрики. Ошибка и в описании исследования Джекуна Хуана и Даррена Кисгена (2013) – оно посвящено чрезмерной самоуверенности, а не комитетам по аудиту и мониторингу, как написал чат-бот.

Последнее предложенное чатом исследование Кеннета Ахерна и Эми Диттмар (2012), очень активно цитируемое, посвящено именно влиянию женщин в руководстве фирмы на ее стоимость. Но, вопреки «мнению» чат-бота, в нем не говорится о социальной ответственности корпораций и уж тем более о филантропии и защите окружающей среды». 

Вторую версию ответа чат-бот начал с утверждения, что эмпирические данные свидетельствуют о позитивном влиянии женщин в советах директоров на стоимость компаний и их операционную деятельность. А затем взялся за обоснование этой идеи. В ответ на вопрос о самых влиятельных исследованиях в этой области чат-бот выдал список из четырех исследований, заметив, что это «всего лишь несколько примеров». После просьбы указать исследования, которые были опубликованы в академических журналах по финансам, чат-бот выдал ошибку. А проверка предыдущего ответа преподнесла нам большой сюрприз.

 

Скриншот второго ответа ChatGPT о наиболее влиятельных работах 

 

 

Список сразу смутил Ольгу Кузьмину: «Элис Игли и Линда Карли изучают гендер в основном с точки зрения психологии лидерства, а вовсе не прибыльности фирм. Сьюзан Перкинс – с точки зрения лидерства в странах, она ничего не писала ни в целом про фирмы, ни конкретно про женщин в советах директоров. Мортен Беннедсен – единственный из списка, кто занимается эмпирическими корпоративными финансами, но не темой женщин в советах директоров. Рут Агилера в основном писала про советы директоров в контексте практик международного бизнеса, а не про присутствие в них женщин».

 

Сомнения подтвердились: оказалось, что статьи с такими названиями существуют, только написаны другими авторами и опубликованы не в то время, что указал чат-бот. 

 - Первая статья «Женщины в советах директоров и финансовые показатели компаний: метаанализ» на самом деле была опубликована в 2014 г. и написана Коринн Пост и Крис Байрон из Лихайского университета США.

 - Вторую статью о том, как гендерный состав совета директоров влияет на корпоративную социальную ответственность и репутацию фирмы, опубликовали в 2010 г. Стивен Беар (Университет Фэрли Дикинсон, США), Нуши Рахман (Университет Пейс, США) и Коринн Пост.

 - Третье исследование о том, влияет ли представительство женщин в совете директоров на деятельность компании, провел профессор бизнес-школы Копенгагена Каспар Розе (опубликовано в 2007 г.).

 - Четвертую работу о том, как гендерное разнообразие в корпоративных советах влияет на результаты корпоративного управления, а те, в свою очередь, на эффективность компаний, написали исследовательницы Сири Терьесен (Атлантический университет Флориды, США), Рут Сили (Эксетерский университет, Великобритания) и Вал Сингх (Университет Крэнфилда, Великобритания), она была опубликована в 2009 г.


О землетрясении в Турции и ошибках чата

После этого мы попросили ChatGPT представить, что он экономический журналист, и выделить основные тезисы колонки экспертов Европейского банка реконструкции и развития о последствиях землетрясения в Турции и Сирии в феврале 2023 г. Один из ее авторов – выпускник РЭШ Максим Чупилкин, макроаналитик ЕБРР. В запрос мы включили прямую ссылку на текст колонки. С этим заданием чат-бот не справился: он пустился в общие рассуждения о том, как сильно Турция пострадала от землетрясений, и «цитировал» призывы авторов принять срочные меры. На самом же деле в тексте об этом не говорится вовсе – он посвящен модельному сравнению влияния катастроф 1999 и 2023 гг. на экономику страны (по 2023 г. даны «ранние оценки») и сопровождается данными по другим странам. 

 

Об опционах простыми словами

В следующем задании мы хотели проверить способности чат-бота просто объяснять сложные экономические понятия. Мы предложили ему представить себя профессором экономики, который объясняет старшеклассникам формулу Блэка – Шоулза о ценообразовании опционов.

«Ответ был вполне аккуратным, только вряд ли устроил бы старшеклассника из-за слишком большого количества терминов», – отмечает Ольга Кузьмина

Затем мы изменили задачу: попросили чат-бот объяснить формулу Блэка – Шоулза 10-летнему ребенку. Сначала иИскусственный интеллект применил творческий подход и использовал аналогию с покупкой игрушки, т. е. понятной ребенку вещью, но ответ был недостаточно верен.

«Идея сравнения с игрушкой интересная, но были допущены ошибки, например имплицитное приравнивание акций к опционам на них», – объясняет Ольга Кузьмина.

 

Помог бы ChatGPT Ольге Кузьминой?

Эксперимент продолжался. Мы дали чат-боту ссылку на исследование Ольги Кузьминой «Гендерное разнообразие в советах директоров корпораций: разрывный дизайн на основе европейских квот» и попросили написать новую аннотацию к нему. С заданием он не справился.

«Аннотация вообще не имеет отношения к статье, в ней ничего нет про корпоративную социальную ответственность, о которой пишет чат-бот» – таков вердикт Кузьминой. Видимо, эти слова созвучны (статистически близки) проблемам гендерного многообразия, предположила она.

Тогда мы изменили задание и попросили искусственный интеллект действовать, как будто именно он автор этой статьи, и написать аннотацию с основными результатами исследования. На этот раз ссылку на исследование мы ему не дали, надеясь, что сервис поймет, что речь идет о все той же статье. Эта попытка закончилась полной неудачей: чат-бот заявил, что в статье исследуется влияние микропластика на водные экосистемы, описал якобы проведенные лабораторные эксперименты и их результаты. 

Мы повторили тот же запрос уже со ссылкой на статью Ольги, но чат-бот вернулся к первой неверной версии про социальную корпоративную ответственность. 

 

И пиарщику РЭШ?

Мы предложили чат-боту снова сменить профессию и представить, что он PR-менеджер РЭШ, которому нужно проанализировать отклики на исследование профессора РЭШ Султана Мехмуда «Пост в Рамадан увеличивает милосердие судей из Пакистана и Индии». Мы попросили его собрать цитаты и сгруппировать их. 

ChatGPT разделил отклики на позитивные и критические академические оценки, отзывы в прессе и публичные комментарии. Однако текст ответа не содержал имен и названий ресурсов. И, к сожалению, тоже закончился технической ошибкой.

 

Решаем задачи 

В этой части эксперимента мы попросили ChatGPT решить несколько задач по экономике, которые предлагаются студентам. Удивительно, но факт: искусственный интеллект с ними относительно неплохо справился.

Первая задача от Ольги Кузьминой была сформулирована так: оцените доходность акций Microsoft с помощью трехфакторной модели Фамы и Френча (учитывает рыночные риски, а также связанные с размером и стоимостью (недооцененностью) компаний), используя все доступные исторические данные о доходности Microsoft с сайта Finance.yahoo.com и факторные данные с веб-сайта Кена Френча. На основе этого анализа ChatGPT должен был сделать вывод, Microsoft – компания роста или стоимости (соответственно, быстрорастущая, часто технологическая, компания или стабильная и устойчивая компания).

Ольга Кузьмина: «В целом вся «вода» в ответе собрана неплохо, что ожидаемо, так как это, наверное, самая известная модель оценки доходности. А вот финальный ответ про то, как определить, акции стоимости или роста, уже неверный. И самого анализа тоже нет, хотя формально все данные доступны».

Описание второй задачи выглядело так. 

Решите следующую микроэкономическую задачу: в Shindler’s можно купить коктейль, приготовленный из одной части водки, двух частей кампари, на что у бармена уходит 4 минуты рабочего времени.

а) Напишите производственную функцию (предположим, что затраты и выпуск непрерывны).

б) Ответьте на вопрос: имеет ли эта производственная функция (связь между выпуском и факторами производства) возрастающую, убывающую или постоянную отдачу от масштаба?

 

Скриншот решения второй задачи

 

 

 

Ольга Кузьмина: «Вполне неплохо, есть одна мелкая ошибка (2C вместо C/2), но в остальном выводы корректные. Это пример типовой задачи».

 

Модель предсказывает будущее

В этой части эксперимента мы предложили чат-боту спрогнозировать будущее: снова представить, что он экономист, и рассказать, какие «черные лебеди» ждут мировую экономику. Вместо этого он объяснил концепцию «черных лебедей» и то, как они могут повлиять на экономику. Единственный пример, который сервис привел, – это пандемия COVID-19.

На следующий вопрос – может ли человечество преодолеть экономическое неравенство – чат-бот ответил, что это возможно, однако уточнил, что «потребуются постоянные и согласованные усилия политиков, бизнеса и населения». Рецепт достижения экономического равенства, по его мнению, выглядел так: введение прогрессивного налогообложения, развитие сетей социальной защиты, инвестиции в образование и обучение, поддержка малых и средних предприятий. Люди, по его словам, могут внести свою лепту, «выступая за политику, способствующую социальному и экономическому равенству, поддерживая предприятия, придерживающиеся справедливых трудовых практик и принципов социальной ответственности, а также участвуя в программах развития сообществ». 

Мы попросили его привести факты в поддержку этой позиции. Сервис выдал пять пунктов, в описании которых сослался на информацию от организаций Oxfam, ОЭСР, МВФ, американского исследовательского центра Pew Research, а также журнала Harvard Business Review. Впечатленные таким списком, мы попросили чат-бот дать прямые ссылки на упомянутые документы. Он моментально выдал перечень активных ссылок, которые выглядели вполне правдоподобно, но оказалось, что всех этих страниц не существует. Ссылки действительно ведут на сайты упомянутых организаций, однако при переходе появляется сообщение о том, что такой страницы нет. 

 

Скриншот страницы, на которую ведет ссылка от ChatGPT под названием «Опрос центра Pew Research общественного мнения об экономическом неравенстве»

 

Однако в дальнейшем выяснилось, что все документы и данные, на которые сослался чат-бот, существуют, но располагаются по другим ссылкам: 

 - здесь данные от Oxfam о том, что во время пандемии 10 миллиардеров удвоили свое состояние, в то время как доходы миллионов людей падали; 

 - доклад ОЭСР о том, что инвестиции в образование могут сократить неравенство; 

 -  статья директора-распорядителя МВФ Кристалины Георгиевой в разделе «блог» сайта МВФ «Сократить неравенство, чтобы создать возможности», который, вероятно, имелся в виду;

 - материал профессора Гарвардского университета Джорджа Серафима о том, как имеющие социальную направленность действия компаний создают реальную ценность, опубликованный в журнале Harvard Business Review; 

 - опрос американцев о неравенстве, проведенный Pew Research. 

Все материалы относятся к 2020–2021 гг.

Мы попросили ChatGPT побыть экономистом еще раз и рассказать, когда в экономике будут устранены гендерные разрывы. Ответ начался с такой же оговорки, что и предыдущий (про постоянные и согласованные усилия), затем чат-бот сослался на данные Всемирного экономического форума, который отводит 135,6 годана сокращение гендерного разрыва в оплате труда в мире при нынешних темпах прогресса. Проверка показала, что эта цифра была верной. Остальная часть ответа представляла собой список действий по преодолению гендерных разрывов – типологически они были весьма похожи на предложенные действия по устранению экономического неравенства: для борьбы с гендерными разрывами, по мнению чат-бота, тоже нужны усилия правительств, бизнеса и граждан. 

Уже по привычке мы попросили ChatGPT представить факты в поддержку его позиции. Чат предложил список из шести пунктов, причем на этот раз сопроводил их неактивными ссылками на названия источников. 

Сколько часов в день будут работать люди через 10 лет, продолжали мы интервью. Затрудняясь «с уверенностью» ответить на этот вопрос, чат-бот сослался на «множество факторов», влияющих на количество рабочих часов, и перечислил три из них:

 - автоматизация рутинных задач с помощью робототехники и технологий искусственного интеллекта может снизить спрос на некоторые виды труда и одновременно создать новые рабочие места в появляющихся отраслях;

 - демографические сдвиги: по мере старения населения число рабочих мест может сократиться;

 - социальные нормы: в последние годы люди начинают с большим вниманием относиться к соотношению рабочего и личного времени и искать более гибкий график работы, что может привести к сокращению рабочей недели или более гибкому режиму работы. Чат-бот сделал вывод: «Вполне вероятно, что количество отработанных часов будет продолжать меняться». 

Мы решили уточнить: старение населения скорее уменьшит или увеличит число рабочих часов через 10 лет? На что чат-бот повторил аргументы из предыдущего ответа: по мере старения населения количество работающих людей может сократиться, что, в свою очередь, может привести к повышению заработной платы и сокращению доступности определенных видов рабочих мест. При этом он уточнил: пожилые работники могут предпочесть работать меньше или выходить на пенсию раньше. Но затем привел контраргумент: «По мере увеличения числа пожилых может возрасти спрос на услуги здравоохранения и другие отрасли, которые обслуживают пожилое население, создавая новые рабочие места и потенциально увеличивая количество часов, отработанных в этих секторах». 

 

Скриншот ответа на вопрос о демографических сдвигах (в формулировке вопроса мы намеренно допустили речевую ошибку)

 

 

Разговор в пользу студентов

Дальше мы попросили чат-бот взять на себя роль научного руководителя и дать пять рекомендаций, как студенты-экономисты, обучающиеся на PhD, могут помочь себе преодолеть «депрессию третьего года» (так называют момент, когда «кончаются курсы и нужно самостоятельно придумать что-то новое, а это очень тяжело», объяснял научный руководитель РЭШ Рубен Ениколопов). 

ChatGPT предложил:

 - обратиться за поддержкой к коллегам или недавним выпускникам;

 - попросить совета у научного руководителя;

 - взять короткий отпуск и отдохнуть;

 - воспользоваться университетскими ресурсами, которые предлагают консультации или терапию;

 - пересмотреть свои цели и мотивы.

 

Совет искусственного интеллекта: «Потратьте некоторое время на то, чтобы подумать о причинах, по которым вы хотите получить степень PhD. Воссоздание связи с вашими первоначальными мотивами может помочь вам восстановить ощущение цели и драйва в это непростое время. Подумайте о постановке новых целей или пересмотре существующих, для того чтобы они больше отвечали вашим интересам и увлечениям». 

После этого мы попросили чат-бот ответить, как студенты-экономисты могут справиться с выгоранием, и составить список из 10 открытых образовательных ресурсов, где можно получить полезную и научно доказанную информацию по этой теме. ChatGPT выдал такой список: справочный центр Американской психологической ассоциации, чек-лист по выгоранию от медицинской организации Mayo Clinic, просветительское подразделение Гарвардской медицинской школы Harvard Health Publishing, веб-сайт Mindful.org, лекции Ted Talks, образовательная платформа Coursera, Всемирная организация здравоохранения, Национальный институт психического здоровья (США), Американская ассоциация тревожности и депрессии, а также Международная ассоциация управления стрессом (Великобритания). 

Наконец, мы попросили ChatGPT действовать, как опытный экономист, и ответить на вопрос, как экономистам справиться с синдромом самозванца. Чат-бот посоветовал: признать, что с этой проблемой сталкиваются многие, составить список своих сильных сторон и достижений, обратиться за поддержкой к коллегам и наставникам, продолжать учиться и развивать свои навыки – посещать конференции, читать научные журналы и искать новые задачи, заботиться о физическом и ментальном здоровье – высыпаться и регулярно заниматься спортом, обратиться за профессиональной помощью, например терапевтической.

 

Вернемся к началу

В конце эксперимента мы решили вернуться к первому блоку вопросов и снова попросить чат-бот проанализировать экономические исследования в надежде, что наша беседа пойдет ему на пользу и он сможет дать более качественный ответ, но ожидания не оправдались.

Задача была ответить на вопрос, какую ценность для общества может представлять исследование президента РЭШ Шломо Вебера с соавторами. Чат-бот написал, что это исследование показывает, как в США расовая принадлежность водителей машин влияет на решения полицейских обыскивать их, поэтому может помочь в дискуссиях о реформе полиции и расовой справедливости. Вывод ChatGPT не имел отношения к работе: на самом деле в ней анализируются стратегии изучения иммигрантами языка, на котором говорит большинство жителей страны. Возможно, ошибка была связана с тем, что в вопросе заключалась ссылка с расширением pdf. 

Дальше мы попросили чат-бот действовать, как профессор экономики, проанализировать и описать практическую ценность исследования профессора РЭШ Марты Тройи Мартинес, а также привести пример, как результаты этого исследования могут помочь бизнесу. ChatGPT заявил, что исследование вносит вклад в экономику благодаря изучению влияния автоматизации на рынок труда, например, может помочь фирмам разработать стратегии переподготовки и повышения квалификации сотрудников, рабочие места которых подвержены рискам автоматизации. Эта информация не соответствует тексту научного труда: в действительности это работа об отношенческих контрактах (их действие основано на доверительных отношениях сторон, в исследовании разрабатывается теория управляемых реляционных контрактов). Следует отметить, что в вопросе тоже содержалась прямая ссылка на pdf-формат в сервисе Dropbox. 

На просьбу описать эмпирические методы оценки причинно-следственной связи между вакцинацией и смертностью от COVID-19 ChatGPT выдал ошибку.

В заключение мы решили исключить фактор некорректного чтения ссылок, загрузили полный текст введения (около 2000 слов) уже обсуждавшейся статьи Ольги Кузьминой и попросили чат-бот описать его в трех параграфах, а потом переписать их еще раз в одном абзаце.

 

Скриншот финального ответа ChatGPT на просьбу кратко описать введение к статье Ольги Кузьминой

 

Версию из трех параграфов Ольга Кузьмина назвала «неплохой»: «Предложения из длинного текста надерганы довольно органично, но основные результаты статьи описаны поверхностно». Короткая же версия опять содержала ошибку: предпоследнее предложение не соответствует действительности. 

 

Итоговая оценка от профессора РЭШ

Ольга Кузьмина: «Дает хорошие общие ответы, когда «льет воду», но, так как почти все время искажает факты, я бы даже к «воде» относилась довольно настороженно. Например, в середине внешне разумного текста могут встречаться полностью нелогичные выводы или искажение основ, за что студент может сразу получить неудовлетворительную оценку. Наверное, при более аккуратных последовательных запросах ChatGPT поможет сэкономить время, но в любом случае для проверки написанного им текста понадобится человек, разбирающийся в теме. Что в целом неудивительно, ведь даже люди не всегда могут «почитать интернет» и понять, где научные факты, а где фантазии. Что уж говорить про вопросы, по которым даже исследователи между собой не всегда соглашаются… Что касается решения задач, думаю, многие профессора уже используют ChatGPT для проверки своих задач на «стандартность».