Разговор Мисс А с Сержем Белонги: Дайте вам фальсифицируемую «пулю»

Разговор Мисс А с Сержем Белонги: Дайте вам фальсифицируемую «пулю» Цзяцзы Гуаннянь |

2024-07-31

Фальсифицируемость – это и ангел, и дьявол, в конечном счете, фальсифицируемость – это рукопожатие, выравнивающее мир.

Автор｜Чжан Ицзя Сухой‍‍

Десять лет назад один европейский академик сказал мне: «В области искусственного интеллекта существует не менее сотни отдельных направлений, и Соединенные Штаты определят одно или два популярных направления. , а затем глобальные предприниматели и инвесторы бросились догонять эти два направления. "

В последующие десять лет тенденция искусственного интеллекта менялась, и искусственный интеллект перешел от отсутствия консенсуса к малому консенсусу и от малого консенсуса к широкому консенсусу, но это предложение так и не выскочило.

Этот разговор с Сержем начался с обзора статьи, которую он написал в соавторстве два года назад.«В поисках структуры нефальсифицируемых утверждений» интерес. Жаль, что этой статье до сих пор почти нет внимания, Google ScholarПроцитировано всего 2 раза。

Это удивительно.

«Цзязи Гуаннянь» считает, чтоЭто эссесильно недооценен。

Причина 1: Проблема, с которой сталкивается эта статья, чрезвычайно остра (основное повествование о нефальсифицируемых данных в социальных сетях);

Вторая причина: в этой статье представлены важные теоретические инновации (метод троичных аннотаций и набор SNaCK);

Причина третья: в этой статье представлены практические инженерные результаты (построение набора данных и детальное экспериментальное сравнение).

Авторы статьи Питер Эберт Кристенсен, Фредерик Варбург, Менглин Цзя и Серж Белонги ARXIV2022;

Эту статью несложно понять. Начнем с.ФальсифицируемостьПонятие начинает внедряться.

Фальсифицируемость также называют опровержимостью.Философия науки часто использует строгиеметод фальсификацииЧтобы определить, является ли теория научной, то есть«Эти выводы должны позволитьлогикаСуществование контрпримеров。

Карл Поппер предположил в 1934 году, что если теория или гипотеза могут быть логически опровергнуты эмпирической проверкой существующих методов, то этофальсифицируемый из. А если выражение настолько безупречно, что в мире нет места для комментариев, оно часто будет лишь держать всех на расстоянии, что не способствует научному прогрессу.

Проблемы, которые ученые могут или должны изучать, должны быть более или менее закрытыми, предоставляя другим возможность атаковать их или даже опровергнуть. Цель фальсифицируемости — сделать теорию предсказуемой и проверяемой.поэтому полезно на практике。

документ Сержа«В поисках структуры нефальсифицируемых утверждений»обсужденоСложность интерпретации нефальсифицируемых утверждений в социальных сетях。

Основная идея статьи:

Платформы социальных сетей переполнены сообщениями и комментариями, и многие утверждения невозможно опровергнуть. Однако,Недостаточные инструменты проверки фактов, отсутствие структуры дискуссий в социальных сетях, трудности с выявлением нарративов и недостаточное качество публичных дискуссий.и т. д., вызывая много проблем.

В статье рассматривается, как идентифицировать и понимать тех, кто пользуется социальными сетями.неопровержимые претензиии суммируем эти утверждения какОграниченное количество повествований, чтобы лучше облегчить обсуждение и дебаты в социальных сетях.

Интересно, что автор создал инструмент под названиемПАПЬЕРНабор данных, содержащий дебаты о методах сушки рук в общественных туалетах (бумажные полотенца против сушилок), 600 коротких текстовых отрывков, 31 повествование и 4 суперкатегории для понимания и обнаружения доминирующих повествований в онлайн-дискуссиях.

В этом документе представленыНовый подход, выходящий за рамки возможностей существующих технологий проверки фактов, вносит важный вклад в управление и понимание влияния нефальсифицируемых заявлений в среде цифровых коммуникаций, используя этот процесс для обнаружения доминирующих нарративов и показывая, что этот процесс превосходит недавние модели крупномасштабной трансформации и современные модели неконтролируемых субъектов. .

посредством экспериментов,Автор нашелИспользуйте современный конвертер предложений(например, модель T5)Встраивание начального предложенияэто ключ .Они также обнаружили, что стратегия выборки имеет решающее значение для создания высококачественных вложений, особенноСтратегия «Дистанция-Rnd»Лучшее представление.

Результаты экспериментов показывают, что объединение аннотаций, сделанных человеком,тройняшкиможет выявить соответствиекристаллизованное повествованиеинтересная кластеризация.

Всего 2 цитаты

«Цзязи Гуаннянь» считает, что возможные причины, по которым эта статья до сих пор не получила внимания в отрасли, включают, помимо прочего:

1) теоретический анализ относительно слаб, а анализ экспериментальных результатов остается качественным (11-страничный текст содержит лишь полстраницы формул);

(2) Почти нет введения в некоторые алгоритмы, используемые для сравнения;

(3) Возможно, еще не существует единого набора данных в академическом сообществе в этой области, что приводит к тому, что среди академического сообщества нет «выходов из круга»;

(4) Автор подчеркнул критичность Т5, но не описал четко превосходство его алгоритма.

Академический доклад Сержа Белонги на CVPR2024, источник: фото «Jiazi Guangnian».

Хотя вышеупомянутые работы малоизвестны, сам Серж является очень влиятельным учёным в области компьютерного зрения и машинного обучения. В основном он занимается распознаванием объектов и сегментацией изображений. Его различные статьи цитировались в общей сложности 1 789,71 миллиона раз.

Серж Белонги — профессор информатики Копенгагенского университета и директор Датского пионерского центра искусственного интеллекта. Ранее он занимал должность заместителя декана и профессора компьютерных наук Эндрю Х. и Энн Р. Тиш в Корнельском технологическом институте.

Наиболее достойным представления являетсяСерж — ведущий автор MSCOCO.。

Набор данных MSCOCO — один из самых известных крупномасштабных наборов данных для компьютерного зрения.В 2000 году Серж и Джитендра Малик (ныне профессор информатики Калифорнийского университета в Беркли и известные учёные в области компьютерного зрения)совместно предложили концепцию «Контекста формы»,Это широко используемый метод описания признаков формы в области компьютерного зрения и распознавания объектов.

В 2004 году Серж был назван «Молодым новатором в области технологий до 35 лет» по версии журнала MIT Technology Review, в 2007 году он и Джитендра Малик получили почетное упоминание Премии Марра, в 2015 году Серж получил премию ICCV Helmholtz Award, эта награда в основном присуждается авторам; статей, внесших фундаментальный вклад в область компьютерного зрения.

Серж также является соучредителем нескольких компаний, в том числе Digital Persona (объединена с CrossMatch в 2014 году), CarCode (приобретена Transport Data Systems), Anchovi Labs (приобретена Dropbox в 2012 году) и Orpix.

В настоящее время команда СержаОткрываем новые измерения в анализе социальных сетей——Начиная с большого количества тривиальных замечаний, на которые раньше не обращали внимания и которые не подходят для традиционного фактчекинга,Проанализируйте постановку проблемы и“повествовательная манипуляция”。

В настоящее время это имеет особое значение:

После Мировой антифашистской войны, независимо от того, чередовались ли технологические прорывы или узкие места, все они с течением времени переживали взлеты и падения в исторической картине. Подобно тому, как «Вдоль реки во время фестиваля Цинмин», развернувшийся в системе координат времени и пространства, он полон тысяч сцен и появлений древних и современных существ.

Ниже приводится разговор мисс А с Сержем.

Подпишитесь на публичный аккаунт «Jiazi Guangnian» и в фоновом режиме ответьте «может быть сфальсифицировано», чтобы получить информацию, упомянутую в статье.«В поисках структуры нефальсифицируемых утверждений»иНабор данных MSCOCOДве бумаги.

1. Фальсифицируемость подвергается сомнению

На практике исследователи часто находятся под влиянием историй, которые им нравятся или не нравятся, что в чем-то похоже на популярные темы в Instagram.

Скучать по: «Если это нельзя фальсифицировать, то это не может быть научным» — стало общим мнением в научном сообществе. Но многие философы ставят это под сомнение, утверждая, что принцип фальсифицируемости может привести к бесконечным научным дебатам.Является ли фальсифицируемость необходимым условием научного прогресса?

Серж：Согласно распространенному мнению, научная теория должна быть фальсифицируемой.

Скучать по:Это популярная точка зрения, но является ли фальсифицируемость преобладающей парадигмой?

Серж： За последние 15 лет литература по машинному обучению резко возросла: каждый день публикуется и цитируется большое количество статей. В этих статьях соответствующие разделы работ часто цитируют другую литературу, но цитаты не обязательно являются наиболее актуальной литературой для их работы. Это потому, что объем литературы огромен;Исследователи фактически реагируют на доминирующую точку зрения в этой области.

Мы часто думаем о себе как об учёных традиции Карла Поппера, подчиняющихся только фальсифицируемым утверждениям. Однако существуют и тенденции в научных исследованиях, такие как такие технологии, как генеративно-состязательные генеративные сети и Трансформеры. Хотя эти статьи стремятся следовать научной традиции,На практике исследователи часто находятся под влиянием нарративов, которые им нравятся или не нравятся.——Что-то вроде трендовых тем в Instagram.。

Скучать по:Вы имеете в виду, что с момента машинного обучения учёные начали отклоняться от нормы фальсифицируемости?

Серж：Ученые часто заявляют, что невосприимчивы к этим влияниям и считают себя объективными, но, в конце концов, они тоже люди, и эти популярные мнения повлияют на них.Мы считаем это ненаучным и скорее интуитивным чувством и мнением.

Скучать по:Как вы определяете нефальсифицируемые утверждения в социальных сетях?

Серж： Сначала нам нужно обсудить литературу по проверке фактов. Профессор Изабель Огенштейн из Копенгагенского университета, например, разработала метод, который начинается с определения проверочной ценности утверждения. Мы проверим заявление,и определить его проверочное значение в диапазоне от 0 до 1。

Например, утверждение о том, что столицей Калифорнии является Сакраменто, идеально подходит для проверки грамматики и синтаксиса, поскольку его можно найти во многих структурированных базах знаний. Мы могли бы проверить утверждение типа: «Столица Калифорнии — Сакраменто» и присвоить ему оценку проверяемости, вероятно, близкую к 0,99. Затем мы отправляем его в структурированную базу знаний для подтверждения ответа. Эта система тестируемости, основанная на глубоком обучении, обрабатывает большие объемы утверждений и обучающих данных, чтобы оценить ценность проверки различных утверждений.

Но некоторые заявления,Например, фраза «Иммигрировать в Калифорнию — это плохо» отражает скорее личное мнение и не подходит для проверки фактов.Напротив, такие утверждения, как «С 2020 года число иммигрантов в Калифорнии продолжает расти», имеют высокую проверяемую ценность.

такМы уделяем особое внимание заявлениям, которые сложно проверить.——Эти утверждения невозможно проверить напрямую, но дискуссия, которую они вызвали в социальных сетях, имеет большое значение.。Многократные проверки могут помочь нам принять более правильные решения.

Скучать по:Какие конкретные методы или инструменты используются в вашем исследовании для выявления и анализа нефальсифицируемых утверждений?

Серж：Мы используем методы обработки естественного языка (NLP), алгоритмы кластеризации и группировки, а также методы машинного обучения.

наша цельСоздание глобального информационного фонда (GNIF), для исследования и организации контента в социальных сетях。

Сочетание этих технологий и инструментов позволяет нам лучше понимать и обрабатывать большие объемы повествовательного контента.Косвенно помогает выявить нефальсифицируемые утверждения。

Мы умеем анализировать различные формы текста.Будь то твит или комментарий Reddit, мы используем технологию НЛП для извлечения и понимания повествований и тем в этом контенте.

Во-вторых, мы использовалиАлгоритмы кластеризации и группировки . Эти алгоритмы помогают нам организовывать большие объемы контента в социальных сетях по различным темам или повествованиям.

Например,Среди миллионов твитов мы можем найти тысячи твитов, которые очень похожи, потому что все они посвящены одному и тому же основному повествованию.

проходитьПовествовательная кластеризация и группировка утверждений , мы организуем большие объемы контента в более мелкие кластеры, что позволяет специалистам по проверке фактов обрабатывать его более эффективно без необходимости проверять каждый элемент по отдельности. Таким образом, даже нефальсифицируемые претензии могут быть идентифицированы и классифицированы посредством кластеризации и группировки для облегчения дальнейшего анализа и обработки.

Мы рассматриваем два входа, скажем, два твита, и измеряем их сходство на основе разных аспектов повествования.Они могут охватывать такие темы, как дебаты о ядерной и зеленой энергии или дискуссии о детской смеси и коровьем молоке.

В Интернете существует множество горячо обсуждаемых тем, часто являющихся результатом кампаний по дезинформации.。 Эти действия могут быть очень расплывчатыми. Мы пытаемся понять, как эти различные утверждения проявляются в форме языка или мемов, которые могут содержать изображения, текст, аудиозаявления и т. д.Похоже совсем другой контент . Вы можете собрать миллионы обсуждений какой-либо темы на платформе социальных сетей, но все данные могут отражать лишь несколько десятков мнений. Мы пытаемся понять эти явления с помощью таких технологий, как большие языковые модели и глубокое метрическое обучение.

Визуализация пар, аннотированных людьми. На рисунке (а) показаны положительные пары, т. е. похожие или последовательные, повествовательные пары, аннотированные людьми. На подрисунке (b) показаны отрицательные пары, то есть несходные или противоречивые повествовательные пары, помеченные людьми. Источник: «В поисках структуры нефальсифицируемых претензий».

2. За пределами «истины и лжи»

Не все утверждения заслуживают проверки фактов, и не все проверки фактов дают истинные или ложные результаты.

Скучать по: Созданный вами набор данных MSCOCO — один из самых известных крупномасштабных наборов данных компьютерного зрения. Как это началось?

Серж： Мы начали исследования по обнаружению объектов 15 лет назад, начав с небольшого набора данных CUB200, содержащего более 200 видов птиц. Набор данных COCO изначально был результатом летней стажировки моего аспиранта Цунг-И Линя в Microsoft Research. Его наставником в то время был другой мой аспирант, Петр Долла. Проект превратился в консорциум исследователей из академических кругов и промышленности. Они надеются создать набор данных, который детализирует повседневные объекты в естественной среде и точно аннотирует их названия и пространственное расположение.

Скучать по: Вы назвали набор данных MSCOCO. Мне очень нравится «Коко», и его английское название тоже Coco.

Серж：Да, нам всем нравится имя «КОКО», оно веселое и легко запоминается.

Скучать по:После появления набора данных MSCOCO развитие области компьютерного зрения напоминало полет на ракете.

Серж：Что ж, мы организовали вокруг него все больше и больше сообществ знаний, и COCO использовался миллионами людей.Мы начали с малого и в конечном итоге разработали область исследований, которая оказала огромное влияние.

Первой конференцией по компьютерному зрению, которую я посетил, была CVPR 1994 года, также в Сиэтле. Это было тридцать лет назад, и на мероприятии присутствовало около 300 человек. Сейчас, в Сиэтле CVPR в 2024 году, конференцию посещают 12 000 человек.

Скучать по:Прошло уже 30 лет. Что движет вашей постоянной страстью к компьютерному зрению и исследованиям в области искусственного интеллекта?

Серж： Сколько себя помню, меня интересовали закономерности и категоризация вещей. В средней школе я выполнил классный проект по классификации винтов, болтов и других крепежных изделий. Во время учебы в колледже я заинтересовался звуковыми паттернами, в частности биоакустикой, например, звуками птиц или китов.Что касается изображений, то меня привлекли отпечатки пальцев и лица.

Я исследовал, как читать по губам по видео. Меня очаровывают все аспекты этой проблемы: слияние звука и изображения, различия между разными динамиками и вычислительные задачи. В начале 1990-х годов цифровые камеры только появлялись, но у них еще не было какой-либо формы вычислительного понимания. Сегодня вы можете считать само собой разумеющимся, что у вас есть рамки для распознавания лиц в видоискателе или программное обеспечение для фотоальбомов, которое интеллектуально упорядочивает фотографии всей вашей семьи, но тогда их не существовало.

В то время я чувствовал, что спрос на эту технологию будет очень велик, и в то же времяМне также нравится математика, лежащая в основе технологии. . Мне нравились технологии, используемые в этих областях, но я не хотел заниматься математикой или физикой. Например, использование сложных математических методов для решения задач обработки звука, видео и изображений.

Я всегда чувствую, что моя миссия в этом мире – выполнять такую работу.

Скучать по:Каким академическим обменом вы занимались на CVPR в этом году?

Серж： Моя команда представила несколько докладов на основной конференции CVPR, а я также поделился ими на двух семинарах. Один из докладов посвящен истории исследований компьютерного зрения, главным образом, чтобы помочь молодым ученым понять классическую технологию компьютерного зрения, то есть технологию до глубокого обучения и преобразователей. Я также представил проект Visipedia, который начался с выпуска расширенной версии набора данных CUB200 в 2011 году. В настоящее время исследовательский контент Visipedia расширился до десятков тысяч растений, животных и грибов, что обеспечивает важную исследовательскую основу для распознавания объектов в природе.

Еще один отчет – это то, на чем я хочу сосредоточиться в сегодняшнем интервью, который связан с повествованием, общественным мнением и ложной информацией, особенно в контексте развития социальных сетей.

Скучать по:Какие инновации привнесла ваша работа в эту сферу?

Серж: Классическая проблема в мире дезинформации и социальных сетей — проверка фактов。 Например, у Копенгагенского университета очень много сопутствующих работ. Общий подход заключается в том, что для определенных замечаний, которые необходимо проверить, мы используем системы искусственного интеллекта для поиска соответствующих фактов и прогнозирования оценки подлинности от 0 до 1 на основе фактов.

Скучать по:Каковы проблемы с этим подходом?

Серж：В самом этом методе нет особых проблем, проблема исходит из самой проблемы.Не все утверждения заслуживают проверки фактов, и не все проверки фактов дают истинные или ложные результаты. Например, фраза «Панды — национальное достояние Китая» — это утверждение, которое можно использовать для обучения моделей и проверки их подлинности с помощью структурированной базы знаний и больших объемов данных. Не так обстоит дело с предложением «переезд в Калифорнию».

Скучать по:То есть вы видите исследовательский потенциал в подобных утверждениях?

Серж: Этот последний тип утверждений не был тщательно изучен, но является не менее важным вопросом. Эти утверждения, возможно, не имеют строгого определения истинности/ложности, но они вызывают много дискуссий в социальных сетях. Этой проблемы не существовало в эпоху, когда проверять факты нужно было только в средствах массовой информации. Однако в сегодняшних высокоразвитых социальных сетях тема, вызывающая горячие дискуссии, которую трудно охарактеризовать с научной точки зрения или которую невозможно фальсифицировать, стала очень популярной. достойны исследования.

Скучать по:Можете ли вы привести мне случай, который оказал реальное влияние или даже вызвал серьезный конфликт?

Серж： Я рад, что вы задали этот вопрос, давайте приведем интересный пример. После того как вы вымоете руки в общественном туалете, у вас есть два варианта их высушить. Я не уверен, какой метод обычно используется в Китае, в Европе вы можете либо достать бумажные полотенца, либо использовать сушилку горячим воздухом.

Скучать по:Эти два метода также наиболее распространены в Китае.

Серж： Производители сушилок и бумажных полотенец могут заработать много денег, подписав контракты с любой сетью отелей, и весь рынок, вероятно, будет приносить миллиарды долларов дохода. Но у многих людей в Европе сейчас очень четкое мнение о разнице между этими двумя методами. Многие люди говорят, что один из этих методов может привести к распространению болезней, в то время как другие говорят, что использование большого количества электричества или производство бумаги нанесет ущерб окружающей среде из-за уничтожения деревьев. Большинство людей, придерживающихся этих взглядов, не являются экспертами в области общественного здравоохранения или окружающей среды.

Скучать по:Верны ли сами утверждения?

Серж: На самом деле нас не волнует подлинность наших заявлений, потому что многие темы в социальных сетях невозможно строго доказать или фальсифицировать. Но эта тема поднята потому, что небольшая группа людей хочет убедить массы, что один путь лучше другого. Вероятно, они создали сотни тысяч контента, созданного ботами. Если вы в наши дни поищете в социальных сетях обсуждения бумажных полотенец и сушилок для воздуха, вы найдете миллионы комментариев. Наше исследование не направлено на строгое сравнение плюсов и минусов двух подходов и представление результатов проверки фактов.Мы больше озабочены обнаружением этих задуманных проблем.

3. Набор данных «COCO» в социальных сетях

Избегайте принятия поспешных решений.

Г-жа А.: Ваше исследование открыло новое измерение.Традиционная проверка фактов фокусируется на истинности семантики, тогда как ваше исследование фокусируется на истинности утверждений или утверждений.прозрачныйпрагматика——Цель предсказания не ограничивается тем, правдиво оно или нет, но распространяется на тематические обсуждения, созданные некоторыми пользователями или большим количеством роботов в социальных сетях для достижения конкретных целей.Знаете ли вы, что означает это исследование?

Серж： Да, мы создаем что-то совершенно новое. Большинство известных нам исследований сосредоточены исключительно на проверке фактов. Но мы пытаемся использовать тематические технологии естественного языка для группировки и кластеризации дискуссий в социальных сетях, чтобы помочь отдельным лицам, предприятиям и разработчикам стратегий понять, что происходит в социальных сетях.Мы не выносим оценочных суждений по этим темам и содержанию дискуссий, а лишь объективно отображаем форму, в которой поднимается каждый вопрос.

Скучать по: Для достижения этой цели нам сначала нужен набор данных. Создание этого набора данных должно стать большой проблемой. Когда вы стали пионером в области компьютерного зрения, вы перешли от набора данных о маленьких птицах к COCO. Как вы подошли к этому времени?

Серж： Этот тип поведения в социальных сетях часто характеризуется одной характеристикой. На одну тему может быть миллион твитов, и в обсуждении участвуют, казалось бы, тысячи аккаунтов.Но в результате анализа мы можем обнаружить, что сто тысяч из этих твитов на самом деле содержали одно и то же, с очень похожими или даже идентичными повествованиями. Тем не менее, имейте в виду, что это не означает, что эти дискуссии верны или неправильны. Мы позволяем пользователям видеть кластеры и группы различных утверждений, что облегчает специалистам по проверке фактов и аналитикам социальных сетей обработку и понимание больших объемов контента без необходимости иметь дело с внезапным наплывом миллионов твитов.

Скучать по:Может ли эта система обрабатывать различные спорные темы в социальных сетях в режиме реального времени?

Серж：Я думаю, что может, и надеюсь на это. Предположим, что в Средиземном море встречаются два корабля — российский и американский. В социальных сетях начинаются обсуждения и рождается повествование. Новая информация появляется каждые несколько часов, включая заявление капитана или запись мобильного телефона. В этом случае некоторые повествования и проблемы привлекают внимание, в то время как другие могут стать неактуальными.

Мисс А: Вы надеетесьв реальном времениПроблемы с захватом？

Серж：и другая информация.Чтобы помочь профессиональным дипломатам, мы хотели бы создатьпанель приборов(Панель приборов) , предоставляет исчерпывающую соответствующую информацию, а также помещает эти события в мировой контекст.Эта система можетУдерживайте людей от принятия поспешных решений . Хочу подчеркнуть, что система сама не решает, какая сторона права, а комплексно систематизирует информацию.

Скучать по:Какие болевые точки необходимо устранить для достижения надежной функциональности?

Серж: Есть как традиционные, так и новые вызовы . Традиционные проблемы включают влияние языка, культуры и эмоциональных предубеждений.

например, «Русалочка» и «Гадкий утенок» — произведения датских писателей, но их диснеевские версии этих историй были адаптированы с учетом американской культуры. Из-за большего доминирования американского повествования над датским в социальных сетях, оригинальная версия истории Андерсена практически неизвестна среди интернет-пользователей во многих других странах.

На процесс аннотирования данных, особенно аннотирования данных социальных сетей, влияют язык и культура. Другой пример: анализ настроений уже является важной частью проверки фактов, а сама модель прогнозирования настроений может иметь множество предубеждений и стереотипов при обучении.Обучение модели ИИ — это процесс ввода и вывода мусора. Трудно решить проблемы, вызванные обучающими данными. Поэтому мы должны понимать, какие обучающие данные использует модель.Можно сказать, что проверка фактов без участия человека невозможна (ненадежна).

Скучать по:Каковы новые задачи?

Серж: Ложный контент, генерируемый языковыми моделями, — это новая проблема, с которой мы сталкиваемся. Предыдущие фейковые аккаунты в социальных сетях часто имели очень простые схемы. Но с помощью GPT и моделей генерации изображений создатели фейковых аккаунтов могут создавать более сложные и естественные фейковые профили, а затем фальшивые аккаунты в социальных сетях, которые выглядят реальными. Эти учетные записи нелегко найти с помощью традиционных моделей идентификации поддельных учетных записей. Эти генеративные модели ИИ также создают соответствующие проблемы для традиционных задач проверки фактов. поэтому,Генеративный ИИ создает и идентифицирует ложную информацию, что станет игрой в кошки-мышки этой эпохи.

4. Будущее искусственного интеллекта

Они (OpenAI), возможно, еще не знают о наших планах.

Скучать по:Кажется, что эти проблемы невозможно решить просто с помощью моделей, они могут выйти на уровень сотрудничества между ИИ и людьми.тыказатьсяВсегда обнаруживайте новые проблемы в новых измерениях, а затем решайте их с простой точки зрения.

Серж：Да.Нашу новую идею можно сравнить с Википедией. Когда-то люди думали, что одному и тому же узлу Википедии нужны только страницы на разных языках с одинаковой семантикой. Реальность такова, что отличается не только язык.

Язык, культура, ценности, традиции — все факторы смешаны на разных страницах одной и той же статьи. Например, атомная энергия и ископаемое топливо освещаются по-разному на разных языках и в разных частях мира. Это напоминает нам о том, что система искусственного интеллекта, которую мы пытаемся создать, не является ни полностью автоматизированной, ни отдельной моделью. Это система, в которой участвует человек, а это означает, что вам нужно множество разных человеческих сообществ по всему миру, чтобы маркировать и систематизировать данные, а также учитывать все их части.Это большая и глубокая проблема, потому что предрассудки будут существовать всегда.

Скучать по:Как и в случае с MSCOCO, целью данного исследования является максимально полная и справедливая организация данных.

Серж： Это процесс организации всех типов сообществ. В разных частях мира люди разного возраста изучают разные специальности, такие как литература, история, наука и т. д., и каждая область имеет свою историю. Чтобы исследование, которое я описываю, было успешным,Нам нужно много аннотаций, которые разбираются в самых разных темах.К。 Им не обязательно быть экспертами, но им необходимо обладать некоторыми знаниями о контенте, который нужно пометить, например, о ядерной энергетике, предпринимательстве или криптовалюте, чтобы понимать сходство в повествованиях и проблемах. Поэтому самая большая проблема — это организация сообщества, а не базовые вычислительные мощности и средства хранения данных ИИ.

Скучать по:Сэм Альтман или Янн Лекун прокомментировали ваше мнение?

Серж: Возможно, они еще не знают о наших планах.

Скучать по:Кажется, я наблюдаю первые этапы инициативы:Обнаружьте проблемы в более высоком измерении и найдите самую прямую точку входа.

Серж: Если мы разработаем эту инфраструктуру для обнаружения проблем, как и многие технологии, ее можно будет использовать как во благо, так и во вред.Поэтому, в отличие от многих коммерческих ИИ,Мы стараемся разрабатывать открытые, прозрачные и проверяемые системы управления. . Таким образом, у нас будет полностью прозрачная база знаний, и пользователи смогут видеть историю редактирования данных, в том числе, когда данные были включены и какими аннотаторами они были аннотированы.

Скучать по:Как обеспечить точность и объективность данных?

Серж：Простой ответ:мы не можем гарантировать。

Но лучшее, что мы можем сделать, — это создать систему, которая привлечет десятки тысяч людей, заинтересованных в различных областях дискуссий, для аннотирования системы. Наличие как можно большего числа аннотаторов может помочь нам обеспечить статистическую объективность. В Википедии также есть механизмы, обеспечивающие прозрачность и подотчетность, и мы будем делать то же самое.

Скучать по:Как это исследование повлияет на политиков, преподавателей и технологов?

Серж: Думайте о том, что мы делаем, как о дополнении к логическим или фактическим рассуждениям.

Допустим, компания хочет улучшить свое многообразие, справедливость и инклюзивность. Поэтому их совет директоров провел собрание, чтобы обсудить вопрос о найме большего количества женщин или представителей меньшинств. Подобный тип обсуждения распространен во многих компаниях, и, например, в одном университете может быть не так много женщин, изучающих электротехнику, и кафедра хочет предпринять шаги, чтобы изменить это. На этих встречах может быть много дискуссий, не подкрепленных знаниями или информацией.

Некоторые люди высказывают предвзятое мнение, что женщины плохо разбираются в математике. Что необходимо, так это система, которая могла бы помочь заведующему кафедрой, генеральному директору или преподавателю, которому необходимо вести эти обсуждения, и они могли бы извлечь из системы набор повествований для структурирования обсуждения. Кроме того, как только система начинает работать, она индексирует и анализирует утверждения в уже существующие повествования. Таким образом, генеральный директор, преподаватель или координатор встреч могут избежать некачественных или запутанных разговоров и иметь эффективную структуру и систему классификации, которые направляют дискуссии и предотвращают лишние разговоры.

Скучать по:Каковы, по вашему мнению, потенциальные направления исследований в области технологического развития для будущего повествования в социальных сетях и анализа проблем?

Серж： В разных областях есть свои уникальные проблемы. Некоторые из них представляют собой классические проблемы, такие как обработка больших объемов данных и их маркировка, смягчение предвзятости и т. д. Но мы также сталкиваемся с большими проблемами, когда дело доходит до визуализации.

Мы только что упомянули различия, с которыми сталкиваются разные языки и культуры. Каждая конкретная тема имеет множество разных точек зрения, и разные аннотаторы будут предоставлять разные аннотации из-за своих собственных предубеждений. С точки зрения теории информации, попытка сжать эти разнообразные отчеты может привести к потере или повреждению информации. Вопросы такого типа будут возникать на протяжении всего проекта, и мы будем часто с ними сталкиваться.

Скучать по: По вашему мнению, какие последние разработки в области визуальных технологий окажут глубокое влияние на будущее?

Серж： Сейчас все больше и больше исследователей начинают обращать внимание на мультимодальные данные, одновременно обрабатывая несколько типов данных, таких как изображения, текст и аудио, в одной модели. Этот метод обычно использует архитектуры моделей, такие как Transformer, для решения сложных практических задач. . Я считаю, что эта тенденция сохранится, и будущим новичкам в области искусственного интеллекта будет более естественно овладевать несколькими профессиональными навыками одновременно, чем углубляться в одну область, например обработку естественного языка или компьютерное зрение.

Лично я считаю, что хотя некоторые и утверждают, что искусственный интеллект полностью заменит врачей, это утверждение преувеличено. Но я убежден, что в таких областях, как радиология, дерматология и гистопатология, системы с использованием искусственного интеллекта получат широкое распространение и принесут пользу всем.

Что касается беспилотных автомобилей, хотя в прошлом и были предсказания, что достижения в области технологий машинного зрения и искусственного интеллекта позволят обеспечить широкое внедрение беспилотных автомобилей, я думаю, что это вряд ли произойдет. Если правительство не предпримет шаги по ограничению движения обычных автомобилей по определенным полосам движения или полному их запрету, маловероятно, что беспилотные автомобили станут нормой в Соединенных Штатах.

Скучать по : Мне нравится ваша газета. Мои мысли схожи.Технологическое развитие одновременно открывает новые когнитивные измерения. Самая ценная методология — это та, которая имеет минималистскую отправную точку, но может отражать общую ситуацию.

Серж：Какая методология вас больше всего интересует?

Скучать по:Приведите небольшой пример.По пути фальсифицируемости наука встанет на повторяющийся путь отрицания отрицания... возвращаясь к знакомой нам всем структуре научной революции.

*Ханг Чжоу также участвовал в написании этой статьи.

Поскольку эта статья предполагает академические дискуссии, вот краткое представление об авторе:

Чжан Ицзя, основатель Jiazi Guangnian, окончил Школу математических наук Пекинского университета в 2013 году, получил двойную степень по экономике в Национальном институте развития, выиграл золотую медаль на Китайской математической олимпиаде и был выбран для участия в ней; национальная команда преподавателей; его исследовательские интересы — финансовая математика и теория игр; он одновременно является директором Школы математических наук Пекинского университета.
Чжоу Хан, ответственный за Jiazi Brain, в 2019 году окончил Школу математических наук Пекинского университета; его направление исследований — разреженная оптимизация и невыпуклая оптимизация.

*Использованная литература

Поиск структуры в нефальсифицируемых утверждениях.pdf
978-3-319-10602-1_48.pdf «Microsoft COCO: Общие объекты в контексте» Набор данных MSCOCO: наиболее цитируемая статья Сержа.
Томас Сэмюэл Кун «Структура научных революций»

|Скучать поОбзор сериала «Диалоги»|

Новости

Разговор Мисс А с Сержем Белонги: Дайте вам фальсифицируемую «пулю» Цзяцзы Гуаннянь |

Введение

моя контактная информация