Новости

Беседа с командой Ци Пэна из Чунцинского научно-исследовательского института искусственного интеллекта Шанхайского университета Цзяо Тун: Текущий уровень больших моделей эквивалентен уровню пятилетнего ребенка |

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


(Источник изображения: unsplash)

Недавно новость о том, что «Большая модель не может определить, 9.11 или 9.9 больше», вызвала дискуссию.

Когда пользователь задал 12 крупным моделям искусственного интеллекта в стране и за рубежом, включая GPT-4o, математический вопрос, сложный для учеников начальной школы: «Что больше, 9,11 или 9,9?», окончательным результатом оказался только Alibaba Tongyi. Qianwen и Baidu Wenxin, Minimax и Tencent Yuanbao дали 4 правильных ответа, а 8 крупных моделей, включая ChatGPT-4o, дали неправильные ответы.

Это означает, что математические возможности больших моделей плохие и существует множество проблем, которые необходимо решить.

В более раннем эксклюзивном разговоре с TMTpost AGI доктор Ци Пэн, директор Центра больших моделей искусственного интеллекта Шанхайского университета Цзяо Тонг, Чунцинский институт искусственного интеллекта (Шанхай-Чунцинский институт искусственного интеллекта), сказал, что, хотя большие модели обладают большими обладает потенциалом и может решать сложные проблемы, а также обладает способностью обучаться способности к обобщению. Однако большие языковые модели могут больше походить на «студентов гуманитарных наук» из-за ограничений архитектуры модели и отсутствия научных способностей. Более того, нынешняя ограниченная вычислительная мощность недостаточна, текстовых данных недостаточно, точность и надежность смещены, а масштаб модели недостаточно велик. Уровень ее интеллекта все еще находится на уровне ребенка, больше похожего на «пятилетнего ребенка». ", а со сложными задачами справиться сложно. "Иллюзия" существует уже давно.

Ци Пэн окончил Университет Цинхуа со степенью бакалавра и получил докторскую степень в Университете Висконсина в США. В настоящее время он работает в Чунцинском научно-исследовательском институте искусственного интеллекта Шанхайского университета Цзяо Тун. Ци Пэн на протяжении многих лет активно занимался наукой о данных, искусственным интеллектом и другими областями, участвовал во многих национальных научно-технических проектах и ​​владеет рядом прав интеллектуальной собственности.

Поскольку ChatGPT становится популярным во всем мире, за последний год или около того Ци Пэн возглавил команду центра больших моделей искусственного интеллекта Чунцинского научно-исследовательского института искусственного интеллекта Шанхайского университета Цзяо Тонг для независимой разработки большой языковой модели «Чжаоян», и оценили китайского модельного агента SuperCLUE в марте этого года. Он занял третье место в мире и второе место внутри страны по показателям.

В то же время, в июле этого года Ци Пэн привел Чжуан Шаобина, аспиранта Шанхайского университета Цзяо Тонг, и других к участию в проекте сообщества с открытым исходным кодом и успешно воспроизвел видеомодель Вэньшэна, похожую на Сора, с использованием усовершенствованного латте. Архитектура пространственно-временного разделения внимания после тщательного обучения позволила создать 16-секундное (128-кадровое) видео на наборе видеоданных InternVid. По сравнению с предыдущей моделью с открытым исходным кодом, которая может генерировать только 3-секундное (24 кадра). -кадрового) видео, производительность повышается в 5 раз (500%).

12 июля Ци Пэн и Чжуан Шаобинь провели эксклюзивную беседу с TMTpost, продолжавшуюся около двух часов, сосредоточив внимание на текущем состоянии разработки Sora и проблемах, с которыми сталкивается разработка крупных моделей, отраслевое внедрение и будущие направления развития.

Говоря о влиянии технологии Sora, Ци Пэн рассказал TMTpost AGI, что Сора больше похож на новый «молот», способный решать самые разные задачи. Помимо создания видео, видеомодель Сора Винсент также может сыграть роль во многих областях, таких как автономное вождение и моделирование физического мира. Самое интуитивно понятное приложение — создание видео. Пользователям достаточно ввести текстовое описание, чтобы быстро сгенерировать видеоконтент, соответствующий требованиям, повышая эффективность и удобство производства видео.

Когда дело доходит до внедрения в отрасли, Ци Пэн отметил, что большие модели широко используются во многих вертикальных отраслях, но реальных случаев реализации относительно немного. Есть две основные причины: во-первых, отсутствие математических возможностей и инженерных возможностей больших моделей; во-вторых, как часть категории машинного обучения, природа больших моделей, основанных на статистических методах, определяет, что они не могут достичь 100% точности.

С нетерпением жду будущего развития AGI, Ци Пэн подчеркнул, что человеческое общество находится в критическом периоде, ведущем к появлению ОИИ. Хотя текущие возможности модели не соответствуют стандартам AGI, однажды в будущем, когда люди оглянутся назад на этот период истории, они могут осознать, что ChatGPT поставил нас в важный исторический узел.

«Важной целью института является реализация коммерциализации технологий. Центр больших моделей в настоящее время фокусируется на реализации AIGC, особенно на вопросе «последней мили», как преобразовать результаты исследований в реальные продукты или услуги для удовлетворения рынка. Спрос. Хотя интеллект больших моделей может продолжать совершенствоваться от пяти до десяти лет до восемнадцати лет и даже достигать уровня ведущих экспертов, такие системы всегда будут требовать вспомогательных средств и инструментов для поддержки их работы и применения. Затраты на разработку могут быть высокими и относительно низкими, но они играют решающую роль в продвижении практического применения и социальной ценности больших моделей», — сказал Ци Пэн.


Доктор Ци Пэн, директор Центра больших моделей искусственного интеллекта Чунцинского института искусственного интеллекта, Шанхайский университет Цзяо Тонг

Ниже приводится краткое изложение разговора между TMTpost Media AGI, Ци Пэном и Чжуан Шаобином:TMTpost Media AGI: Каковы основные отличия повторяющейся видеомодели Сора Винсент от других видеомоделей, совместно разработанной Чунцинским научно-исследовательским институтом искусственного интеллекта Шанхайского университета Цзяо Тонг?

Ци Пэн: Этот проект был разработан командой под руководством доктора Чжуан Шаобина. Команда решила использовать все данные из открытых источников для обучения модели. Команда не только раскрыла данные, но и обнародовала тренировочный процесс. Таким образом, другие исследователи или разработчики могут воспроизвести процесс обучения модели в своей собственной среде на основе тех же шагов и настроек параметров и проверить эффективность и стабильность модели.

Основные различия в основном отражаются в трех аспектах:

Во-первых, для обучения модели команда использует все данные из открытых источников, а это означает, что весь процесс обучения основан на общедоступных наборах данных. Такой подход обеспечивает прозрачность и повторяемость процесса обучения, и любой желающий может использовать один и тот же набор данных для воспроизведения или улучшения модели.

Во-вторых, команда приняла метод косвенного обучения, который позволяет эффективно обучать модель с меньшими вычислительными затратами. Этот подход подходит для крупномасштабных наборов данных и сложных моделей, поскольку они требуют более длительного времени обучения и более высоких вычислительных ресурсов. Используя косвенное обучение, время обучения можно сократить за счет увеличения количества вычислительных узлов без увеличения стоимости вычислительной мощности одного вычислительного узла.

В-третьих, команда также провела некоторую базовую работу по оптимизации, особенно по оптимизации нагрузки на видеопамять. Эти оптимизации позволяют модели стабильно обучать длинные видео на кластере или сервере, повышая эффективность обучения и масштабируемость модели.

TMTpost AGI: Какова логика и причины выбора модели с открытым исходным кодом?

Ци Пэн: В отличие от коммерческих проектов, преимущество использования модели с открытым исходным кодом для исследовательских проектов, в которых сотрудничают команды и сообщества открытого исходного кода, заключается в том, что они могут привлечь к участию больше сотрудников, занимающихся исследованиями и разработками. Поскольку нет никаких ограничений авторского права или коммерциализации, любой, кто заинтересован в этом проекте, может легко получить и использовать модель, предлагать свои собственные предложения по улучшению или вносить новый код. Эта модель может помочь в постоянном совершенствовании и оптимизации моделей, а также может укрепить междисциплинарное и межотраслевое общение и сотрудничество.

TMTpost AGI: Эта повторяющаяся видеомодель, подобная Соре, использует архитектуру пространственно-временного взаимодействия внимания Латте. По какой причине она не связана с архитектурой DiT?

Ци Пэн: Архитектура модели, подобная Sora, разработанная командой, не отказывается полностью от Transformer или других традиционных моделей. Она расширяется на основе DiT и добавляет временное измерение для поддержки обработки видео. Рассмотрение этой новой архитектуры может быть направлено на лучшую адаптацию к характеристикам видеоданных и повышение производительности модели при выполнении задач генерации или обработки видео.

Titanium Media AGI: Архитектура DiT имеет ограничения при создании длинных видеороликов. Может ли архитектура пространственно-временного связанного внимания Latte решить эти проблемы?

Чжуан Шаобинь: Лучшая модель, которую в настоящее время обучает команда, может создавать видеоролики длиной до 16 секунд. Это огромное улучшение по сравнению с предыдущими моделями, основанными на архитектуре unet, которые обычно могли генерировать видео только две-три секунды. 16 секунд – это не особенно большой срок, но это относительно длинный рекорд в области генерации видео.

Проблемы непрерывности и согласованности при создании видео, на которые в основном влияет качество данных. Если в видеоданных возникают некогерентные ситуации, такие как скачки кадров, обученная модель также может генерировать бессвязные видео. Кроме того, частота кадров и разрешение во время обучения модели влияют на качество генерации видео. Если модель обучена только на данных с более низким разрешением и частотой кадров, возможно, она не сможет генерировать плавные видео с высоким разрешением.

Почему я не могу создать сквозное видео длиной в минуту или две? Сквозное видео длительностью в одну-две минуты означает тысячи кадров или даже две-три тысячи кадров данных, что требует в сотни или тысячи раз большего потребления вычислительных ресурсов. Хотя пространственно-временная архитектура связанного внимания Латте теоретически может быть расширена до такой продолжительности, ни одно учреждение в настоящее время не имеет достаточной вычислительной мощности и данных для поддержки такого обучения.

TMTpost AGI: Кто сейчас использует Sora? Какие проблемы решаются? Какую ценность это приносит?

Чжуан Шаобинь: На стороне C для непрофессиональных производителей видео, таких как обычные домашние пользователи, модели генерации видео, такие как Sora, могут значительно снизить сложность производства видео. Пользователям нужно всего лишь ввести текстовые описания, чтобы создать красивый видеоконтент, что упрощает участие в создании видео.

На стороне B для профессиональных видеоредакторов и креативщиков Сора может создавать сложные или творческие видеоматериалы. Профессионалы могут производить тонкую настройку и оптимизацию на основе материалов, предусмотренных моделью, тем самым повышая эффективность работы и качество творчества.

Сора не только используется в производстве видео, но также проводит серию исследований в различных областях, таких как автономное вождение, генерация и моделирование 3D, а также физические исследования. Система автономного вождения должна точно прогнозировать динамические изменения окружающих объектов, а Sora, как «симулятор мира», может моделировать и прогнозировать траектории движения объектов, обеспечивая более точное моделирование окружающей среды для системы автономного вождения.

Например, в области автономного вождения решения Tesla для автономного вождения и аналогичные передовые системы помощи при вождении достигли значительного технологического прогресса. Они могут воспринимать окружающую среду в режиме реального времени, включая транспортные средства, пешеходов, препятствия и т. д., что является ключевым моментом. к реализации автономного вождения. Основы вождения. Sora помогает системам автономного вождения заранее принимать решения, чтобы избежать потенциально опасных ситуаций, таких как столкновения и наезды сзади. В то же время, прогнозируя движение объектов, система также может оптимизировать маршруты и скорости движения, повысить эффективность дорожного движения, а также снизить заторы и выбросы.

В целом, Sora снижает порог для создания видео и позволяет большему количеству людей участвовать в создании видео. От этого могут выиграть как непрофессиональные пользователи на стороне C, так и профессиональные продюсеры видео на стороне B.

Ци Пэн: Сора больше похож на «молоток», новый инструмент, способный решать самые разные проблемы. Помимо создания видео, видеомодель Сора Винсент также может сыграть роль во многих областях, таких как автономное вождение и моделирование физического мира. Самое интуитивно понятное приложение — создание видео. Пользователям достаточно ввести текстовое описание, чтобы быстро сгенерировать видеоконтент, соответствующий требованиям, повышая эффективность и удобство производства видео.

Зачастую технология не разрабатывается для решения конкретной проблемы, а в процессе исследования случайно обнаруживаются мощные решения. Как только этот метод станет более зрелым, его можно будет широко использовать во многих областях для решения ряда проблем.

В настоящее время Sora все еще находится в стадии бета-тестирования и не является широкодоступной для широкой публики. В Китае могут быть случаи применения внутренних или внешних бета-версий, но их число относительно невелико и в основном ограничивается созданием коротких видеороликов или видеороликов. Поскольку это бета-версия, во многих случаях она может быть доступна бесплатно. Если в будущем начнется взимание платы, ее стоимость составит очень небольшую часть текущих затрат на производство видео, например несколько сотен юаней, что значительно снизит стоимость производства видео.

TMTpost AGI: С какими проблемами столкнулась команда при разработке модели Sora? Как преодолеть эти проблемы?

Ци Пэн : Этот проект в основном сотрудничает с сообществом разработчиков программного обеспечения с открытым исходным кодом. Основные исследования и разработки выполняются доктором Чжуаном Шаобином и одним или двумя сотрудниками, занимающимися исследованиями и разработками. Проект в целом разделен на четыре группы, которые отвечают за сбор и маркировку данных, обучение модели, оценку модели, ускорение обучения и оптимизацию машины.

Чжуан Шаобинь: В процессе обучения модели самой большой проблемой, с которой столкнулась команда, является нехватка вычислительных ресурсов. Особенно при обработке крупномасштабных данных и сложных моделей потребность в вычислительных ресурсах очень высока. Чтобы более эффективно использовать ограниченные машинные ресурсы, команда алгоритмов проектной группы провела большую работу по оптимизации.

Эти оптимизации включают расширенные стратегии оптимизации, такие как параллелизм моделей и конвейерный параллелизм, а также оптимизацию видеопамяти для отдельных моделей.

Кроме того, команда также оптимизировала область видео, чтобы проект мог иметь четкие сценарии применения и целевые области для лучшего удовлетворения фактических потребностей проекта.

TMTpost Media AGI: Чунцинский научно-исследовательский институт искусственного интеллекта Шанхайского университета Цзяо Тонг и Исследовательский институт возрождения сельских районов (Чунцин) ранее выпустили большую модель возрождения сельского хозяйства под названием «Чжаоян · Чжаофэн». Почему была разработана эта модель?

Ци Пэн: Будучи единственным муниципалитетом с сельской местностью, Чунцин предлагает богатые пейзажи и широкое пространство для применения крупномасштабных сельскохозяйственных моделей. В крупномасштабной модели возрождения сельской местности используются массивные онлайн-данные и сельскохозяйственные данные Академии сельскохозяйственных наук. Эти данные служат основой для построения модели и обучения и могут более точно отражать реальную ситуацию в сельскохозяйственном производстве. В настоящее время этот проект разрабатывается совместно с государственными учреждениями, Научно-исследовательским институтом возрождения сельских районов (Чунцин) и другими сторонами. Эта модель сотрудничества помогает интегрировать ресурсы, технологии и средства для совместного продвижения исследований, разработок и применения крупномасштабных сельскохозяйственных моделей.

Запланировано 14 крупных моделей возрождения села, и в настоящее время существует 3-4 сопутствующих продукта. С помощью крупных моделей экспертные знания преобразуются в популярную и понятную информацию для решения проблем сельскохозяйственного производства, управления и жизнеобеспечения людей, а также чтобы помочь сельскохозяйственной отрасли, рабочие смогут получить доступ к сельскохозяйственным знаниям и использовать их так же легко, как и городские жители, что поможет сократить информационный разрыв между городскими и сельскими районами и повысить эффективность и результативность сельскохозяйственного производства.

TMTpost AGI: Каковы на данном этапе узкие места в развитии технологии больших моделей?

Ци Пэн: Прежде всего, ясно, что команда определяет как большую модель, то есть большую языковую модель. Модель большого языка является основной, и ее ядро ​​лежит в знаниях и логике. По мере развития крупных языковых моделей уровень их интеллекта может постепенно увеличиваться от IQ пятилетнего ребенка до уровня десятилетнего, восемнадцатилетнего или даже сверхчеловека. Этот процесс в основном опирается на овладение моделью и применение знаний и логики.

В отличие от большой языковой модели, видеомодель Винсента представляет собой еще одно направление большой модели. Она не требует сложных знаний и логики, а больше ориентирована на понимание и моделирование законов физического мира. Такие модели, как Vincent Video Modeling, могут предсказывать изменения в физическом мире и реагировать на них на основе восприятия и опыта, но им не хватает логического понимания высокого уровня и возможностей обобщения знаний.

Кроме того, существуют мультимодальные модели, которые могут унифицированно кодировать и обрабатывать несколько форм информации, таких как текст, изображения, звуки и т. д. Мультимодальные модели — одно из будущих направлений развития, позволяющее более полно понимать и обрабатывать сложную информацию в реальном мире.

В настоящее время крупные модели вступают в период плато, и добиться качественного скачка в плане интеллекта кажется затруднительным. Мы по-прежнему считаем, что более крупные модели, как правило, способны решать более сложные проблемы и обладают более сильными возможностями обучения и обобщения. Как только модель достигнет точности 99,9%, эта большая модель станет новым инструментом повышения производительности, способным выполнять различные задачи.

Разработка больших моделей имеет такие проблемы, как недостаточная вычислительная мощность, недостаточность текстовых данных, отклонения в точности и надежности, а также недостаточный масштаб модели. Таким образом, «IQ» большой модели недостаточно высок и больше похож на уровень IQ пяти- или шестилетнего ребенка. Способность большой модели решать сложные задачи ограничена и не может соответствовать ожиданиям людей.

Во-вторых, из-за ограничений архитектуры большой языковой модели большая модель немного похожа на «студента гуманитарных наук». Она очень хорошо справляется с языком, но плохо разбирается в математике и инженерном деле. Большую модель можно сравнить с «генеральным директором или операционным директором» предприятия. Хотя этот «генеральный директор или главный операционный директор» может не особо разбираться в технологиях, он может мобилизовать различные высокотехнологичные компоненты.

В то же время отечественные крупные производители и стартапы сталкиваются с трудностями при разработке крупных моделей, главным образом потому, что инвестиционные затраты огромны, а коммерциализация недостаточна для поддержки постоянных инвестиций в вычислительную мощность и данные.

Если уровень интеллекта больших моделей невозможно существенно повысить за короткий период времени, то разработка приложений становится возможным вариантом. На текущем этапе разработки больших моделей клиентам необходимо изучать и совершенствовать их на практике в различных сценариях применения. За счет коммерциализации приложений можно получать доход для поддержки непрерывной разработки и оптимизации больших моделей. Это не только обеспечивает экономическую устойчивость проекта, но и дает возможность для будущих технологических инноваций.

Кроме того, крупные модельные компании также могут поддерживать разработку проектов посредством финансирования. Однако финансирование является непростой задачей. Это зависит от того, признает ли рынок потенциал и ценность проекта.

TMTpost Media AGI: Рынок с большим энтузиазмом относится к крупным моделям, но применение крупных моделей продвигается медленно, что отстает от ожиданий рынка. Почему медленно продвигается применение крупных моделей?

Ци Пэн: Есть две причины:

Во-первых, нынешний недостаток технических возможностей приводит к ограничению улучшений, что снижает энтузиазм в отношении активных обновлений;

Во-вторых, применение новых технологий требует нового оборудования и вычислительной мощности, но различные предприятия плохо подготовлены и не имеют достаточных компьютерных залов и интеллектуальных вычислительных ресурсов для развертывания и запуска больших моделей, что затрудняет внедрение больших моделей в вертикальных отраслях. Вторая проблема на самом деле может быть решена с помощью соответствующей политики. Если предприятия могут доверять гарантиям безопасности данных государственных исследовательских институтов или вычислительных центров, они могут начать разработку крупномасштабных модельных решений, прежде чем строить свои собственные компьютерные залы для интеллектуальных вычислений.

Большие модели, особенно те, которые способны генерировать высококачественный текст, изображения и т. д., часто требуют для работы значительных вычислительных ресурсов. Например, когда 1 миллион пользователей одновременно используют большую модель, ежегодные затраты на вычислительную мощность могут превысить сотни миллионов, что затрудняет коммерциализацию. Для обычных пользователей такие дорогостоящие прикладные продукты для крупных моделей могут быть недоступными, что также ограничивает продвижение приложений C-end.

На этом этапе решения могут включать принятие более эффективных алгоритмов, оптимизацию структур модели для уменьшения объема вычислений или использование распределенных вычислительных ресурсов, таких как облачные вычисления, для распределения затрат.

В некоторых аспектах нынешний интеллектуальный агент крупной модели по-прежнему похож на «пятилетнего ребенка». У него есть такие проблемы, как недостаточный «IQ», нестабильная производительность и склонность к галлюцинациям, что серьезно влияет на пользовательский опыт и доверие. Эти проблемы неприемлемы в сценариях приложений, требующих высокой точности, например в сценариях обслуживания клиентов в государственных или финансовых учреждениях. Даже в некоторых областях консалтинга, эксплуатации и технического обслуживания, где требования к точности не так высоки, текущий уровень точности 80% или 60% еще не достиг критической точки для широкого применения.

Повышение производительности и стабильности агентов требует постоянной оптимизации алгоритмов, увеличения разнообразия и количества обучающих данных, а также внедрения более сложных архитектур моделей. В то же время необходимо усилить механизмы мониторинга и обработки ошибок в реальном времени, чтобы обеспечить стабильность больших моделей в сложных средах.

Распознавание изображений — очень важная область применения мультимодальных больших моделей. На основе предварительно обученной модели можно разработать новые модели распознавания изображений с очень низкими затратами, охватывающие множество сценариев с длинным хвостом и имеющие большой рыночный потенциал. Хотя распознавание изображений имеет множество сценариев применения, современные модели распознавания больших изображений все еще имеют проблему низкой точности и относительно высоких требований к вычислительной мощности.

Кроме того, поскольку предыдущее поколение искусственного интеллекта было относительно зрелым в понимании изображений, люди не до конца осознали дополнительную ценность, которую могут создавать большие модели, что также влияет на скорость их продвижения.

TMTpost AGI: Как вы оцениваете текущие промышленные инновации в моделях крупных вертикальных отраслей? Почему реализовано так мало проектов вертикальной отрасли?

Ци Пэн: Что касается вертикального внедрения в промышленности, если взять в качестве примера роботов-гуманоидов в обрабатывающей промышленности, то для того, чтобы роботы-гуманоиды стали пригодными для использования в семьях, может потребоваться от пяти до десяти лет. Это главным образом потому, что их возможности обобщения в программном обеспечении все еще ограничены. Этого недостаточно, и аппаратное обеспечение также требует дальнейших исследований, разработок и усовершенствований.

Более практическое направление исследований — сосредоточиться на проблеме обобщения роботизированного оружия в производственных сценариях. Хотя сами роботы-манипуляторы очень развиты и заняты на рынке крупными отечественными и зарубежными производителями, существующим роботам-манипуляторам не хватает достаточных возможностей обобщения, и они не могут гибко адаптироваться к множеству различных рабочих задач. Это приводит к необходимости перепрограммирования каждый раз, когда роботизированной руке требуется выполнить новую задачу в практических приложениях, что непрактично, когда задачи часто меняются.

Ключ к решению проблемы обобщения роботизированной руки лежит в разработке программного обеспечения, особенно такого, которое позволяет роботизированной руке обрабатывать более широкий спектр сценариев. Ожидается, что в течение одного-двух лет за счет оптимизации и разработки программного обеспечения возможности обобщения роботизированной руки будут значительно улучшены.

Конечно, существуют некоторые проблемы для достижения цели обобщения возможностей роботизированной руки, а именно отсутствие данных. Чтобы обучить роботизированную руку, способную справляться с различными сценариями, необходим большой объем высококачественных данных для поддержки обучения и оптимизации алгоритмов.

Фактически, большие модели могут использоваться в качестве интеллектуального агента в обрабатывающей промышленности и могут вызывать различное программное обеспечение в целом. Это означает, что в сложных системах обрабатывающей промышленности различное программное обеспечение, которое изначально требовало ручного управления или подключения к программированию, теперь теоретически может быть автоматизировано и интегрировано с помощью больших моделей.

Пользователям нужно только взаимодействовать с большой моделью посредством языка или идей, а большая модель может автоматически выполнять соответствующие программы и выполнять различные задачи. Однако, поскольку разные производственные компании имеют разные производственные среды, системы и API, адаптация больших моделей к различным сценариям стала серьезной проблемой. Даже большая модель, хорошо настроенная в одной сцене, может не работать должным образом в другой среде. Поэтому корпоративным разработчикам необходимо точно настроить конкретные сценарии, чтобы повысить производительность и точность больших моделей.

Это ограничение напрямую влияет на широкое применение и глубокую разработку крупных моделей в производстве. Потому что производство часто включает в себя весьма сложные и изысканные операции, требующие высокоточных расчетов и контроля. Если большая модель не справляется с этими задачами, она не реализует свой потенциал в производстве.

Помимо ограничений производительности самих больших моделей, важным фактором, ограничивающим применение больших моделей в производстве, также являются проблемы совместимости между системами. Разные компании или производственные подразделения могут использовать совершенно разные системы, включая разное программное обеспечение, оборудование и API. Это затрудняет прямое применение большой модели, настроенной в одном сценарии, к другому сценарию, поскольку системные среды двух сценариев могут быть совершенно разными. Эта изменчивость между системами увеличивает сложность и стоимость применения больших моделей в производстве.

На самом деле решение есть. Для вертикальных отраслей, таких как производство, финансы и розничная торговля, можно определить интерфейсы для стандартизированных больших моделей. Эти интерфейсы прояснят конкретные возможности, которые может предоставить большая модель, чтобы все системы могли вызывать функции большой модели через эти интерфейсы. Преимущество этого заключается в том, что независимо от того, как меняется системная среда, если они соответствуют этим стандартизированным спецификациям интерфейса, их можно легко соединять с большими моделями.

Таким образом, определяя стандартизированные интерфейсы, корпоративные разработчики могут значительно снизить сложность сопоставления больших моделей с различными системами, позволяя большим моделям быстрее адаптироваться к различным производственным средам. Стандартизированные интерфейсы помогают гарантировать стабильную работу больших моделей в различных системах и уменьшить проблемы совместимости, вызванные различиями в системах.

В целом, большие модели широко используются во многих вертикальных отраслях, но реальных случаев реализации относительно немного. Есть две основные причины: во-первых, недостаточные математические и инженерные возможности затрудняют достижение достаточной точности и стабильности больших моделей в практических приложениях. Во-вторых, большая модель сама по себе является частью категории машинного обучения, и ее природа, основанная на статистических методах, определяет, что она не может быть на 100% правильной.

На самом деле структура человеческого мозга не является на 100% точной, но человеческие суждения часто достаточно точны, чтобы удовлетворить потребности большинства реальных сценариев. Напротив, даже после обучения точность большой модели может оставаться на уровне около 95%, чего может быть недостаточно в некоторых сценариях, требующих чрезвычайно высокой точности. Кроме того, математические возможности больших моделей относительно скудны, что также ограничивает их применение в определенных областях.

Если вы хотите преодолеть эти ограничения, вам необходимо осознать важность вспомогательных средств для больших моделей. Предоставляя необходимые вспомогательные средства и инструменты для больших моделей, он может компенсировать недостаток математических и инженерных возможностей и лучше адаптироваться к потребностям реальных сценариев применения. Такие вспомогательные средства могут включать более точные наборы данных, более эффективные алгоритмы, более стабильные аппаратные платформы и т. д.

TMTpost AGI: Почему у крупных моделей возникают галлюцинации?

Ци Пэн: Иногда из-за того, что исходные данные отсутствуют или имеют проблемы, большая языковая модель не может усвоить правильные знания в процессе обучения и, следовательно, не может сделать правильные выводы. Эта ошибка вызвана не недостатками самой большой языковой модели, а неточностями входных данных.

Если большая модель обучается в гипотетической среде, где вся информация указывает на неправильные выводы, то большая модель также будет делать неверные суждения на основе этой неверной информации. Это подчеркивает важное влияние данных и окружающей среды на производительность агентов и больших моделей.

Иногда большие модели могут генерировать ответы, которые кажутся логичными и продуманными, но на самом деле не являются правдивыми или точными. Это похоже на то, как пятилетние дети часто уверенно описывают ложные воспоминания.

Взрослые также часто испытывают галлюцинации или ошибки памяти при обработке информации и памяти. Например, во время протоколирования судебных заседаний и анализа дела у сторон, вовлеченных в очень серьезные и важные ситуации, также могут возникать ложные воспоминания или галлюцинации из-за различного давления, вводящей в заблуждение информации и т. д.

TMTpost AGI: Как отражаются различия в условиях рынка больших моделей внутри страны и за рубежом?

Ци Пэн: В настоящее время зарубежные страны все еще сохраняют твердую уверенность в совершенствовании технологий и не полностью перешли к разработке приложений. Это может быть связано с тем фактом, что зарубежные рынки являются относительно зрелыми и стабильными, что позволяет компаниям иметь больше ресурсов и пространства для сосредоточения внимания на технологических исследованиях, разработках и инновациях. Напротив, внутренний рынок сталкивается с более жесткой конкурентной средой, и большинство крупных компаний, занимающихся исследованиями и разработками моделей, обратились к приложениям в больших масштабах.

Конкуренция на внутреннем рынке отражается не только на количестве компаний, но и на ценовых войнах. Поскольку несколько компаний предлагают аналогичные услуги одновременно, цена на крупные модели быстро падает, что затрудняет окупаемость затрат за счет предоставления услуг. В зарубежных странах компании, представленные ChatGPT, могут продолжать получать доход и использовать его для дальнейших исследований, разработок и инноваций благодаря своему лидирующему положению в области технологий и признанию на рынке.

На внутреннем рынке из-за ожесточенной ценовой войны и относительно слабой готовности платить компаниям, возможно, придется больше сосредоточиться на разработке новых приложений, чтобы добиться коммерческих прорывов. Хотя эта стратегия может в определенной степени облегчить экономическое давление предприятий, она также может привести к недостаточным инвестициям в технологические исследования и разработки, что повлияет на их долгосрочную конкурентоспособность.

TMTpost AGI: Каковы дальнейшие направления развития AGI?

Ци Пэн: Я считаю, что человеческое общество находится в критическом периоде, ведущем к появлению ОИИ. Хотя в настоящее время в отрасли считают, что определенные технологии или модели не идут по правильному пути к AGI, они считают, что эти технологии или модели не принадлежат AGI.Но однажды в будущем, когда мы оглянемся назад на этот период истории, мы, возможно, поймем, что стоим на важном историческом этапе.

Возьмем в качестве примера технологию автономного вождения Tesla. Пять лет назад люди могли подумать, что для достижения технологии автономного вождения уровня L4 потребуется от десяти до двадцати лет, но теперь эта технология достигла значительного прогресса. Этот удивительный прогресс позволяет отрасли поверить в то, что настоящий AGI может быть реализован непреднамеренно.

Чжуан Шаобинь: Каково идеальное состояние AGI? AGI должен не только обладать способностями к мышлению высокого порядка, но, что более важно, иметь возможность применять его в реальной жизни, особенно в промышленности.

В настоящее время люди видели множество применений роботов и технологий искусственного интеллекта на физических устройствах, что показывает, что люди усердно работают над освобождением технологий искусственного интеллекта от компьютеров и превращением их в материальные и активные объекты. Этот скачок очень важен для технологии ИИ. Только в практических приложениях ИИ может создать большую ценность.

TMTpost AGI: Помимо маршрута DiT, существуют ли какие-либо другие возможные пути или стратегии развития AGI? Каков путь реализации AGI?

Ци Пэн: В процессе разработки ОИИ людям необходимо проявлять разнообразный и инклюзивный подход. Если сравнить AGI с домашним заданием учеников с разными оценками в классе, то, несмотря на то, что у учеников разные способности, все они могут выполнить некоторые базовые задачи. Аналогичным образом, даже если между архитектурами существуют различия в производительности, все они могут выполнять некоторые базовые задачи, но имеют разные способности при выполнении более сложных задач.

В частности, благодаря поддержке больших объемов данных и вычислительной мощности различные архитектуры могут улучшить свои базовые возможности за счет увеличения количества параметров, чтобы все они могли работать на определенном уровне.В то же время существуют и некоторые новые тенденции в области больших моделей, такие как методы оптимизации, такие как механизмы линейного внимания. Эти методы предназначены для уменьшения объема вычислений традиционных моделей Трансформеров и повышения эффективности.

Что касается окончательного пути внедрения AGI, то на самом деле не существует фиксированного пути. Различные существующие модели и технологии имеют свои преимущества и ограничения. В процессе разработки AGI требуется постоянное исследование и интеграция множества архитектур и технологий. Различные архитектуры и технологии предоставят важные ссылки и рекомендации для AGI в этом процессе, способствуя его постоянному развитию. При этом необходимо обратить внимание на практичность и возможности самокоррекции модели.

TMTpost AGI: Как найти баланс между научными инновациями и коммерциализацией в отечественной области больших моделей?

Ци Пэн: Что касается инновационных исследований, из-за ограниченности средств институту необходимо уточнить цели, к которым он может стремиться, а не слепо заниматься проектами, требующими большого количества ресурсов, такими как большие языковые модели, которые можно только реализовать. крупными компаниями, такими как Baidu.

Во-вторых, коллектив института должен отобрать исследовательские проекты, которые можно реализовать при определенных усилиях и иметь практическую ценность. Например, модель, подобная Соре, основанная на архитектуре пространственно-временного взаимодействия внимания Латте, разработанная командой, в качестве примера использует генерацию 16-секундного видео высокой четкости. Это цель, к которой институт может стремиться, используя существующие ресурсы. В то же время институту также необходимо выбрать некоторые направления исследований, которые могут потребовать меньше ресурсов, например, оптимизация модели или вспомогательные приложения.

С точки зрения коммерциализации институту следует сосредоточиться на реализации AIGC, особенно на вопросе «последней мили». Это означает, что исследовательским институтам необходимо сосредоточиться на том, как преобразовать результаты исследований в реальные продукты или услуги для удовлетворения рыночного спроса и достижения коммерциализации.

Хотя IQ больших моделей может продолжать расти от пяти до десяти до восемнадцати лет и даже достигать уровня ведущих экспертов, такая система всегда будет требовать вспомогательных средств или инструментов для поддержки ее работы и применения. Затраты на НИОКР этих вспомогательных объектов могут быть относительно низкими, но они играют решающую роль в продвижении практического применения и социальной ценности крупных моделей.

Поэтому коллективы отечественных научно-исследовательских учреждений в области искусственного интеллекта должны в основном сосредоточиться на исследованиях и разработках этих вспомогательных средств для поддержки работы и внедрения крупных моделей.

(Эта статья была впервые опубликована в приложении Titanium Media, автор | Доу Юэи, Линь Чжицзя, редактор | Линь Чжицзя)