новости

одна статья, чтобы понять meta connect 2024: llama 3.2 уже здесь, очки дополненной реальности ориан представил

2024-09-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


автор технологий tencent у бинь хао боян

редактор чжэн кэджун

26 сентября в 1:00 по пекинскому времени в менло-парке, калифорния, прошла ежегодная конференция meta connect 2024. цукерберг начал с ожидаемого нового продукта quest 3s, объявив, что мечта меты о метавселенной начала распространяться на потребительский рынок начального уровня.

в то же время meta также анонсировала последнюю версию 3.2 своей большой модели искусственного интеллекта llama, которая обеспечивает визуальные мультимодальные возможности в сочетании с новейшей возможностью голосового диалога ai voice. самое большое значение выпуска этих моделей заключается в том, что meta завершила работу над всеми основными мультимодальными моделями, что закладывает прочную основу для интеграции оборудования ai и xr. в то же время несколько приложений искусственного интеллекта, анонсированные meta, такие как перевод искусственного интеллекта в реальном времени и цифровой человеческий искусственный интеллект в реальном времени, сравнимый с «her 2.0», также сделали шаг вперед в отраслевых решениях и могут стать убийственными приложениями. .

кроме того, сяо чжа назвал выпущенные на этот раз очки ar orion самыми мощными очками ar на поверхности. они также обеспечивают больше входов в будущий мир метавселенной. хотя он все еще не идеален, это также продукт, который воплощает в себе амбиции окончательной формы оборудования для пространственных вычислений искусственного интеллекта. по данным зарубежных сми, стоимость этого продукта превышает 10 000 долларов сша.

mate по-прежнему настаивает на продолжении продвижения по двум путям метавселенной и искусственного интеллекта и стремится объединить виртуальную реальность и искусственный интеллект посредством интеграции продуктов.

на конференции connect в 2024 году цукерберг еще раз показал миру заложенную им входную форму мира виртуальной реальности. мы увидели интеграцию виртуальности и реальности, интеграцию автономного управления и искусственного интеллекта, а также форму реального. продукции и интеграция будущего опыта эксплуатации.

цукерберг подводит итоги пресс-конференции: запустив 5 новых продуктов, meta усердно работает над построением более открытого будущего.

meta quest 3s уже здесь, цена снижена, но не материалы.

meta quest 3s появился первым, и на этот раз цена продукта редко сообщалась раньше, чем параметры и новые функции.

цукерберг хочет, чтобы все знали, что эти новые vr-очки продаются всего за 299,99 долларов, что на целых 200 долларов дешевле, чем у quest 3, выпущенного за тот же период в прошлом году. более того, у них не слишком много функций по сравнению с quest 3.

meta quest 3s имеет тот же чип qualcomm snapdragon xr2 gen 2 и 8 гб оперативной памяти, что и его «старший брат» quest 3, а это значит, что они обладают точно такой же вычислительной мощностью для вычислений данных.

в то же время quest 3s использует тот же контроллер touch plus, что и quest 3, и поддерживает технологию захвата движений глаз и рук.

даже quest 3s имеет более длительное время автономной работы. согласно официальным данным, предоставленным meta, quest 3s со встроенным аккумулятором емкостью 4324 мач может работать до 2,5 часов без подзарядки, тогда как quest 3 с аккумулятором большей емкости (5060 мач) может работать максимум 2,2 часа.

к сожалению, quest 3s является дешевым продуктом для очков виртуальной реальности, поскольку в нем не используется более распространенная оптическая структура pancake. он использует ту же линзу френеля, что и серии quest 1 и 2. этот дизайн относительно более элегантен. и недорогой, но это также означает, что его общий размер и вес будут больше, чем у quest 3.

но настоящая разница между двумя продуктами заключается в разнице в эффекте отображения: quest 3s использует быстропереключаемый жк-дисплей с разрешением 1832 x 1920 (20 пикселей ppd на градус) и частотой обновления 90/120 гц.

его горизонтальное и вертикальное поле обзора составляют всего 96 и 90 градусов, по сравнению с 2064 x 2208 пикселей quest 3 (25 пикселей ppd на градус), а также 110 градусов по горизонтали и 96 градусов по вертикали.

очевидно, что quest 3s на протяжении многих лет демонстрирует амбиции meta в рамках мечты о метавселенной. он использует очки виртуальной реальности с основными конфигурациями, которые близки к основным продуктам, но дешевле, чтобы способствовать популяризации очков vr среди более широкой базы пользователей.

еще одной движущей силой, побуждающей meta создавать такой продукт, является экосистема виртуальной реальности, которая все еще постепенно улучшается.

на пресс-конференции цукерберг заявил, что quest 3s будет поддерживать технологию dolby vision и добавит функцию распознавания экрана, которая сможет идентифицировать используемый компьютер и транслировать экран одним щелчком мыши. это расширяет возможности более широкого использования продуктов виртуальной реальности с головным креплением, таких как quest 3s.

однако meta напортачила одну вещь. во время живой демонстрации этой технологии quest 3s неожиданно вышел из строя, что вызвало взрыв аплодисментов аудитории, и цукербергу ничего не оставалось, как с этим разобраться.

впоследствии цукерберг показал последнюю версию horizon worlds. хотя она по-прежнему выглядит как «игровая домашняя» игра, она постепенно улучшается: в этом году в avantar была запущена многопользовательская функция youtube, надеюсь, это привлечет больше пользователей youtube.

что касается сторонних приложений, самый большой сюрприз преподносит «batman: arkham shadow», который выйдет 22 октября, будет в комплекте с новыми quest 3 и 3s и будет действовать до апреля следующего года. анонсированная ранее «alien: rogue invasion» и зомби-игра «arizona sunshine» также будут запущены на платформе quest. кроме того, meta также объявила, что запустит wordle (игру в слова, ежедневно публикуемую new york times) для quest.

да, кстати, для того, чтобы вы могли купить новый quest 3s, meta взяла на себя инициативу прекратить производство quest 2 и quest pro. после распродажи этих двух продуктов вы можете выбрать только один вариант. более дешевый quest 3s или более дешевый quest 3s. это quest 3 с более высокой конфигурацией.

сяо чжа сообщил, что здесь самая мощная торцевая модель llama 3.2.

meta запускает мультимодальную большую модель llama 3.2, облегченная версия может работать на мобильных телефонах

как и на прошлой конференции connect, главный герой этой конференции также незаменим: искусственный интеллект.

цукерберг анонсировал обновление 3.2 своей базовой модели llama. его большая модель доступна в версиях 90b и 11b, а торцевая модель доступна в размерах 1b и 3b.

сяо чжа продемонстрировал новую функцию продукта, разработанную для llama 3.2: загружая изображения, вы можете не только очищать и добавлять функции волшебной кисти, но и напрямую менять одежду персонажа на основе текстового описания и даже заменять текущий фон радугой.

согласно технической документации, предоставленной mata, llama 3.2 можно понимать как версию llama 3.1, поддерживающую мультимодальность. потому что meta не обновляет параметры своей языковой модели в процессе обучения распознаванию изображений.

что касается метода обучения, meta использует более традиционный метод. он добавляет адаптер изображений и кодировщик в llama3.1, использует модель diffusion для обучения соответствующего текста и изображений, а затем выполняет тонкую настройку содержимого домена.

наконец, на этапе корректировки модели после обучения llama 3.2 также использует несколько раундов контролируемой точной настройки, выборку отклонения (использование вспомогательного распределения для создания выборок и принятие или отклонение выборок в соответствии с определенной вероятностью) и прямое предпочтение. оптимизация. позвольте модели выровняться.

интересно, что в ходе этого процесса meta использовала llama 3.1 для создания нескольких наборов подписей к изображениям, чтобы оптимизировать описание изображения моделью.

meta использует llama 3.1 для создания нескольких наборов субтитров изображений для оптимизации описания изображения в модели.

согласно результатам испытаний, предоставленным meta, возможности графического мышления версии 90b llama 3.2 опережают gpt 4o-mini в нескольких тестах. версия 11b полностью превосходит версию haiku, уменьшенную версию claude 3.

цукерберг заявил, что клиентские версии 1b и 3b llama 3.2 будут самым мощным ии на стороне клиента.

в настоящее время он принимает ввод и вывод текста и поддерживает максимальную длину контекста 128 кб токенов. эти две конечные модели были обучены посредством обрезки (отсечения параметров с низким использованием в большой модели) и дистилляции (использование большой модели в качестве учителя и режима обучения основных параметров при обучении небольшой модели) на llama 3.1 8b и 70б. в ходе процесса тонкой настройки также были добавлены синтетические данные, предоставленные llama 3.1 405b, для оптимизации ее производительности в различных возможностях, таких как обобщение, переписывание, следование инструкциям, языковое рассуждение и использование инструментов.

пресс-конференция показала, что версия 3b llama 3.2 превзошла модель gemma 2 2b, выпущенную google в июне, и модель phi 3.5 3.8b, выпущенную microsoft в августе, по многим показателям, особенно когда речь идет о часто используемых терминальных функциях, таких как как резюме, следование командам и преимущество в баллах очевидно в задаче переписывания.

например, на тестовом наборе ifeval, проверяющем способность выполнять инструкции пользователя, версия llama 3.2 3b улучшается более чем на 20% по сравнению с phi 3.5 того же размера. в двух бенчмарках, проверяющих возможность вызова инструментов, llama 3.2 также имеет очевидные преимущества.

это позволяет llama 3.2 быть, по словам сяо чжа, на данный момент «самым сильным» с точки зрения практического применения на стороне устройства. однако с точки зрения основных способностей, таких как рассуждение и математика, лама 3.2 3b в основном отстает от фи 3.5 мини.

кроме того, эти модели поддерживают оборудование qualcomm и mediatek в день запуска и оптимизированы для процессоров arm.

в дополнение к llama 3.2, которая поддерживает мультимодальное понимание изображений, на этот раз meta также запустила meta ai voice на connect. выполнение всех основных мультимодальных функций одновременно. в живых демонстрациях, таких как gpt-4o, он может поддерживать прерывание диалога, и звук очень естественный, но, к сожалению, он не демонстрирует богатую интонацию и эмоциональную выразительность gpt-4o.

хотя производительность равна только gpt-4o, meta ai voice нашел новое преимущество: он предоставляет варианты голоса для 5 знаменитостей, таких как джуди денч из женщины-босса с холодным лицом в фильме 007 и героиня из «безумно богатых азиатов». . голос главного героя линь цзячжэня.

по сравнению с openai, на которую подали в суд по обвинению в краже голоса скарлетт йоханссон, meta в этом плане явно более надежна. по данным wall street journal, мета заплатила «миллионы долларов» за голос каждой знаменитости. некоторые знаменитости хотят ограничить использование их голосов и гарантировать, что они не будут нести ответственность в случае использования meta ai.

по данным reuters, celebrity voice будет запущен на этой неделе в сша и на других англоязычных рынках через семейство приложений meta, включая facebook, instagram и whatsapp.

помимо дополнения базовых возможностей модели, meta также продемонстрировала некоторые новые функции в приложениях искусственного интеллекта. эти функции в значительной степени поддерживаются существующими решениями искусственного интеллекта, но meta идет еще дальше. он также больше подходит для сценариев использования социальных сетей или очков искусственного интеллекта.

например, meta ai studio теперь поддерживает прямое создание цифровых человеческих систем искусственного интеллекта. в ходе живых демонстраций задержка разговоров с цифровыми людьми была очень низкой, а эффекты движения и звуки были реальными и естественными.

meta ai studio поддерживает непосредственное создание цифровых человеческих систем искусственного интеллекта.

представьте себе, что у вас есть ии, который разговаривает с вами таким реальным голосом и лицом, как ваш эмоциональный компаньон. я бы назвал его «видимой» ее 2.0.

положит ли это начало золотому веку сопутствующих продуктов искусственного интеллекта, еще предстоит проверить пользователям.

еще один замечательный продукт — перевод meta live. благодаря новым мультимодальным возможностям meta ai он может напрямую распознавать и заменять форму рта исходного языка на форму рта целевого языка. эта функция на самом деле была реализована такими компаниями, как heygen, но, учитывая широту охвата мета-приложений, она может стать первым полностью популярным сопутствующим продуктом.

хотя llama 3.1 уже является наиболее широко используемой разработчиками моделью с открытым исходным кодом, чтобы лучше расширить уровень приложений, meta также выпустила на конференции connect первую официальную версию инструмента разработки продуктов llama llama stack, которая может значительно упростить рабочий процесс. разработчиков, использующих модели llama в различных средах, а также может обеспечить развертывание в один клик таких инструментальных приложений, как rag и интегрированные функции безопасности.

выпуск llama 3.2 имеет большое значение для meta. он дополняет основные недостатки передовых мультимодальных моделей llama, а также обеспечивает основу для мультимодальных функций последующих аппаратных продуктов ai, таких как очки ray-ban, поддерживающие интеллект ai.

популярный продукт «очки ray-ban», куйте железо, пока горячо, и запускайте новые продукты

на прошлогодней конференции meta connect никто, возможно, не ожидал, что самым популярным продуктом станут не quest 3, а очки ai второго поколения, выпущенные meta и производителем очков ray-ban.

хотя первое поколение неизвестно, это не мешает энтузиастам технологий в европе и сша спешить с покупкой второго поколения умных очков ray-ban. согласно статистике idc, meta отгрузила более 700 000 пар очков ray-ban. , особенно объем заказов во втором квартале этого года, который выше, чем у первого поколения, увеличился более чем вдвое от квартала к кварталу. на протяжении всего жизненного цикла очков ray-ban meta по состоянию на май 2024 года их глобальные продажи превысили 1 миллион единиц, и рынок ожидает, что поставки за весь год в 2024 году превысят 1,5 миллиона единиц.

meta ударила, пока железо было горячо, и в этом году немедленно запустила свой новый продукт.

вместо того, чтобы говорить, что это новый продукт, лучше сказать, что это совершенно новый полупрозрачный стиль, потому что его общий дизайн точно такой же, как и в прошлом году.

но у него прозрачный корпус очков с более сильным чувством технологии - как и ожидалось, производители оборудования во всем мире имеют одинаковое понимание «чувства технологии», которое должно быть полупрозрачным.

meta добавила в это поколение очков больше функций искусственного интеллекта. самым большим улучшением является добавление функции распознавания изображений искусственного интеллекта в реальном времени, которая позволяет пользователям спрашивать очки ray-ban meta о сцене или объекте, который они в данный момент видят. пользователи также могут сканировать qr-коды прямо через свои очки и звонить по телефонным номерам, которые они видят.

кроме того, солнцезащитные очки также поддерживают функции напоминания, подобные смартфону, языковой перевод в реальном времени, включая английский на французский, итальянский или испанский, а также интеграцию с приложениями потоковой передачи музыки, такими как amazon music, audible и iheart radio.

ориан, высшая форма ar-очков по мнению меты?

orian должен был начать массовое производство уже давно, но из-за общего сокращения бюджета meta из-за эпидемии цукерберг решил отложить выпуск. в результате meta не выпустила свой первый продукт ar-очков до 2024 года.

это очки ar, которые весят всего 98 граммов, что не особенно легко среди очков ar.

рамы orian изготовлены из магниевого сплава, который легче алюминия и легче рассеивает тепло. линзы изготовлены из карбида кремния, который прочен, легок и имеет высокий показатель преломления, что позволяет свету, излучаемому проектором на очки, распространяться на большую зону просмотра.

но называть ориана очками дополненной реальности, кажется, не совсем строго. если он хочет работать правильно, ему необходимо взаимодействовать с браслетом и вычислительным телом.

вычислительный корпус обеспечивает большую вычислительную мощность, и очки не могут работать отдельно от него. если вы хотите нормально использовать ориан, вам придется постоянно носить вычислительный корпус рядом с собой.

браслет выполняет более интересную работу: он изготовлен из высокопроизводительных текстильных материалов и использует электромиографию (эмг) для понимания нейронных сигналов, связанных с жестами. в течение нескольких миллисекунд эти сигналы преобразуются во входные сигналы и передаются вычислительному агенту, что немного похоже на научно-фантастический фильм.

что касается дисплея, orion имеет поле зрения 70 градусов и оснащен проектором micro led в рамке, который может проецировать изображения на кремниевую подложку линзы. это аналогично принципу работы всех современных очков ar. .

цукерберг выразил надежду, что люди будут использовать orion для двух основных целей: общения с цифровой информацией, наложенной на реальный мир, и взаимодействия с искусственным интеллектом.

последнее легче понять. orion обладает теми же возможностями искусственного интеллекта, что и очки ray-ban meta, включая новые возможности распознавания изображений и возможности языкового взаимодействия.

первое более абстрактно. на месте происшествия meta продемонстрировала сцену, сочетающую голографические изображения с реальным миром. meta разработала для этих очков ar-версию приложения messenger, которая может осуществлять видеозвонки с голографической проекцией в реальном времени, как если бы собеседник стоял рядом. ты.

чтобы продвигать очки ar, meta также представила хуан ренсюня как первую волну пользователей, познакомившихся с orion, и сказала: «хуан попробовал и сказал, что это хорошо»!

по мнению цукерберга, развитие ar-очков будет постепенным процессом. с одной стороны, очки искусственного интеллекта без дисплея, такие как ray-ban meta, будут популяризироваться быстрее.

с другой стороны, его будут популяризировать очки с небольшими дисплеями, такие как будущая hypernova от meta, которые могут обеспечить более простое сенсорное взаимодействие, например, взаимодействие с meta ai или общение с друзьями.

сяо чжа сказал, что orion представляет собой окончательную форму ar-очков: зрелые ar-очки обладают достаточной вычислительной мощностью, чтобы вы могли оставить свой смартфон дома.

при этом, несмотря на то, что мы отделены от мобильного телефона, нам все равно приходится брать с собой компьютерное тело, когда мы выходим из дома, что еще далеко от окончательной формы, которую мы себе представляли.

кроме того, тут же вовремя наливается тазик с холодной водой: время автономной работы «ориона» составляет всего 2 часа. проще говоря, орион может позволить вам побыть супергероем в виртуальном мире только 2 часа.

а реализация максимальной свободы ar-очков может стоить не так уж и дешево. по сообщениям зарубежных сми, таких как the verge и techcrunch, при демонстрации тестовой машины сотрудники meta заявили, что текущая стоимость оборудования orion превышает 10 000 долларов сша. это означает, что цена этого продукта намного выше, чем у apple vision pro.

заключение

от провала метавселенной в 2022 году и насмешек со стороны многих сторон до того, чтобы стать королем искусственного интеллекта с открытым исходным кодом в 2023 году, а затем в этом году использовать умные очки, чтобы открыть дверь новому поколению аппаратного обеспечения искусственного интеллекта. за последние три года цукерберг осуществил почти невозможную контратаку.

за этот период два его важных решения: создание искусственного интеллекта с открытым исходным кодом и разработка легких умных очков — сегодня воплотились в жизнь в connect.

на примере очков ray-ban, оснащенных функциями искусственного интеллекта, мы действительно увидели преимущества очков в качестве носителя в эпоху искусственного интеллекта: они могут не только использовать голос для вызова крупных моделей, но и самым непосредственным образом использовать потенциал мультимодального ии. прямой «просмотр» является гораздо более естественным для пользователя, чем «сканирование» с помощью мобильного телефона. и эта прямота, вероятно, определит переход к следующему поколению умных устройств.

последний выпущенный orion — это будущая работа, которая несет в себе амбиции создания окончательной формы оборудования для пространственных вычислений с искусственным интеллектом. по сравнению с тяжелым и неудобным vision pro, легкий mr-зритель сяо чжа больше похож на будущее пространственных вычислений. и теперь это видение обрело форму. если миграции интеллектуальных устройств в эпоху искусственного интеллекта суждено произойти, meta — компания, которая ближе всего к своему порогу по сравнению с небольшими попытками, такими как ai pin.

если поговорить обо всем этом с человеком в 2022 году, он точно не поверит.цукерберг, технический ботаник, который кажется немного сомнительным, действительно сдерживает свое обещание и подводит нас все ближе и ближе к входу в метавселенную.