моя контактная информация
почта[email protected]
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
отчет о сердце машины
редакция «машинное сердце»
новая архитектура, вдохновленная c. elegans, все три «формы чашек» могут достигать производительности sota и могут быть развернуты в средах с очень ограниченными ресурсами. мобильным роботам могут понадобиться мозги жуков.
в эпоху больших моделей трансформер, предложенный google в 2017 году в основополагающей статье «внимание — это все, что вам нужно», стал основной архитектурой.
однако liquid ai, стартап, основанный бывшими исследователями из лаборатории компьютерных наук и искусственного интеллекта массачусетского технологического института (csail), пошел по другому пути.
liquid ai заявляет, что их цель — «изучить способы создания моделей, выходящих за рамки базового генеративного предварительно обученного трансформатора (gpt)».
для достижения этой цели liquid ai запустила свои первые мультимодальные модели искусственного интеллекта: liquid foundation models (lfm). это новое поколение генеративных моделей искусственного интеллекта, построенное на основе основных принципов: lfm 1b, 3b и 40b обеспечивают производительность sota во всех масштабах, сохраняя при этом меньший объем памяти и более эффективный вывод.
директор по постобучению liquid ai максим лабонн сказал на x, что lfm — это версия, которой он больше всего гордится в своей карьере. основное преимущество lfm заключается в том, что они могут превосходить модели на основе transformer, занимая при этом меньше памяти.
некоторые говорят, что лфм — это терминатор трансформера.
некоторые пользователи сети похвалили lfm как переломный момент.
некоторые пользователи сети полагают, что «возможно, пришло время отказаться от трансформеров. эта новая архитектура выглядит очень многообещающе».
liquid ai выпускает три модели
модельный ряд lfm доступен в трех различных размерах и вариантах:
интенсивный lfm 1,3b (минимум), идеально подходит для сред с очень ограниченными ресурсами.
плотный lfm 3b, оптимизированный для развертывания на периферии.
модель lfm 40.3b moe (самая крупная экспертная гибридная модель, похожая на mistral), предназначенная для решения более сложных задач.
производительность сота
сравнение lfm-1b с аналогичными моделями. lfm-1b получил высшие баллы во всех тестах производительности, что делает его самой продвинутой моделью в своем масштабе. это первый случай, когда архитектура без gpt значительно превосходит модели на основе transformer. например, lfm 1.3b превзошёл llama 3.2-1.2b от meta и phi-1.5 от microsoft в сторонних тестах.
lfm-3b обеспечивает невероятную производительность, занимая первое место по сравнению с моделями трансформаторов 3b, гибридными моделями и моделями rnn. он также сопоставим с phi-3.5-mini в нескольких тестах производительности, но при этом на 18,4% меньше. видно, что lfm-3b идеально подходит для мобильных и других текстовых приложений.
lfm-40b обеспечивает новый баланс между размером модели и качеством вывода. он может активировать 12b параметров во время выполнения с производительностью, сравнимой с более крупными моделями, а архитектура moe обеспечивает более высокую пропускную способность и может быть развернута на более экономичном оборудовании.
эффективная память
lfm занимает меньше памяти по сравнению с архитектурой transformer. это особенно актуально для длинных входных данных, поскольку кэш kv в llm на основе transformer растет линейно с длиной последовательности. эффективно сжимая входные данные, lfm может обрабатывать более длинные последовательности на одном и том же оборудовании. lfm занимает меньше всего памяти по сравнению с другими моделями класса 3b. например, lfm-3b требует всего 16 гб памяти, а llama-3.2-3b от meta требует более 48 гб памяти.
lfm действительно использует длину контекста
в таблице ниже сравнивается производительность нескольких моделей при разной длине контекста.
это эффективное контекстное окно впервые позволяет выполнять задачи с длинным контекстом на периферийных устройствах. для разработчиков это открывает новые приложения, включая анализ и обобщение документов, более значимое взаимодействие с контекстно-зависимыми чат-ботами и улучшенную производительность генерации с расширенным поиском (rag).
эти модели конкурентоспособны не только по показателям производительности, но и по эксплуатационной эффективности, что делает их идеальными для самых разных случаев использования: от приложений корпоративного уровня до передовых финансовых услуг, биотехнологий и развертывания оборудования.
пользователи могут получить к нему доступ через lambda chat или perplexity ai и т. д.
как liquid выходит за рамки генеративного предварительно обученного трансформатора (gpt)
liquid использует гибрид вычислительных блоков, глубоко укоренившихся в теориях теории динамических систем, обработки сигналов и числовой линейной алгебры. результатом стала разработка моделей искусственного интеллекта общего назначения, которые можно использовать для моделирования любого типа данных последовательности, включая видео, аудио, текст, временные ряды и сигналы, для обучения нового lfm.
еще в прошлом году liquid ai использовал метод под названием lnn (жидкие нейронные сети). в отличие от традиционных моделей глубокого обучения, которые требуют тысяч нейронов для выполнения сложных задач, lnn показывает, что меньшее количество нейронов (в сочетании с инновационными математическими формулами) может достичь того же самого. результаты.
новые модели liquid ai сохраняют основное преимущество этой адаптивности, позволяя вносить корректировки в режиме реального времени во время вывода без вычислительных затрат, связанных с традиционными моделями. может эффективно обрабатывать до 1 миллиона токенов при минимальном использовании памяти.
например, с точки зрения объема памяти для вывода модель lfm-3b превосходит популярные модели, такие как gemma-2 от google, phi-3 от microsoft и llama-3.2 от meta, особенно когда длина токена увеличена.
в то время как другие модели испытывают резкое увеличение использования памяти при обработке длинных контекстов, lfm-3b занимает гораздо меньше места, что делает его идеальным для приложений, требующих интенсивной последовательной обработки данных, таких как анализ документов или чат-боты.
liquid ai построил свою основополагающую модель как универсальную модель для нескольких модальностей данных, включая аудио, видео и текст.
благодаря этим мультимодальным возможностям liquid стремится решать различные отраслевые задачи, начиная от финансовых услуг и заканчивая биотехнологиями и бытовой электроникой.
liquid ai оптимизирует свои модели для продуктов различных производителей оборудования, включая nvidia, amd, apple, qualcomm и cerebras.
liquid ai приглашает первых пользователей и разработчиков протестировать свои новые модели и оставить отзывы. хотя модель еще не идеальна, компания планирует использовать отзывы для улучшения продукта. официальную презентацию они проведут 23 октября 2024 года в массачусетском технологическом институте.
стремясь поддерживать прозрачность и продвигать науку, компания планирует опубликовать серию технических сообщений в блоге перед запуском. они также призывают пользователей проводить тестирование красной командой, чтобы изучить ограничения модели и помочь улучшить будущие версии.
lfm, представленный liquid ai, сочетает в себе высокую производительность и эффективное использование памяти, обеспечивая мощную альтернативу традиционным моделям на базе transformer. это позволяет ожидать, что liquid ai станет важным игроком в области базовых моделей.
жидкий ии: начиная с крошечной ошибки
этот стартап, который открыто конкурирует с openai и другими крупными компаниями, занимающимися языковыми моделями, был инициирован лабораторией компьютерных наук и искусственного интеллекта массачусетского технологического института csail и основан в марте 2023 года.
в декабре 2023 года компания получила начальный раунд финансирования в размере 37,5 млн долларов сша при оценке в 300 млн долларов сша.
в число инвесторов входят соучредитель github том престон вернер, соучредитель shopify тобиас лютке, сооснователь red hat боб янг и др.
даниэла рус, директор mit csail, является одной из основателей компании. этот известный робототехник и ученый-компьютерщик также является первой женщиной-директором лаборатории.
помимо даниэлы рус, все трое других соучредителей liquid ai были постдокторантами в mit csail.
соучредитель и генеральный директор рамин хасани был главным ученым в области искусственного интеллекта в vanguard, одной из крупнейших компаний по управлению фондами в сша, прежде чем заняться постдокторскими исследованиями в mit csail.
соучредитель и технический директор матиас лехнер изучал нервную структуру нематод вместе с хасани еще когда они были студентами венского технического университета.
соучредитель и главный научный сотрудник александр амини был аспирантом даниэлы рус.
четыре основателя (слева направо): генеральный директор рамин хасани, даниэла рус, главный научный сотрудник александр амини и технический директор матиас лехнер.
в 2017 году даниэла рус «откопала» хасани и лехнера в mit csail, а рус и ее аспирантка амини также присоединились к исследованиям жидких нейронных сетей.
даниэла рус отметила, что генеративный ии имеет очевидные ограничения с точки зрения безопасности, интерпретируемости и вычислительной мощности, что затрудняет его использование для решения проблем роботов, особенно мобильных роботов.
вдохновленная нейронной структурой нематоды caenorhabditis elegans, «частого гостя» в научно-исследовательском сообществе, даниэла рус и постдокторанты в ее лаборатории разработали новый тип гибкой нейронной сети, также известный как жидкая нейронная сеть.
caenorhabditis elegans также является единственным организмом, для которого завершено определение коннектома (по состоянию на 2019 год). хотя мозг прост, он гораздо лучше обучается и адаптируется к окружающей среде, чем любая современная система искусственного интеллекта.
caenorhabditis elegans имеет длину всего 1 мм, имеет всего 302 нейрона и 96 мышц, но способен к сложному интеллектуальному поведению, такому как зондирование, побег, поиск пищи и спаривание.
это простейший живой разумный агент и самый маленький носитель для реализации общего искусственного интеллекта посредством моделирования биологических нейронных механизмов.
в последние годы научные исследователи также использовали результаты исследований нервов c. elegans для проведения компьютерного биологического моделирования. изучая, как работает мозг c. elegans, даниэла рус и другие разработали «жидкие сети постоянного времени»:
модель непрерывного времени, состоящая из множества простых динамических систем, которые регулируют друг друга через нелинейные элементы.
если мы скажем, что стандартная нейронная сеть подобна слою равномерно расположенных плотин, со множеством клапанов (грузов), установленных на каждом слое плотин, то рассчитанный поток должен проходить через эти клапаны каждый раз, когда он проходит через слой плотин, а затем спешите на следующий уровень.
что ж, жидким нейронным сетям не нужны дамбы, потому что каждый нейрон управляется дифференциальным уравнением (оду).
этот тип сети характеризуется переменными постоянными времени, а результат получается путем решения дифференциальных уравнений. исследования показывают, что он превосходит традиционные модели с точки зрения стабильности, выразительности и прогнозирования временных рядов.
позже даниэла рус и другие предложили метод аппроксимации, который может использовать решения в замкнутой форме для эффективного моделирования взаимодействия между нейронами и синапсами (нейронные сети с непрерывным временем в закрытой форме), что не только значительно улучшило расчет модели скорость, но и демонстрирует лучшую масштабируемость и хорошо работает при моделировании временных рядов, превосходя по производительности многие продвинутые модели рекуррентных нейронных сетей.
члены команды liquid ai заявили, что архитектура подходит для анализа любого явления, которое колеблется с течением времени, включая обработку видео, автономное вождение, мониторинг мозга и сердца, финансовую торговлю (котировки акций) и прогнозы погоды.
помимо гибкости, подобной жидкости, еще одной характеристикой жидких нейронных сетей является то, что они намного меньше по масштабу, чем генеративные модели ии, которые часто имеют миллиарды параметров.
например, lfm 1.3b, который может быть развернут в средах с очень ограниченными ресурсами, имеет только 1,3b параметров (аналогично максимальной версии 1.5b gpt-2), сохраняя при этом меньший объем памяти и более эффективный вывод, и может быть используется в различных запусках на аппаратной платформе робота.
кроме того, жидкие нейронные сети также имеют преимущество интерпретируемости благодаря своему небольшому размеру и простой архитектуре.
однако еще неизвестно, как новая архитектура будет конкурировать с основными моделями конкурентов, таких как openai.
хасани сказал, что liquid ai в настоящее время не планирует разрабатывать такие приложения, как chatgpt, для потребителей. компания в первую очередь ориентируется на корпоративных клиентов, желающих моделировать финансовые и медицинские исследования.
справочные ссылки:
https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/
https://arxiv.org/abs/2106.13898
https://arxiv.org/abs/2006.04439
https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai