опять оживленно! официально открыта расширенная версия openai «her», превосходящая «производительную» версию gemini...

опять оживленно! официально открыта расширенная версия openai «her», превосходящая «производственное» обновление gemini…

2024-09-25

автор｜джессика

электронная почта | джессикачжан@pingwest.com

сегодня действительно оживленный день в кругу ии, которого давно не было!

меня смутило эссе об ии, опубликованное вчера ультраменом, и теперь цель его операции ясна.

ультрачеловек хочет атаковать своего старого врага google. точнее, это две обновленные модели gemini, которые google только что обновил: gemini-1.5-pro-002 и gemini-1.5-flash-002.

снайперский метод прост и груб: прямо объявите, что сегодня будет официально открыта долгожданная голосовая функция gpt.

менее чем за два часа google был оторван от с трудом завоеванного google момента. если бы я был google, я бы так разозлился.

расширенный голос gpt уже здесь и говорит на более чем 50 языках.

openai сообщила, что на этой неделе расширенный голосовой режим chatgpt будет постепенно доступен всем пользователям plus и team.

пока люди терпеливо ждут, команда улучшила некоторые функции, в том числе добавила пользовательские команды, функции памяти, 5 новых голосов и улучшенные акценты.

поскольку об этом говорили слишком долго, openai сделала специальное заявление: «он может сказать «извините, я опоздал» более чем на 50 языках».

и приведите пример перехода с английского на китайский: «бабушка, прости, я опоздал. я не хотел заставлять тебя ждать так долго, как я могу тебе отплатить?»

——хороший парень, теперь ты стал бабушкой гпт, заставив меня простить тебя.

как видно на видео, речевой режим теперь представлен пульсирующей синей сферой, а не черной анимированной точкой, которую openai использовала при демонстрации технологии в мае.

когда доступ будет предоставлен, в приложении появится всплывающее окно. сначала он будет открыт для пользователей уровней plus и teams, а начиная со следующей недели он будет распространен на корпоративных и образовательных пользователей.

chatgpt также добавляет пять новых голосов для опыта: arbor, maple, sol, spruce и vale. на данный момент, плюс предыдущие breeze, juniper, cove и ember, общее количество голосов chatgpt достигло 9 (количество голосов google gemini live — 10).

возможно, вы также заметили, что все эти названия вдохновлены природой: от «клен» и «ветер» до «солнце» и «долина», возможно, для того, чтобы их использование выглядело более естественным. единственным голосом, который отсутствовал, был sky, голос, который openai продемонстрировал на своем весеннем запуске, но был отозван из-за юридического спора со скарлетт йоханссон, звездой фильма «она».

openai также расширил некоторые функции настройки chatgpt до расширенных голосовых режимов, включая функцию «пользовательской команды», которая позволяет пользователям персонализировать ответы, и функцию памяти, которая позволяет chatgpt запоминать разговоры для использования в будущем.

например, на видео ниже в пользовательском меню chatgpt в настройках системы введите «меня зовут шарлотта, и я живу в районе залива сан-франциско». когда вас спросят о мероприятиях на свежем воздухе на выходных, gpt позвонит пользователю шарлотте. предоставляет рекомендации, соответствующие местной погоде и пробкам.

openai сообщила, что команде удалось улучшить скорость ответа, беглость и акцент на некоторых иностранных языках. голос подстраивается под тон разговора, и вы можете создавать сцены, в которых он будет играть разные роли. задержка звука очень низкая, а понимание более четкое. это действительно похоже на естественный разговор с другим человеком.

однако функции видео и совместного использования экрана, которые openai продемонстрировал четыре месяца назад, на этот раз не были обновлены. в то время сотрудники спрашивали gpt о математических задачах на бумаге и кодах на экране компьютера и получали ответы в режиме реального времени посредством естественного голосового диалога. в настоящее время openai не предоставил график развертывания этой мультимодальной функции.

кроме того, расширенный голосовой режим временно недоступен для стран европейского союза, великобритании, швейцарии, исландии, норвегии, лихтенштейна и других регионов.

несмотря на это, возможность, наконец, опробовать «ее» версию openai — это действительно захватывающая вещь для людей, которые устали от круга ии. в сочетании с предварительным обзором o1, который только что вызвал волну ажиотажа, openai прочно контролировал индустрию еще на неделю.

из-за этого волнения у всех также началась периодическая амнезия:

кстати, что сегодня выложил гугл?

gemini 1.5 обновляет две новые модели, цена снижается вдвое, а скорость увеличивается.

обновление google на этот раз на самом деле очень важно, по крайней мере, для разработчиков.

как сообщает блог google, на этот раз они обновили две серийные модели gemini: gemini-1.5-pro-002 и gemini-1.5-flash-002. так называемый «производственный уровень» означает, что модель ии полностью разработана, протестирована и оптимизирована и готова к коммерческому развертыванию. она может обрабатывать большое количество запросов пользователей и применяться к продуктовым услугам, а не только к ним. эксперименты или исследования.

являясь крупным обновлением моделей серии gemini 1.5, представленных на конференции i/o в мае этого года, новые модели стали быстрее, мощнее и экономичнее.

основные моменты резюмируются следующим образом:

1. значительное снижение цен: входные и выходные цены 1.5 pro упали примерно на 50%, что значительно снизило стоимость сборки, особенно для советов размером менее 128 000 токенов.

2. общее улучшение качества. в частности, значительное улучшение производительности в математике, генерации кода, длинном текстовом контексте и визуальных задачах, включая увеличение примерно на 20 % в тестах производительности, таких как math и hiddenmath, и увеличение на 2–7 %. в визуальных и кодовых приложениях.

3. увеличение лимита скорости. ограничение скорости для 1,5 flash и 1,5 pro было увеличено со 1000 об/мин (запросов в минуту) и 360 об/мин до 2000 и 1000 об/мин соответственно, что позволяет разработчикам быстрее создавать и обрабатывать задачи.

4. более быстрый вывод и меньшая задержка. скорость вывода увеличивается в 2 раза, а задержка снижается в 3 раза, обеспечивая поддержку более эффективных сценариев применения.

5. более краткие ответы: стиль ответа более краткий, менее затратный, а длина вывода сокращается на 5–20%. это также снижает количество отказов и уклонений по многим темам и сохраняет высокую полезность.

6. поддержка мультимодальных и длинных контекстов: контекстное окно длиной 2 миллиона токенов 1.5 pro поддерживает обработку длинного текста и мультимодальных задач, таких как создание контента в 1000-страничных pdf-файлах или длинных видео.

7. обновлены настройки фильтрации. фильтр безопасности модели по умолчанию больше не применяется автоматически, и разработчики могут при необходимости настраивать параметры безопасности модели.

разработчики могут бесплатно получить доступ к двум последним моделям через google ai studio и gemini api. новая модель также доступна на vertex ai для крупных организаций и клиентов google cloud.

gemini окутана тенью gpt

однако, по сравнению с аналогами, многие обычные пользователи выразили разочарование по поводу решения google, посчитав, что это даже не настоящий «релиз».

генеральный директор abacus.ai и известный блоггер бинду редди сказал: «увы, openai выпустила o1, который прошел тест на iq, в то время как google только что сделал несколько незначительных обновлений для gemini 1.5. у них в 100 раз больше ресурсов, в 10 раз больше талантов и в 10 раз больше талантов». раз из всех вещей, как это могло случиться?»

хотя некоторые разработчики по-прежнему высказываются от имени google, например, пользователь сети на дискуссионном форуме reddit сказал:

«это полезные вещи для людей, которые на самом деле создают приложения и пытаются сократить затраты и увеличить прибыль. приложение, над которым я работаю, имеет фиксированную стоимость за операцию, определяемую длиной токена, что составляет мою прибыль. это примерно на 30% больше. это улучшение может не иметь большого значения для большинства людей. я знаю, что многие будут недовольны этим «объявлением» от google, но на самом деле это хорошее обновление для разработчиков».

цена снижена вдвое, увеличена скорость и уменьшена задержка. это действительно то, чего хотят разработчики. но, как все уже говорили, привлекательность может быть ограничена сообществом разработчиков.

даже некоторые разработчики усмехнулись: «я не вижу сравнения с клодом или o1, и мы собираемся представить следующее поколение моделей openai и anthropic. у deepmind на самом деле есть гораздо более совершенные модели, но они переходят непосредственно на корпоративную линейку». в обход volkswagen. действительно ли gemini впечатляет? совсем нет, просто разочаровывает».

плохое наименование моделей google также было высмеяно пользователями сети, которые посчитали его длинным и запутанным.

the information недавно опубликовала статью под названием «почему разработчики искусственного интеллекта пропускают gemini от google». в интервью с основателями нескольких компаний, занимающихся искусственным интеллектом, и внутренними сотрудниками google, он рассказывает историю о том, как gemini была «брошена» разработчиками, а также о препятствиях и трудностях, с которыми она столкнулась, пытаясь догнать chatgpt.

например, по сравнению с конкурирующими технологиями вызов gemini слишком сложен для разработчиков и предприятий. основатель топологии эйдан маклафлин рассказал, что первое использование api openai заняло у него всего 30 секунд, а использование gemini — 4 часа. в то же время производительность больших моделей google отстает от openai и anthropic, и преодолевать эти препятствия не стоит.

по сравнению с chatgpt, непопулярность gemini среди разработчиков в реальном мире, похоже, не является секретом.

июньский опрос более 750 технологических сотрудников, проведенный стартапом корпоративного программного обеспечения retool, показал, что только 2,6% респондентов заявили, что чаще всего используют gemini для создания приложений искусственного интеллекта, при этом более 76% предпочитают использовать gpt.

данные о трафике веб-сайта, отслеживаемые подобные веб-сайтом, показывают, что в период с июня по август страница разработчика приложений openai получила 82,8 миллиона просмотров страниц, в то время как страницы google были просмотрены 8,4 миллиона раз.

небольшие неофициальные опросы предоставляют аналогичные данные. в конце прошлого месяца основатель finetune джулиан сакс спросил 50 разработчиков стартапов в области ии в своем коворкинге в сан-франциско, какие модели диалогового ии они используют чаще всего. почти все сказали, что в основном используют модели от anthropic или openai, и никто не упомянул gemini.

хотя модель gemini полезна при анализе длинных документов или длинных баз кода, многие разработчики говорят, что варианты модели google разнообразны, шаги сложны, а система разработки отличается от системы openai и ее сложнее использовать. а иногда различные сервисы google конкурируют друг с другом в результатах поиска, из-за чего люди легко застревают, пытаясь разобраться в инструментах.

по этой причине близнецов часто высмеивают на x. брендан долан-гавитт, исследователь искусственного интеллекта в стартапе по безопасности xbow, стал вирусным в начале этого месяца, когда опубликовал твит с подробным описанием многочисленных шагов, которые он предпринял, чтобы начать работу с gemini через vertex. другие разработчики обратились в раздел комментариев, чтобы выразить свое сочувствие.

в среде, где «ведущие инженеры мира используют openai, claude или cursor», разработчикам действительно не нужно пробовать что-то еще. с другой стороны, снижение использования не позволит gemini получать столько же данных, сколько chatgpt, в результате чего google столкнется с более двусмысленной дорожной картой по улучшению модели.

разочарование, потому что люди так многого ждут от google

google пытается изменить это восприятие, в том числе отвечая на критику gemini on x, привлекая под свое крыло больше звездных технических экспертов из таких компаний, как openai, и объединяя некоторые дублирующиеся функции разработки. они также продвигают gemini, проводя мероприятия для разработчиков.

сегодня, одновременно с запуском gemini-1.5-pro-002, также проводится онлайн-мероприятие gemini for work. google тратит много места для продвижения текущих приложений gemini в таких компаниях, как best buy, snap, ups capital. вэйфэр и т. д. сообщается, что они пытаются привлечь больше крупных корпоративных клиентов, предоставляя определенный уровень услуг «в белых перчатках».

но перед лицом укоренившейся доли рынка контратака google может оказаться не такой простой.

логан килпатрик, руководитель продукта в ai studio, который отвечал за отношения с разработчиками в openai до того, как присоединился к нему в апреле этого года, сказал: «реальность такова, что openai опережает google с точки зрения инструментов разработки llm api. нам приходится конкурировать с их текущие усилия разработчиков по развитию. борьба за укоренившуюся долю рынка».

ранее роуэн чунг, известный блоггер в сфере ии, предсказал, что завершил интервью о серьезном обновлении модели ии. сегодня разработчиков ждет важный день.

под этим твитом улыбающееся лицо логана килпатрика выглядело немного смущенным среди большого количества сожалений, говорящих: «почему это не claude opus 3.5?»

консервативные, противоречивые и отстающие — вот стереотипы, которые google, гигант искусственного интеллекта, оставил сегодня в сообществе. запуск gemini-1.5-pro-002, похоже, не выведет из этого тупика.

разочарование людей в этой компании проистекает из больших ожиданий от нее: с таким сильным запасом сил и талантов было бы жаль, что все не смогут предоставить миру больше вариантов «замены» openai.

новости

опять оживленно! официально открыта расширенная версия openai «her», превосходящая «производственное» обновление gemini…

введение

моя контактная информация