робин ли разоблачает иллюзию «текущего рейтинга» крупных моделей: список не отражает всех сильных сторон, а в будущем разрыв между моделями станет еще больше

робин ли разоблачает иллюзию «текущих результатов» крупных моделей: список не отражает всех сильных сторон, и в будущем разрыв между моделями станет больше.

2024-09-12

всякий раз, когда выпускается новая версия большой модели, отрасль всегда стремится ссылаться на данные сторонних списков, «подводить итоги» своей собственной большой модели и gpt-4, утверждая, что она превзошла определенные показатели. доказать свою техническую мощь на крупных моделях.

но в недавнем разговоре между председателем baidu робином ли и внутренними сотрудниками он сломал «окно», которое препятствует сравнительному анализу в крупной модельной индустрии. "каждый раз, когда выходит новая модель, ее необходимо сравнивать с gpt-4o. говорят, что мой результат практически равен ей, а по некоторым отдельным пунктам даже превосходит ее, но это не значит, что разрыва нет. с самыми передовыми моделями».

далее он пояснил, что разрывы между моделями многомерны. одним из аспектов является аспект способностей, будь то разрыв в базовых способностях, таких как способность к пониманию, способности к генерации, способности к логическому рассуждению или способности к памяти, другой аспект - это аспект стоимости. хотя некоторые модели могут достичь того же эффекта, цена является такой же. высокая, а скорость рассуждения низкая, на самом деле она все еще уступает продвинутым моделям.

«также наблюдается переобучение тестового набора. каждая модель, которая хочет доказать свои возможности, попадет в рейтинг. при составлении рейтинга ему придется угадать, что тестируют другие и какие методы я могу использовать, чтобы получить это». да, судя по списку или тестовому набору, вы думаете, что возможности очень близки, но в реальных приложениях все еще существует явный разрыв», — сказал робин ли.

крупный практикующий специалист по моделированию рассказал журналистам, что переподбор (переподбор) тестового набора, упомянутый робином ли, в основном относится к тому факту, что в процессе обучения модели модель слишком тщательно изучает данные обучения, поэтому модель не не очень хорошо работает с обучающими данными. производительность очень хорошая, но производительность низкая на невидимых тестовых данных. обычно это означает, что модель настолько сложна, что способна «запоминать» шум и детали в обучающих данных, но эти детали и шум не являются общими, и поэтому модель плохо обобщается на новые данные.

вышеупомянутые люди считают, что действительно существуют ограничения на ранжирование и начисление баллов. например, из-за открытости набора оценочных данных модель можно целенаправленно обучать для улучшения рейтинга, что приводит к явлению «. пролистывание рейтинга». однако это не совсем бессмысленно. рейтинг по-прежнему относительной. он обеспечивает стандарт количественной оценки, помогающий людям быстро понять производительность различных крупных моделей, побуждает всех постоянно оптимизировать технический уровень крупных моделей посредством конкуренции, а также играет определенную роль в рекламе и продвижении.

по мнению робина ли, «ажиотаж в средствах массовой информации в сочетании с мотивацией огласки при выпуске каждой новой модели создает у всех впечатление, что разница в возможностях между моделями относительно невелика. на самом деле это не так. робин ли сказал, что при фактическом использовании baidu не позволяет техническому персоналу составлять рейтинги. реальное измерение возможностей больших моделей должно проводиться в конкретных сценариях применения, чтобы увидеть, могут ли они удовлетворить потребности пользователей и обеспечить прирост стоимости.

что касается «12 месяцев вперед или 18 месяцев назад», о которых часто упоминают в крупной модельной индустрии, он считает, что это не так уж и важно. поскольку каждая компания находится в полностью конкурентной рыночной среде, вне зависимости от того, в каком направлении она движется, существует множество конкурентов. «если вы всегда можете гарантировать, что будете опережать своих конкурентов на 12–18 месяцев, вы будете непобедимы. не думайте, что 12–18 месяцев — это короткий период времени. даже если вы можете гарантировать, что вы всегда будете опередив своих конкурентов на 6 месяцев, вы выиграете. ваша доля рынка может составлять 70%, тогда как у вашего оппонента может быть только 20% или даже 10%.

он считает, что в будущем разрыв между большими моделями может увеличиться. поскольку потолок крупных моделей очень высок, он все еще далек от идеальной ситуации. поэтому модель необходимо постоянно повторять, обновлять и быстро совершенствовать, в нее должна быть возможность непрерывно инвестировать в течение нескольких лет или более десяти лет; постоянно удовлетворять потребности пользователей, снижать затраты и повышать эффективность.

в дополнение к обсуждению вопроса о том, существуют ли какие-либо барьеры для конкуренции в крупных моделях, во время обмена мнениями робин ли также упомянул, что существует довольно много недопониманий относительно больших моделей, включая такие темы, как эффективность моделей с открытым и закрытым исходным кодом, а также искусственный интеллект. агент.

робин ли является убежденным сторонником больших моделей с закрытым исходным кодом: «до эпохи больших моделей все привыкли к открытому исходному коду, что означает бесплатность и низкую стоимость». он объяснил, что, например, linux с открытым исходным кодом, потому что компьютеры уже существуют. используется linux. это бесплатно. но это не так в эпоху больших моделей. вывод больших моделей очень дорог, а модели с открытым исходным кодом не обеспечивают вычислительную мощность. вам приходится покупать собственное оборудование, которое не может обеспечить эффективное использование вычислительной мощности.

«модель с открытым исходным кодом неэффективна с точки зрения эффективности». он сказал: «если быть точным, модель с закрытым исходным кодом следует называть бизнес-моделью. она позволяет бесчисленному количеству пользователей разделить затраты на исследования и разработки, а также машинные ресурсы и графические процессоры, используемые для этого. рассуждение: эффективность использования графического процессора является самой высокой. статья baidu. использование графического процессора моделей xinda 3.5 и 4.0 достигло более 90%.

робин ли проанализировал, что в таких областях, как преподавание и научные исследования, модель с открытым исходным кодом ценна, но в коммерческой сфере, когда стремление к эффективности, результативности и минимальным затратам, модель с открытым исходным кодом не имеет преимуществ;

он также высказал свои взгляды на эволюцию приложений больших моделей. первый — copilot, который помогает людям; следующий — agent intelligence, который обладает определенной степенью автономности и может использовать инструменты независимо, размышлять и саморазвиваться; если этот уровень автоматизации будет развиваться дальше, он станет ии-работником, который сможет самостоятельно выполнять все аспекты работы.

в настоящее время интеллектуальные агенты привлекают все больше внимания со стороны крупных модельных компаний и заказчиков. робин ли считает, что, хотя многие люди с оптимизмом смотрят на это направление развития, на сегодняшний день интеллектуальные агенты не являются консенсусом.

«порог для интеллектуальных агентов действительно очень низок». он сказал, что многие люди не знают, как превращать большие модели в приложения, но интеллектуальные агенты — это очень прямой, эффективный и простой способ создания интеллектуальных агентов. агенты поверх моделей.

(эта статья взята из china business news)

отчет/отзыв

новости

робин ли разоблачает иллюзию «текущих результатов» крупных моделей: список не отражает всех сильных сторон, и в будущем разрыв между моделями станет больше.

введение

моя контактная информация