новости

что делать, если у людей закончились данные? сяо янхуа, профессор фуданьского университета, предложил два решения:

2024-09-07

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

бюро red star capital сообщило 7 сентября, что в эпоху больших данных ценность данных еще не полностью изучена. с наступлением эры искусственного интеллекта данные сталкиваются с проблемой слишком быстрого потребления, что делает их синтетическими. технологии обработки данных — горячая область. согласно отчету, опубликованному исследовательской организацией epoch ai в июне, начиная с 2026 года объем новых данных, генерируемых людьми, будет меньше, чем объем новых данных, изучаемых моделями. предполагается, что в больших языковых моделях закончится человеческий ресурс. данные к 2028 году.
данные в определенной степени определяют верхний предел интеллекта, поэтому чем больше прорывов в технологии больших моделей, тем больше технология данных должна быть «согласована» с ней.
во время конференции бунда 2024 года сяо янхуа, профессор фуданьского университета и директор шанхайской ключевой лаборатории науки о данных, заявил в интервью red star capital bureau и другим сми, что может быть два пути решения проблемы исчерпания данных. в будущем. первый — это синтетические данные, а второй — в частный домен.
сяо янхуа
«многие люди комментировали «четыре книги» и «пять классических книг». процесс аннотирования подобен процессу синтеза данных. мы можем постоянно думать, сопоставлять и интегрировать исходные данные, чтобы генерировать больше данных. это синтетические данные». , синтетические данные — очень важная идея. это не только облегчает проблему исчерпания данных, но и имеет очень важное значение.
«большая часть синтезированных данных — это данные нашего мыслительного процесса. через синтетические данные выражается большое количество данных, которые являются неявными, неучтенными, невыраженными и ориентированными на мышление. такие данные имеют решающее значение для стимулирования iq или рационального мышления. возможности больших моделей».
сяо янхуа отметил, что наша нынешняя большая модель «обладает только интеллектом, но не рациональностью». она просто запоминает больше фактов, но это не значит, что она более «умная», и ее рациональные способности не увеличились. синтетические данные — очень важная идея для улучшения рациональных способностей.
«используйте синтетические данные, которые моделируют процесс мышления, для обучения большой модели, чтобы она знала, как думать о проблемах. таким образом, синтетические данные предназначены не только для облегчения «голода» данных, но и для улучшения рациональных способностей большой модели. ."
еще одна очень важная идея, упомянутая сяо янхуа, — это перейти в частную сферу. «больше высококачественных и ценных данных находится в частной сфере, в вертикальных отраслях, в тысячах отраслей, а дальше по цепочке — это персональные данные. таким образом, частная сфера и отдельные лица по-прежнему имеют много драгоценных, очень оригинальных и реальные данные. но мы не активировали эти данные и еще не внедрили их в большую модель. большая модель еще не усвоила эти знания. как использовать атрибуты частного домена для стимулирования потенциала большой модели также очень важно. дело в будущем».
сяо янхуа сказал, что все данные о частных доменах находятся в системах баз данных. эти базы данных содержат большое количество высококачественных данных о частных доменах и отраслевых данных в различных формах. важным вопросом является то, как превратить их в большой корпус обучения моделей. если вы можете использовать данные частного домена для обучения больших моделей, вы можете превратить большие модели в отраслевых экспертов.
«сегодняшние большие модели обладают только общими знаниями и не подходят для профессиональных задач. чтобы добиться этого, ключевым моментом может быть эффективное использование данных частного домена, поэтому потенциал данных, которые можно использовать, все еще очень велик».
сяо янхуа также с нетерпением ждал «персональных данных». он отметил, что использование персональных данных для обучения больших моделей только началось. он считает, что следующим шагом должно стать объединение личных данных с большими моделями. в будущем все еще существует большой потенциал в том, как объединить личные данные с большими моделями и превратить их в «персонализированные большие модели» для обслуживания частных лиц. у нас еще большой потенциал.
репортер red star news ван тянь
редактор дэн линъяо
(загрузите red star news и отправляйте свои отчеты, чтобы выиграть призы!)
отчет/отзыв