AI 데이터가 부족하면 종이를 활용해 '만들기'를 할 수 있을까?
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
8월 14일
Nature 공식 웹사이트에는 다음과 같은 기사가 게재되었습니다.
여러 학술 출판사가 기술 회사에 투자하고 있습니다.
연구논문 사용권 판매
AI 모델을 훈련하는 데 사용됩니다.
많은 경우 이러한 거래는
작성자와 협의되지 않았습니다.
이는 일부 연구자들 사이에서 강한 불만을 불러일으켰습니다.
'배신당했다'는 서류
자연 규모
영국 학술 출판사
테일러 프랜시스
이미 Microsoft와 계약을 체결했습니다.
1000만달러 규모 계약
Microsoft가 해당 데이터에 액세스하도록 허용
AI 시스템을 개선하기 위해
6월에 이런 소식이 있었습니다.
미국 출판사 Wiley
회사가 콘텐츠를 사용하여 모델을 교육할 수 있도록 허용
그래서 2300만 달러를 벌었다.
자연 규모
이 논문은 다음과 같은 내용을 다룹니다.
자연과학, 사회과학 및 기타 분야
AI 모델 훈련을 위한 중요한 자료가 되었습니다.
스위스 제네바에서 열린 2024년 '인류를 위한 인공지능 글로벌 서밋'에서 페인팅 로봇이 페인팅을 선보였습니다.
출처: 신화통신
네이처 기사는 생각한다
현재 학술 논문 저자
자신의 저작물을 판매하는 출판사를 만날 때
간섭할 권리가 거의 없음
출판된 기사의 경우
이러한 내용을 확인할 수 있는 기존 메커니즘이 없습니다.
AI 훈련 데이터로 활용 여부
대규모 언어 모델 사용
보다 공정한 메커니즘을 구축하는 방법
창작자의 권리를 보호하세요
학계와 저작권계에서 폭넓게 논의할 가치가 있음
AI 데이터가 충분하지 않음
"만들기" 위한 서류
인공지능 대형모델 개발을 위한 3대 요소
데이터, 알고리즘, 컴퓨팅 파워입니다
AI 기술의 급속한 발전으로
훈련 데이터에 대한 수요 증가
일부 언론은 말했다.
2021년 말
OpenAI 교육 GPT-4
어려운 문제에 부딪혔다
인터넷에서 훈련이 소진되었습니다.
신뢰할 수 있는 영어 텍스트 리소스
그 다음에
이 문제를 다루기 위해서는
OpenAI는 Youtube 플랫폼의 비디오 및 오디오를 사용합니다.
대량의 대화 텍스트를 텍스트로 변환
이후 훈련
지난 7월 2일 2024 글로벌 디지털 경제 컨퍼런스의 디지털 경제 실감 체험 영역에서 직원들이 디지털 피플과 소통했다.
사진: 신화통신 기자 Ren Chao
지금
기술 대기업들은 초점을 다음으로 이동합니다.
학술 출판사
학술 논문
과학 연구 분야의 지혜의 결정체
사람들이 서둘러 구매하는 '핫케이크'가 되어 보세요.
자연어 처리를 예로 들어보자
수많은 논문의 훈련을 통해
AI 모델은 더 잘 이해할 수 있습니다
학문적 도메인 지식
정확성을 향상하다
구글, 마이크로소프트 등 거대 기술 기업
코퍼스 구매에 많은 투자를 했습니다.
AI 분야에서 경쟁 우위를 확보하려면
Financial Times가 자체 콘텐츠를 게재했습니다.
괜찮은 가격으로
OpenAI에 매각
소셜 뉴스 사이트 Reddit
Google과도 유사한 계약을 체결했습니다.
이러한 거래는 반영됩니다.
게시자가 법적으로 승인을 시도합니다.
AI 모델이 무료로 콘텐츠를 크롤링하는 것을 방지하세요
훈련 데이터 딜레마
게임을 깨는 방법
출판사와 협력
그것을 해결하는 것은 단지 기술 회사들일 뿐입니다
훈련 데이터 부족 문제의 전형
최근에
이코노미스트(Economist) 잡지에 기사가 실렸습니다.
“AI 기업, 곧 인터넷 데이터 대부분 다 써버릴 것”
인터넷에서 사용할 수 있는 내용을 예측하세요.
인간의 텍스트 데이터는 4년 안에 고갈될 것입니다
지난 4월 23일 독일 하노버 산업박람회에서 방문객들은 지능형 로봇과 함께 '가위바위보' 게임을 했습니다.
사진: 신화통신 기자 Ren Pengfei
그런 문제에 직면
OpenAI 창립자이자 CEO인 Sam Altman
해결 방법이 제안되었습니다:
OpenAI와 같은 회사
결국 AI가 생성한 데이터를 사용하는 방향으로 전환될 것입니다.
AI 훈련을 위한 (합성 데이터라고도 함)
개발자들은 점점 더 강력한 기술을 개발하고 있습니다.
또한 저작권이 있는 데이터에 대한 의존도도 줄어들 것입니다.
틀림없이
이 기술 경로가 실현 가능합니까?
아직도 논란이 있다
Nature 잡지의 표지 기사에서는 다음과 같이 주장했습니다.
대형 모델이 허용되는 경우
자동으로 생성된 데이터로 자신을 훈련하세요.
AI는 스스로를 저하시킬 수 있다
불과 몇 세대 만에 오리지널 콘텐츠
돌이킬 수 없는 넌센스로 반복됨
합성 데이터 방법 외에도
공공 데이터의 공개 공유 강화
효과적인 경로로 간주됩니다.
산업 증권 보고서는 다음과 같이 지적했습니다.
공공데이터의 개방형 개발 강화
데이터 분산에 대한 현재의 솔루션입니다.
훈련 데이터 품질을 개선하기 위한 중요한 조치
작성자:리페이, 마징위안 조판:리원지안 조정자:리정웨이
참고丨Nature, The Paper, Financial Associated Press, 21세기 비즈니스 헤럴드
제작: Guangming.com
출처: 세계인터넷회의