소식

Jia Yangqing은 자신의 논문 중 하나로 Time Test Award를 수상했지만 중국 최고의 10개 논문 및 ICML 2024 Award 자격을 얻지 못했습니다.

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

머신하트 편집부

ICML의 정식 명칭은 국제기계학습학회(International Machine Learning Society, IMLS)가 주최하는 컴퓨터 인공지능 분야 최고 학회이다.

올해로 41회째를 맞는 ICML 컨퍼런스는 현재 오스트리아 비엔나에서 개최되고 있다. 방금 진행된 개막식에서는 해마다 더욱 인기를 끌고 있는 ICML이 올해 컨퍼런스 데이터와 수상 정보를 발표했다.



이번 본학술대회에는 총 9473편의 유효논문이 접수됐고, 그 중 구두논문 144편과 스포트라이트 논문 191편을 포함해 2610편이 채택돼 합격률 27.5%를 기록했다.



게재된 논문의 주제 키워드는 대규모 언어 모델, 강화 학습, 딥 러닝, 그래프 신경망, 기계 학습, 연합 학습, 확산 모델, Transformer, LLM, 표현 학습, 생성 모델... 이 키워드는 현재를 나타냅니다. AI 분야에서 가장 인기 있는 연구 방향.

이러한 데이터 외에도 올해의 Time Test Awards 및 Best Papers도 컨퍼런스에서 발표되었습니다. 10년 전 버클리에 있을 때 Jia Yangqing이 공동 완성한 논문인 DeCAF가 올해의 Time Test Award를 수상했습니다. 지난해 6개에 비해 올해는 구글 딥마인드 세계모델 지니(Genie), 영상모델 비디오포엣(VideoPoet) 등 얼마 전 인기를 끌었던 등 10개 연구가 올해 최우수 논문을 수상했다.

시간 테스트를 거친 상

DeCAF가 수상한 것에 대해 Jia Yangqing은 친구들 사이에서 "오늘의 용어로 볼 때 DeCAF는 비전 분야의 기초 기능이자 심층 임베딩이어야 하며 컴퓨터 비전 분야에 일반화 가능한 기능도 제공해야 합니다. DeCAF의 작업 나중에 General 객체 감지 프레임워크 R-CNN, 고성능 이기종 컴퓨팅 프레임워크인 Caffe를 탄생시켰고, Yahoo Labs에서 만든 대규모 분산 교육 CaffeOnSpark인 1세대 가속 프레임워크 CuDNN을 작성하는 데 Berkeley와 NVidia의 협력에 간접적으로 기여했습니다. , 그리고 일련의 다른 작업을 통해 딥 러닝 물결에서 버클리의 선두 위치를 확립했습니다.”



제목: DeCAF: 일반 시각 인식을 위한 딥 컨볼루션 활성화 기능

저자: Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

기관: UC Berkeley & ICSI, Berkeley, CA, USA

논문 링크: https://arxiv.org/pdf/1310.1531

연구팀은 대규모의 고정된 객체 인식 작업 세트에 대해 완전히 감독되는 방식으로 훈련된 심층 합성곱 네트워크의 활성화에서 추출된 특징이 새로운 범용 작업에 재사용될 수 있는지 여부를 평가했습니다. 이러한 일반 작업은 원래 훈련된 것과 크게 다를 수 있으며, 새로운 작업에 대해 심층 아키텍처를 정기적으로 훈련하거나 적응시키기에는 레이블이 지정되거나 레이블이 지정되지 않은 데이터가 충분하지 않을 수 있습니다. 그들은 장면 인식, 도메인 적응, 세분화된 인식 과제를 포함한 다양한 작업에서 깊은 컨벌루션 기능의 의미론적 클러스터링을 연구하고 시각화합니다. 연구원들은 고정된 특징을 정의하기 위해 네트워크의 다양한 계층에 의존하는 효과를 비교하고 몇 가지 중요한 시각적 과제에 대해 기존 기술을 훨씬 능가하는 새로운 결과를 보고했습니다. 그들은 비전 연구자들이 다양한 시각적 개념 학습 패러다임에 걸쳐 심층 표현을 실험할 수 있도록 모든 관련 네트워크 매개변수를 포함하는 심층 컨벌루션 활성화 기능의 오픈 소스 구현인 DeCAF를 출시했습니다.

최고의 종이

논문 1: 고해상도 이미지 합성을 위한 정류 변압기 스케일링

작곡: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach

소속 : 안정성 AI

논문 주소: https://proceedings.mlr.press/v235/esser24a.html

Machine Heart Report: Stable Diffusion 3 논문이 드디어 공개되었으며, 아키텍처 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요?

이 논문은 바로 Stable Diffusion 3 논문입니다. 이전 버전과 비교하여 Stable Diffusion 3에서 생성된 이미지의 품질이 크게 향상되었으며 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 더 좋습니다.



Stable Diffusion 3 모델 아키텍처.

전달 경로를 잡음으로 전환하여 잡음에서 데이터를 생성하는 확산 모델은 이미지 및 비디오와 같은 고차원 감각 데이터에 대한 강력한 생성 모델링 기술로 부상했습니다. RF(Rectified Flow)는 데이터와 노이즈를 직선으로 연결하는 최신 생성 모델 공식입니다. 더 나은 이론적 특성과 개념적 단순성에도 불구하고 아직 표준 관행으로 명확하게 확립되지 않았습니다.

이 연구에서는 RF 모델을 지각적으로 관련된 척도로 편향하여 훈련함으로써 기존 노이즈 샘플링 기술을 개선합니다. 대규모 연구를 통해 이 연구는 고해상도 텍스트-이미지 합성을 위한 기존 확산 공식과 비교하여 이 접근 방식의 우수한 성능을 보여줍니다.

또한 연구에서는 두 가지 모드에 대해 별도의 가중치를 사용하고 이미지와 텍스트 토큰 간의 양방향 정보 흐름을 가능하게 하여 텍스트 이해력, 인간 선호도 평가 등을 향상시키는 텍스트-이미지 생성을 위한 새로운 Transformer 기반 아키텍처를 제안합니다. . 이 연구는 아키텍처가 예측 가능한 확장 추세를 따르고 모델 크기와 훈련 단계가 증가함에 따라 검증 손실이 원활하게 감소한다는 것을 보여줍니다.



향상된 다중 모드 확산 변환기: MMDiT 블록.

논문 2: Genie: 생성적 상호작용 환경

저자: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes 등

기관: 브리티시 컬럼비아 대학교 Google DeepMind

논문 주소: https://arxiv.org/pdf/2402.15391.pdf

본 논문에서는 생성적 AI(Generative Interactive Environments)의 새로운 패러다임인 Genie(Generative Interactive Environments)를 정의합니다. Genie는 단일 이미지 프롬프트에서 플레이 가능한 대화형 환경을 생성할 수 있는 110억 개의 매개변수 기반 세계 모델입니다.

Machine Heart Report: 방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

Genie 아키텍처의 여러 구성 요소는 ViT(Vision Transformer)를 기반으로 구축되었습니다. 비디오 분야에 문제를 가져오는 Transformer의 보조 메모리 비용으로 인해 비디오에 최대 (10^4)개의 토큰이 포함될 수 있다는 점은 주목할 가치가 있습니다. 따라서 Google은 모델 용량과 계산 제약 조건의 균형을 맞추기 위해 모든 모델 구성 요소에서 메모리 효율적인 ST 변환기 아키텍처를 사용합니다.



Genie는 세 가지 주요 구성 요소로 구성됩니다(아래 그림 참조).

1) LAM(Latent Action Model)은 각 프레임 쌍 사이의 잠재적인 동작을 추론하는 데 사용됩니다.

2) 원본 비디오 프레임을 개별 토큰으로 변환하는 데 사용되는 비디오 토크나이저(Tokenizer)

3) 잠재적인 행동과 과거 프레임의 토큰이 주어진 동적 모델은 비디오의 다음 프레임을 예측하는 데 사용됩니다.



제어 가능한 비디오 생성을 달성하기 위해 Google은 이전 프레임에서 수행된 작업을 미래 프레임 예측의 조건으로 사용합니다. 그러나 이러한 작업 레이블은 인터넷 동영상에서 거의 사용할 수 없으며 작업 주석을 얻는 데 드는 비용이 높을 수 있습니다. 대신 Google은 완전히 감독되지 않은 방식으로 잠재적인 작업을 학습합니다.



논문 3: 대규모 공개 사전 교육을 통한 차등적 개인 학습에 대한 고려 사항

저자: Florian Tramèr, Gautam Kamath, Nicholas Carlini

기관: ETH Zurich, 워털루 대학교, Google DeepMind

논문 주소: https://arxiv.org/abs/2212.06470

대규모 공개 데이터세트에 대해 사전 훈련된 비공개 모델의 전이 학습 기능을 활용하면 차등 비공개 기계 학습의 성능이 크게 향상될 수 있습니다. 이 논문에서는 웹에서 스크랩한 대규모 데이터 세트를 사용하는 것이 차등 비공개로 간주되어야 하는지에 대해 질문합니다.

연구에서는 네트워크 데이터에 대해 사전 훈련된 이러한 모델을 "비공개" 모델로 설정하면 차등 개인 정보 보호에 대한 대중의 신뢰가 손상되고 약화될 수 있다고 믿습니다. 공공 데이터 사용에 대한 개인 정보 보호 고려 사항 외에도 이 연구에서는 이 패러다임의 유용성에 대해 추가로 의문을 제기합니다. 이 연구에서는 기존 기계 학습 벤치마크가 공용 네트워크 데이터에서 표현하기 어려울 수 있는 민감한 도메인을 일반화하는 사전 훈련된 모델의 능력을 측정하는 데 적합한지 여부를 면밀히 조사합니다.

또한 이 연구에서는 대규모 모델을 배포하면 더 큰 컴퓨팅 능력을 갖춘 제3자에게 개인 데이터를 아웃소싱해야 하기 때문에 개인 정보 보호가 순 손실될 수 있다고 지적합니다.

논문 4: 데이터 분포 비율 추정을 통한 이산 확산 모델링

저자: Aaron Lou, Chenlin Meng, Stefano Ermon

기관: 스탠포드 대학교, Pika Labs

논문 주소: https://proceedings.mlr.press/v235/lou24a.html

확산 모델은 많은 생성 모델링 작업에서 잘 수행되지만 자연어와 같은 개별 데이터 도메인에서는 예상대로 수행되지 않습니다. 표준 확산 모델은 잘 정립된 점수 매칭 이론에 의존하지만 이를 이산 구조로 일반화하려는 시도는 동일한 경험적 이득을 가져오지 못했습니다.

이번 연구에서 연구팀은 득점 엔트로피(scoreed entropy)라는 새로운 손실을 제안함으로써 이러한 격차를 해소했습니다. 스코어링된 엔트로피는 스코어 매칭을 이산 공간으로 자연스럽게 확장하고 원활하게 통합되어 이산 확산 모델을 구축하며 성능을 크게 향상시킵니다.

실험에서 그들은 표준 언어 모델링 작업에서 SEDD(Scored Entropy Discrete Diffusion Model)를 테스트했습니다. 유사한 모델 크기에서 SEDD는 기존 언어 확산 패러다임(복잡성 25-75% 감소)보다 성능이 뛰어나고 자동 회귀 모델과 경쟁하며 특히 GPT-2보다 성능이 뛰어납니다. 또한 자동회귀 모델과 비교하여 SEDD는 분산 어닐링 기술(예: 온도 스케일링) 없이도 실제 텍스트(어닐링되지 않은 GPT-2보다 약 6~8배 더 높은 혼란 생성)를 생성할 수 있으며 Tradeoffs에서 사용할 수 있습니다. 계산 노력과 품질 사이에서(32배 적은 네트워크 평가로 유사한 품질 달성) 제어 가능한 패딩을 지원합니다(왼쪽에서 오른쪽 힌트 이외의 다른 전략을 허용하면서 커널 샘플링 품질 일치).

논문 5: Twisted Sequential Monte Carlo를 통한 언어 모델의 확률적 추론

작곡: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

기관: 토론토 대학, 벡터 연구소

논문 주소: https://proceedings.mlr.press/v235/zhao24c.html

RLHF, 자동화된 레드팀 테스트, 힌트 엔지니어링, 패딩을 포함한 대규모 언어 모델(LLM)의 다양한 기능과 안전 기술은 주어진 보상 또는 잠재 함수에 의해 정의된 비정규화된 대상 분포에서 샘플링한 것으로 볼 수 있습니다. 이 연구에서 저자는 SMC(Sequential Monte Carlo)의 풍부한 도구 상자를 활용하여 이러한 확률적 추론 문제를 처리합니다. 특히 학습된 워프 함수를 사용하여 각 시간 단계에서 잠재적으로 예상되는 미래 값을 추정하므로 추론 시 계산이 시퀀스의 유망한 부분에 집중할 수 있습니다.

우리는 워핑 기능 학습에 대한 새로운 대조 접근법을 제안하고 소프트 강화 학습에 대한 풍부한 문헌과 연결합니다. Twisted SMC 프레임워크의 보완적인 적용으로 그들은 새로운 양방향 SMC 바운드를 사용하여 로그 분할 기능에 대한 언어 모델 추론 기술의 정확성을 평가하는 방법을 제안합니다. 이러한 경계는 추론 분포와 목표 분포 간의 양방향 KL 발산을 추정하는 데 사용할 수 있습니다. 추론 평가 기술을 적용하여 Twisted SMC가 사전 훈련된 모델에서 바람직하지 않은 출력을 샘플링하고(무해한 훈련 및 자동화된 레드팀 테스트에 유용함) 다양한 감정으로 리뷰를 생성하고 패딩 작업을 수행하는 데 효과적이라는 것을 보여줍니다.

논문 6: 보다 설득력 있는 LLM을 통한 토론은 보다 진실한 답변으로 이어집니다.

작곡: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel Bowman, Tim Rocktäschel, Ethan Perez

기관: University College London, Speechmatics, MATS, Anthropic, FAR AI

논문 주소: https://proceedings.mlr.press/v235/khan24a.html

LLM(대형 언어 모델)을 원하는 동작에 맞추는 일반적인 접근 방식은 사람이 레이블을 지정한 데이터에 크게 의존합니다. 그러나 모델이 더욱 복잡해짐에 따라 인간의 전문성을 넘어설 것이며, 인간 평가자의 역할은 비전문가 감독 전문가의 역할로 진화할 것입니다. 이러한 기대를 바탕으로 연구자들은 다음과 같은 질문을 했습니다. 약한 모델이 더 강한 모델의 정확성을 평가할 수 있습니까? 그들은 유사한 시나리오를 설정하여 이 문제를 연구했습니다. 하나는 더 강한 모델(전문가)이 질문에 대답하는 데 필요한 배경 정보를 갖고 있는 반면, 더 약한 모델(비전문가)은 이 정보가 부족합니다. 연구자들은 테스트 방법으로 토론을 선택했습니다. 즉, 두 명의 LLM 전문가가 각각 서로 다른 답변을 방어하고 비전문가가 최종 답변을 선택하도록 하는 것입니다.

연구팀은 토론이 비전문가 모델과 인간의 질문 답변에 효과적으로 도움이 되어 각각 76%와 88%의 정확도를 달성했다는 사실을 발견했습니다(원래 기준은 각각 48%와 60%였습니다).



더욱이, 감독되지 않은 방식으로 전문 토론자의 설득력을 최적화하면 비전문가가 토론에서 진실을 식별하는 능력이 향상됩니다. 이 결과는 실측 라벨이 없을 때 정렬된 모델의 타당성에 대해 토론함으로써 참고 자료를 제공합니다.

제7장: 확률적 볼록 최적화의 정보 복잡도: 일반화, 기억 및 추적에 대한 응용

작곡: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy

기관: 벤구리온대학교, 토론토대학교, 딥마인드 등

논문 주소: https://proceedings.mlr.press/v235/attias24a.html

이 연구에서 저자는 확률적 볼록 최적화(SCO)의 맥락에서 기억과 학습 사이의 상호 작용을 연구합니다. 그들은 알고리즘이 훈련 데이터 포인트에 대해 드러내는 정보를 학습함으로써 기억을 정의하고 Steinke와 Zakynthinou(2020)가 제안한 조건부 상호 정보(CMI) 프레임워크를 사용하여 이 정보를 정량화합니다.

이 연구의 주요 결과는 Livni(2023)가 제기한 공개 질문에 답하여 학습 알고리즘의 정확성과 CMI 간의 균형을 정확하게 특성화하는 것입니다. 이 논문은 L² Lipschitz 경계 설정과 강한 볼록성 조건에서 과도한 오류 ϵ가 있는 각 학습자의 CMI가 각각 Ω(1/ϵ²) 및 Ω(1/)에 의해 하한 경계가 있음을 보여줍니다. 저자는 특정 SCO 문제에서 많은 수의 훈련 샘플을 정확하게 식별할 수 있는 공격자를 설계함으로써 SCO 문제에서 메모리의 필수적인 역할을 보여줍니다. 마지막으로 그들은 CMI 기반 일반화 범위의 한계와 SCO 문제에서 샘플의 비압축성과 같은 결과의 여러 가지 의미를 인용합니다.

논문 8: 단순히 주장만 하지 말고 데이터 세트 다양성을 측정하세요

작곡: Dora Zhao, Jerone Andrews, Orestis Papakyriakopoulos, Alice Xiang

기관: 스탠포드 대학, Sony AI(영국 런던), 뮌헨 기술 대학, Sony AI(미국 시애틀)

논문 주소: https://arxiv.org/html/2407.08188v1

기계 학습(ML) 데이터 세트는 중립적인 것으로 간주되는 경우가 많지만 본질적으로 추상적이고 논쟁의 여지가 있는 사회적 구조를 포함합니다. 데이터세트 큐레이터는 데이터세트를 설명하기 위해 다양성, 편향, 품질과 같은 가치가 포함된 용어를 사용하는 경우가 많습니다. 이러한 용어는 널리 사용되지만 명확한 정의와 검증이 부족합니다. 연구팀의 연구에서는 135개의 이미지 및 텍스트 데이터세트의 '다양성'을 분석하여 이 문제의 영향을 조사했습니다. 사회 과학을 바탕으로 측정 이론의 원칙을 적용하여 고려 사항을 식별하고 데이터 세트의 다양성을 개념화, 운영 및 평가하기 위한 권장 사항을 제공합니다. 그들의 연구 결과는 ML 연구에 광범위한 영향을 미치며, 데이터 세트 구성에서 가치가 포함된 속성을 처리할 때 보다 미묘하고 정확한 접근 방식을 옹호합니다.

논문 9: VideoPoet: 제로샷 비디오 생성을 위한 대규모 언어 모델

작곡: Dan Kondratyuk, Lijun Yu, Xiuye ​​Gu, Jose Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh N Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Joshua V Dillon 、아그림 굽타、미라 한、안자 하우스、데이비드 헨돈、알론소 마르티네즈、데이비드 미넨、미하일 시로텐코、손기혁、양쉬안、하트윅 아담、양밍수안、이르판 에사、후이성 왕、데이비드 로스、브라이언 세이볼드、루장

조직: Google, Carnegie Mellon University

논문 주소: https://proceedings.mlr.press/v235/kondratyuk24a.html

프로젝트 링크: http://sites.research.google/videopoet/

Machine Heart Report: 비디오 생성이 무한정 길어질 수 있나요?Google VideoPoet 대형 모델이 온라인에 등장, 네티즌: 혁명적인 기술

연구팀은 여러 조건부 신호로부터 고품질 영상을 합성할 수 있는 언어 모델인 VideoPoet을 출시했다. VideoPoet은 디코더 전용 Transformer 아키텍처를 사용하여 이미지, 비디오, 텍스트 및 오디오를 포함한 다중 모드 입력을 처리합니다.



훈련 프로토콜은 LLM(대형 언어 모델)의 파이프라인을 따르며 사전 훈련과 작업별 적응이라는 두 단계로 구성됩니다. 사전 훈련 단계에서 VideoPoet은 자동 회귀 Transformer 프레임워크 내에서 다중 모드 생성 목표를 결합합니다. 사전 훈련된 LLM은 기초 역할을 하며 다양한 비디오 생성 작업에 적용할 수 있습니다. 이는 제로샷 비디오 생성에서 모델의 최첨단 기능, 특히 충실도가 높은 모션을 생성하는 기능을 보여줍니다.

논문 10: 생산 언어 모델의 일부를 훔치기

작곡: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dvijotham, Thomas Steinke, Jonathan Hayase, A. 페더 쿠퍼, 캐서린 리, 매튜 자기엘스키, 밀라드 나스레스파하니, 아서 코미, 에릭 월리스, 데이빗 롤닉, 플로리안 트라머

기관: OpenAI, Google DeepMind, ETH Zurich, 워싱턴 대학교, McGill 대학교

논문 주소: https://arxiv.org/pdf/2403.06634

본 논문에서는 AI 모델을 공격하는 새로운 방법을 제안한다. OpenAI의 ChatGPT나 Google의 PaLM-2의 블랙박스 생성 언어 모델에서 정보를 정확하게 추출할 수 있습니다. 이 방법은 Transformer의 내장된 프로젝션 레이어(모델의 언어 이해의 핵심 부분)에 침입할 수 있으며, 웹사이트나 애플리케이션을 통한 API 액세스와 모델과의 채팅만 있으면 됩니다. 연구진은 논문의 방법을 기반으로 GPT 시리즈의 두 기본 모델인 Ada와 Babbage의 전체 투영 행렬을 해독했습니다. 숨겨진 차원과 같은 주요 정보도 직접 해독되었습니다. 하나는 1024이고 다른 하나는 2048입니다. 그들은 또한 gpt-3.5-turbo의 숨겨진 크기를 돌파했으며 모델의 전체 투영 매트릭스를 복원하려는 경우 비용은 $2000를 초과하지 않습니다. 연구원들은 이러한 공격이 발생하는 것을 방지하기 위해 일련의 방어 조치와 완화 전략을 제안했습니다.