ニュース

nvidia、写真を見ながらチャットできる新しいビジュアルスピーチモデル nveagle を発売

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

pinwan は 9 月 2 日、nvidia 公式ニュースによると、nvidia がジョージア工科大学、umd、hkpu の研究チームと協力して新しいビジュアル言語モデル nveagle を発表したと報告しました。

nveagle は複雑な現実のシーンを理解し、視覚的な入力を通じてより適切な解釈と応答を提供できると報告されています。その設計の核心は、画像を視覚的なマークアップに変換し、それをテキスト埋め込みと組み合わせて視覚情報の理解を向上させることです。 nveagle には、eagle-x5-7b、eagle-x5-13b、eagle-x5-13b-chat の 3 つのバージョンがあります。このうち、7b バージョンと 13b バージョンは主に一般的な視覚言語タスクに使用されますが、13b-chat バージョンは特に会話型 ai 用に微調整されており、視覚入力に基づいてより適切に対話できます。

nveagle のハイライトは、さまざまなタスクに基づいて最適なビジュアル エンコーダを動的に選択できる mixed expert (moe) メカニズムの採用であり、これにより、複雑なビジュアル情報の処理能力が大幅に向上します。このモデルは、研究者や開発者が簡単に使用できるように、hugging face で公開されています。