τα στοιχεία επικοινωνίας μου
ταχυδρομείο[email protected]
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
αναφορά machine heart
τμήμα σύνταξης machine heart
μια νέα αρχιτεκτονική εμπνευσμένη από το c. elegans, και τα τρία "σχήματα κυπέλλου" μπορούν να επιτύχουν απόδοση sota και μπορούν να αναπτυχθούν σε περιβάλλοντα με εξαιρετικά περιορισμένους πόρους. τα κινητά ρομπότ μπορεί να χρειάζονται τον εγκέφαλο ενός σφάλματος.
στην εποχή των μεγάλων μοντέλων, το transformer που προτάθηκε στη θεμελιώδη εργασία της google το 2017 "attention is all you need" έχει γίνει μια κύρια αρχιτεκτονική.
ωστόσο, η liquid ai, μια startup που μόλις συνιδρύθηκε από πρώην ερευνητές από το εργαστήριο επιστήμης υπολογιστών και τεχνητής νοημοσύνης του mit (csail), έχει ακολουθήσει μια διαφορετική διαδρομή.
η liquid ai λέει ότι στόχος τους είναι να «διερευνήσουν τρόπους κατασκευής μοντέλων πέρα από τον βασικό προεκπαιδευμένο μετασχηματιστή (gpt)».
για να επιτύχει αυτόν τον στόχο, η liquid ai κυκλοφόρησε τα πρώτα πολυτροπικά μοντέλα ai: liquid foundation models (lfm). αυτή είναι μια νέα γενιά μοντέλων τεχνητής νοημοσύνης που δημιουργούνται βάσει των πρώτων αρχών, με 1b, 3b και 40b lfm που επιτυγχάνουν απόδοση sota σε όλες τις κλίμακες, διατηρώντας παράλληλα μικρότερο αποτύπωμα μνήμης και πιο αποτελεσματικά συμπεράσματα.
ο διευθυντής μετά την εκπαίδευση του liquid ai maxime labonne είπε στο x ότι το lfm είναι η έκδοση για την οποία είναι πιο περήφανος στην καριέρα του.
κάποιοι λένε ότι το lfm είναι ο τερματιστής του transformer.
μερικοί χρήστες του διαδικτύου επαίνεσαν το lfm ως αλλαγή παιχνιδιών.
μερικοί χρήστες του διαδικτύου πιστεύουν ότι "ίσως είναι καιρός να εγκαταλείψουμε τους transformers. αυτή η νέα αρχιτεκτονική φαίνεται πολλά υποσχόμενη."
η liquid ai κυκλοφορεί τρία μοντέλα
η σειρά lfm διατίθεται σε τρία διαφορετικά μεγέθη και παραλλαγές:
εντατικό lfm 1.3b (ελάχιστο), ιδανικό για περιβάλλοντα με εξαιρετικά περιορισμένους πόρους.
πυκνό lfm 3b, βελτιστοποιημένο για ανάπτυξη στα άκρα.
μοντέλο lfm 40.3b moe (το μεγαλύτερο, έμπειρο υβριδικό μοντέλο τύπου mistral), σχεδιασμένο για να χειρίζεται πιο σύνθετες εργασίες.
απόδοση sota
σύγκριση του lfm-1b με ισοδύναμα μοντέλα κλίμακας. το lfm-1b πέτυχε κορυφαίες βαθμολογίες σε κάθε δοκιμή αναφοράς, καθιστώντας το το πιο προηγμένο μοντέλο στην κλίμακα του. αυτή είναι η πρώτη φορά που μια αρχιτεκτονική χωρίς gpt ξεπερνά σημαντικά τα μοντέλα που βασίζονται σε transformer. για παράδειγμα, το lfm 1.3b ξεπέρασε τις επιδόσεις του llama 3.2-1.2b της meta και του phi-1.5 της microsoft σε σημεία αναφοράς τρίτων.
το lfm-3b επιτυγχάνει απίστευτη απόδοση, καταλαμβάνοντας την πρώτη θέση σε σύγκριση με μοντέλα μετασχηματιστών 3β, υβριδικά μοντέλα και μοντέλα rnn. είναι επίσης συγκρίσιμο με το phi-3.5-mini σε πολλαπλές δοκιμές αναφοράς, ενώ είναι 18,4% μικρότερο. μπορεί να φανεί ότι το lfm-3b είναι ιδανικό για κινητές συσκευές και άλλες εφαρμογές ακραίου κειμένου.
το lfm-40b επιτυγχάνει μια νέα ισορροπία μεταξύ του μεγέθους του μοντέλου και της ποιότητας παραγωγής. μπορεί να ενεργοποιήσει παραμέτρους 12b κατά το χρόνο εκτέλεσης, με απόδοση συγκρίσιμη με μεγαλύτερα μοντέλα, ενώ η αρχιτεκτονική moe επιτρέπει υψηλότερη απόδοση και μπορεί να αναπτυχθεί σε πιο οικονομικά αποδοτικό υλικό.
αποτελεσματική μνήμη
το lfm καταλαμβάνει λιγότερη μνήμη σε σύγκριση με την αρχιτεκτονική του transformer. αυτό ισχύει ιδιαίτερα για μεγάλες εισόδους, καθώς η κρυφή μνήμη kv στο llm που βασίζεται σε μετασχηματιστή αυξάνεται γραμμικά με το μήκος της ακολουθίας. με την αποτελεσματική συμπίεση της εισόδου, το lfm μπορεί να επεξεργαστεί μεγαλύτερες ακολουθίες στο ίδιο υλικό. το lfm καταλαμβάνει τη λιγότερη μνήμη σε σύγκριση με άλλα μοντέλα κατηγορίας 3β. για παράδειγμα, το lfm-3b απαιτεί μόνο 16 gb μνήμης, ενώ το llama-3.2-3b της meta απαιτεί περισσότερα από 48 gb μνήμης.
το lfm εκμεταλλεύεται πραγματικά το μήκος περιβάλλοντος
ο παρακάτω πίνακας συγκρίνει την απόδοση πολλών μοντέλων σε διαφορετικά μήκη περιβάλλοντος.
αυτό το αποτελεσματικό παράθυρο περιβάλλοντος επιτρέπει εργασίες μεγάλου πλαισίου σε συσκευές αιχμής για πρώτη φορά. για τους προγραμματιστές, ξεκλειδώνει νέες εφαρμογές, συμπεριλαμβανομένης της ανάλυσης και της σύνοψης εγγράφων, των πιο ουσιαστικών αλληλεπιδράσεων με chatbot με επίγνωση του περιβάλλοντος και της βελτιωμένης απόδοσης επαυξημένης γενιάς ανάκτησης (rag).
αυτά τα μοντέλα είναι ανταγωνιστικά όχι μόνο σε ακατέργαστα σημεία αναφοράς απόδοσης, αλλά και σε λειτουργική αποτελεσματικότητα, καθιστώντας τα ιδανικά για ποικίλες περιπτώσεις χρήσης, από εφαρμογές εταιρικής ποιότητας έως την αιχμή στις χρηματοοικονομικές υπηρεσίες, τη βιοτεχνολογία και την ανάπτυξη εξοπλισμού.
οι χρήστες μπορούν να έχουν πρόσβαση σε αυτό μέσω lambda chat ή perplexity ai κ.λπ.
πώς το liquid υπερβαίνει τον παραγωγικό προεκπαιδευμένο μετασχηματιστή (gpt)
το liquid χρησιμοποιεί ένα υβρίδιο υπολογιστικών μονάδων που είναι βαθιά ριζωμένες στη θεωρία της θεωρίας των δυναμικών συστημάτων, στην επεξεργασία σήματος και στην αριθμητική γραμμική άλγεβρα. το αποτέλεσμα ήταν η ανάπτυξη μοντέλων τεχνητής νοημοσύνης γενικής χρήσης που μπορούν να χρησιμοποιηθούν για την προσομοίωση οποιουδήποτε τύπου δεδομένων ακολουθίας, συμπεριλαμβανομένων βίντεο, ήχου, κειμένου, χρονοσειρών και σημάτων, για την εκπαίδευση του νέου lfm.
ήδη πέρυσι, το liquid ai χρησιμοποίησε μια μέθοδο που ονομάζεται lnn (liquid neural networks) σε αντίθεση με τα παραδοσιακά μοντέλα βαθιάς μάθησης που απαιτούν χιλιάδες νευρώνες για να εκτελούν πολύπλοκες εργασίες, το lnn δείχνει ότι λιγότεροι νευρώνες (σε συνδυασμό με καινοτόμους μαθηματικούς τύπους) μπορούν να επιτύχουν το ίδιο. αποτελέσματα.
τα νέα μοντέλα του liquid ai διατηρούν το βασικό πλεονέκτημα αυτής της προσαρμοστικότητας, επιτρέποντας προσαρμογές σε πραγματικό χρόνο κατά τη διάρκεια της εξαγωγής συμπερασμάτων χωρίς την υπολογιστική επιβάρυνση που σχετίζεται με τα παραδοσιακά μοντέλα. μπορεί να χειριστεί αποτελεσματικά έως και 1 εκατομμύριο μάρκες ελαχιστοποιώντας τη χρήση μνήμης.
για παράδειγμα, όσον αφορά τη χρήση της μνήμης συμπερασμάτων, το μοντέλο lfm-3b υπερτερεί των δημοφιλών μοντέλων όπως το gemma-2 της google, το phi-3 της microsoft και το llama-3.2 της meta, ειδικά όταν το μήκος του διακριτικού επεκτείνεται.
ενώ άλλα μοντέλα παρουσιάζουν δραματικές αυξήσεις στη χρήση μνήμης κατά την επεξεργασία μεγάλων πλαισίων, το lfm-3b καταλαμβάνει πολύ λιγότερο χώρο, καθιστώντας το ιδανικό για εφαρμογές που απαιτούν βαριά διαδοχική επεξεργασία δεδομένων, όπως ανάλυση εγγράφων ή chatbot.
το liquid ai έχει δημιουργήσει το θεμελιώδες μοντέλο του ως ένα καθολικό μοντέλο σε πολλαπλές μεθόδους δεδομένων, συμπεριλαμβανομένων ήχου, βίντεο και κειμένου.
με αυτή τη δυνατότητα πολλαπλών μέσων, το liquid στοχεύει να λύσει μια σειρά από ειδικές προκλήσεις του κλάδου, που κυμαίνονται από χρηματοοικονομικές υπηρεσίες έως βιοτεχνολογία και ηλεκτρονικά είδη ευρείας κατανάλωσης.
η liquid ai βελτιστοποιεί τα μοντέλα της για προϊόντα από πολλούς κατασκευαστές υλικού, συμπεριλαμβανομένων των nvidia, amd, apple, qualcomm και cerebras.
το liquid ai προσκαλεί τους πρώτους χρήστες και προγραμματιστές να δοκιμάσουν τα νέα μοντέλα τους και να παράσχουν σχόλια. αν και το μοντέλο δεν είναι ακόμα τέλειο, η εταιρεία σχεδιάζει να χρησιμοποιήσει τα σχόλια για να βελτιώσει το προϊόν. θα πραγματοποιήσουν μια επίσημη εκδήλωση έναρξης στις 23 οκτωβρίου 2024 στο mit.
σε μια προσπάθεια να διατηρήσει τη διαφάνεια και να προωθήσει την επιστήμη, η εταιρεία σχεδιάζει να δημοσιεύσει μια σειρά τεχνικών αναρτήσεων ιστολογίου πριν από την κυκλοφορία. ενθαρρύνουν επίσης τους χρήστες να διεξάγουν δοκιμές κόκκινης ομάδας για να εξερευνήσουν τα όρια του μοντέλου για να βοηθήσουν στη βελτίωση των μελλοντικών εκδόσεων.
το lfm που εισήγαγε η liquid ai συνδυάζει υψηλή απόδοση και αποτελεσματική χρήση μνήμης, παρέχοντας μια ισχυρή εναλλακτική λύση στα παραδοσιακά μοντέλα που βασίζονται σε transformer. αυτό κάνει το liquid ai να αναμένεται να γίνει σημαντικός παίκτης στον τομέα των βασικών μοντέλων.
liquid ai: ξεκινώντας με ένα μικροσκοπικό σφάλμα
αυτή η startup, η οποία ανταγωνίζεται ανοιχτά την openai και άλλες μεγάλες εταιρείες γλωσσικών μοντέλων, επωάστηκε από το csail του mit computer science and artificial intelligence laboratory και ιδρύθηκε τον μάρτιο του 2023.
τον δεκέμβριο του 2023, η εταιρεία έλαβε 37,5 εκατομμύρια δολάρια ηπα σε χρηματοδότηση εκκίνησης, με αποτίμηση να φτάνει τα 300 εκατομμύρια.
στους επενδυτές περιλαμβάνονται ο συνιδρυτής του github, tom preston werner, ο συνιδρυτής του shopify, tobias lütke, ο συνιδρυτής της red hat, bob young, κ.λπ.
η daniela rus, διευθύντρια του mit csail, είναι μία από τις ιδρυτές της εταιρείας. αυτή η διάσημη ρομποτική και επιστήμονας υπολογιστών είναι επίσης η πρώτη γυναίκα διευθύντρια του εργαστηρίου.
εκτός από τη daniela rus, οι άλλοι τρεις συνιδρυτές του liquid ai ήταν όλοι μεταδιδακτορικοί ερευνητές στο mit csail.
ο συνιδρυτής και διευθύνων σύμβουλος ramin hasani ήταν ο επικεφαλής επιστήμονας τεχνητής νοημοσύνης στη vanguard, μία από τις μεγαλύτερες εταιρείες διαχείρισης κεφαλαίων στις ηνωμένες πολιτείες, πριν ασχοληθεί με μεταδιδακτορική έρευνα στο mit csail.
ο συνιδρυτής και cto mathias lechner είχε μελετήσει τη νευρική δομή των νηματωδών με τον hasani ήδη όταν ήταν φοιτητές στο τεχνικό πανεπιστήμιο της βιέννης.
ο συνιδρυτής και επικεφαλής επιστημονικός υπεύθυνος alexander amini ήταν διδάκτορας της daniela rus.
οι τέσσερις ιδρυτές (από αριστερά προς τα δεξιά) διευθύνων σύμβουλος ramin hasani, daniela rus, chief science officer alexander amini και cto mathias lechner
το 2017, η daniela rus «έσκαψε» τους hasani και lechner στο mit csail και η rus και ο διδακτορικός της φοιτητής amini εντάχθηκαν επίσης στην έρευνα για τα υγρά νευρωνικά δίκτυα.
η daniela rus επεσήμανε ότι η γενετική τεχνητή νοημοσύνη έχει προφανείς περιορισμούς όσον αφορά την ασφάλεια, την ερμηνευτικότητα και την υπολογιστική ισχύ, καθιστώντας δύσκολη τη χρήση της για την επίλυση ρομποτικών προβλημάτων, ειδικά των κινητών ρομπότ.
εμπνευσμένη από τη νευρωνική δομή του νηματώδους caenorhabditis elegans, ενός «συχνού καλεσμένου» στην επιστημονική ερευνητική κοινότητα, η daniela rus και μεταδιδακτορικοί ερευνητές στο εργαστήριό της ανέπτυξαν έναν νέο τύπο ευέλικτου νευρωνικού δικτύου, γνωστό και ως υγρό νευρωνικό δίκτυο.
ο caenorhabditis elegans είναι επίσης ο μόνος οργανισμός για τον οποίο έχει ολοκληρωθεί ο προσδιορισμός του συνδέσμου (από το 2019). αν και ο εγκέφαλος είναι απλός, είναι επίσης πολύ καλύτερος στη μάθηση και την προσαρμογή στο περιβάλλον από οποιοδήποτε τρέχον σύστημα τεχνητής νοημοσύνης.
το caenorhabditis elegans έχει μήκος μόνο 1 mm, έχει μόνο 302 νευρώνες και 96 μύες, αλλά είναι ικανό για περίπλοκες έξυπνες συμπεριφορές όπως αίσθηση, διαφυγή, αναζήτηση τροφής και ζευγάρωμα.
είναι η απλούστερη ζωντανή νοημοσύνη και ο μικρότερος φορέας για την πραγματοποίηση της γενικής τεχνητής νοημοσύνης μέσω της προσομοίωσης βιολογικών νευρωνικών μηχανισμών.
τα τελευταία χρόνια, επιστημονικοί ερευνητές χρησιμοποίησαν επίσης ερευνητικά αποτελέσματα για τα νεύρα c. elegans για τη διεξαγωγή βιολογικών προσομοιώσεων σε υπολογιστή. μελετώντας πώς λειτουργεί ο εγκέφαλος του c. elegans, η daniela rus και άλλοι σχεδίασαν ένα "liquid time-constant networks":
ένα μοντέλο συνεχούς χρόνου που αποτελείται από πολλαπλά απλά δυναμικά συστήματα που ρυθμίζουν το ένα το άλλο μέσω μη γραμμικών πυλών.
αν πούμε ότι ένα τυπικό νευρωνικό δίκτυο είναι σαν ένα στρώμα φραγμάτων ομοιόμορφης απόστασης, με πολλές βαλβίδες (βάρη) εγκατεστημένες σε κάθε στρώμα φραγμάτων, ο υπολογιζόμενος χείμαρρος πρέπει να διέρχεται από αυτές τις βαλβίδες κάθε φορά που διέρχεται από ένα στρώμα φραγμάτων και στη συνέχεια βιαστείτε στο επόμενο επίπεδο.
λοιπόν, τα υγρά νευρωνικά δίκτυα δεν χρειάζονται φράγματα επειδή κάθε νευρώνας ελέγχεται από μια διαφορική εξίσωση (ode).
αυτός ο τύπος δικτύου χαρακτηρίζεται από μεταβλητές σταθερές χρόνου και η έξοδος προκύπτει από την επίλυση διαφορικών εξισώσεων. η έρευνα δείχνει ότι ξεπερνά τα παραδοσιακά μοντέλα όσον αφορά τη σταθερότητα, την εκφραστικότητα και την πρόβλεψη χρονοσειρών.
αργότερα, η daniela rus και άλλοι πρότειναν μια μέθοδο προσέγγισης που μπορεί να χρησιμοποιήσει λύσεις κλειστής μορφής για την αποτελεσματική προσομοίωση της αλληλεπίδρασης μεταξύ νευρώνων και συνάψεων (νευρωνικά δίκτυα συνεχούς χρόνου κλειστής μορφής), η οποία όχι μόνο βελτίωσε σημαντικά τον υπολογισμό του μοντέλου ταχύτητα, επίσης παρουσιάζει καλύτερη επεκτασιμότητα και έχει καλή απόδοση στη μοντελοποίηση χρονοσειρών, υπερτερώντας σε πολλά προηγμένα μοντέλα επαναλαμβανόμενων νευρωνικών δικτύων.
τα μέλη της ομάδας liquid ai ισχυρίστηκαν ότι η αρχιτεκτονική είναι κατάλληλη για την ανάλυση οποιουδήποτε φαινομένου που παρουσιάζει διακυμάνσεις με την πάροδο του χρόνου, συμπεριλαμβανομένης της επεξεργασίας βίντεο, της αυτόνομης οδήγησης, της παρακολούθησης του εγκεφάλου και της καρδιάς, των χρηματοοικονομικών συναλλαγών (τιμές μετοχών) και των καιρικών προγνώσεων.
εκτός από το ότι είναι ευέλικτα σαν υγρό, ένα άλλο χαρακτηριστικό των υγρών νευρωνικών δικτύων είναι ότι είναι πολύ μικρότερα σε κλίμακα από τα μοντέλα παραγωγής τεχνητής νοημοσύνης που συχνά έχουν δισεκατομμύρια παραμέτρους.
για παράδειγμα, το lfm 1.3b, το οποίο μπορεί να αναπτυχθεί σε περιβάλλοντα με πολύ περιορισμένους πόρους, έχει μόνο 1.3b παραμέτρους (παρόμοιες με τη μέγιστη έκδοση 1.5b gpt-2), ενώ διατηρεί μικρότερο αποτύπωμα μνήμης και πιο αποτελεσματικά συμπεράσματα και μπορεί να χρησιμοποιείται σε διάφορα run on the robot hardware platform.
επιπλέον, τα υγρά νευρωνικά δίκτυα έχουν επίσης το πλεονέκτημα της ερμηνείας λόγω του μικρού τους μεγέθους και της απλής αρχιτεκτονικής τους.
ωστόσο, μένει να δούμε πώς η νέα αρχιτεκτονική θα ανταγωνιστεί τα κύρια μοντέλα από ανταγωνιστές όπως το openai.
ο hasani είπε ότι επί του παρόντος το liquid ai δεν σχεδιάζει να αναπτύξει εφαρμογές όπως το chatgpt για καταναλωτές. η εταιρεία εστιάζει πρώτα σε εταιρικούς πελάτες που επιδιώκουν να μοντελοποιήσουν την οικονομική και ιατρική έρευνα.
σύνδεσμοι αναφοράς:
https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/
https://arxiv.org/abs/2106.13898
https://arxiv.org/abs/2006.04439
https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai