είναι και πάλι ζωηρό! η βελτιωμένη έκδοση "her" του openai είναι επίσημα ανοιχτή, ξεπερνώντας την αναβάθμιση "βαθμού παραγωγής" του gemini...

είναι και πάλι ζωηρό! η βελτιωμένη έκδοση του openai "her" είναι επίσημα ανοιχτή, ξεπερνώντας την αναβάθμιση "βαθμού παραγωγής" του gemini...

2024-09-25

συγγραφέας: τζέσικα

σήμερα είναι πραγματικά μια ζωντανή μέρα στον κύκλο της ai που δεν έχουμε δει εδώ και πολύ καιρό!

ήμουν μπερδεμένος από το δοκίμιο ai που δημοσιεύτηκε από τον ultraman χθες, και τώρα η πρόθεση της επέμβασης του είναι ξεκάθαρη.

ο ultraman θέλει να επιτεθεί στον παλιό του εχθρό google για να είμαστε πιο ακριβείς, είναι τα δύο αναβαθμισμένα μοντέλα gemini που η google μόλις ενημέρωσε σήμερα: gemini-1.5-pro-002 και gemini-1.5-flash-002.

η μέθοδος sniping είναι απλή και ωμή: ανακοινώστε απευθείας ότι η πολυαναμενόμενη λειτουργία φωνής gpt θα ανοίξει επίσημα σήμερα.

σε λιγότερο από δύο ώρες, η google αρπάχτηκε μακριά από τη στιγμή της google που κέρδισε δύσκολα. αν ήμουν η google, θα ήμουν τόσο θυμωμένος.

η προηγμένη φωνή gpt είναι εδώ και μιλάει περισσότερες από 50 γλώσσες

το openai είπε ότι η advanced voice mode του chatgpt θα κυκλοφορήσει σταδιακά σε όλους τους χρήστες plus και team αυτήν την εβδομάδα.

ενώ οι άνθρωποι περιμένουν υπομονετικά, η ομάδα έχει βελτιώσει ορισμένα χαρακτηριστικά, όπως η προσθήκη προσαρμοσμένων εντολών, λειτουργιών μνήμης, 5 νέων φωνών και βελτιωμένων προφορών.

δεδομένου ότι έχει συζητηθεί για πάρα πολύ καιρό, το openai έκανε μια ειδική δήλωση: «μπορεί να πει «συγγνώμη, άργησα» σε περισσότερες από 50 γλώσσες».

και βάλε ένα παράδειγμα αλλαγής από τα αγγλικά στα μανδαρινικά: "γιαγιά, συγγνώμη, άργησα. δεν ήθελα να σε κρατήσω να περιμένεις τόσο πολύ, πώς μπορώ να σε αποζημιώσω;"

——καλό παιδί, τώρα έγινες η γιαγιά του gpt, αναγκάζοντάς με να σε συγχωρήσω.

όπως φαίνεται στο βίντεο, η λειτουργία ομιλίας αντιπροσωπεύεται πλέον από μια παλλόμενη μπλε σφαίρα, αντί για τη μαύρη κινούμενη κουκκίδα που χρησιμοποίησε το openai κατά την επίδειξη της τεχνολογίας τον μάιο.

όταν παραχωρηθεί η πρόσβαση, θα εμφανιστεί ένα μήνυμα στην εφαρμογή. θα ανοίξει πρώτα σε χρήστες επιπέδου plus και teams και θα επεκταθεί σε χρήστες επιχειρήσεων και εκπαίδευσης από την επόμενη εβδομάδα.

το chatgpt προσθέτει επίσης πέντε νέες φωνές για εμπειρία: arbor, maple, sol, spruce και vale. σε αυτό το σημείο, συν τα προηγούμενα breeze, juniper, cove και ember, ο συνολικός αριθμός των φωνών chatgpt έφτασε τις 9 (ο αριθμός φωνής gemini live της google είναι 10).

μπορεί επίσης να έχετε παρατηρήσει ότι όλα αυτά τα ονόματα είναι εμπνευσμένα από τη φύση, από «δέντρο σφενδάμου» και «αύρα» μέχρι «ήλιος» και «κοιλάδα», ίσως για να κάνουν τη χρήση πιο φυσική. μια φωνή που απουσίαζε ήταν το sky, η φωνή που έδειξε το openai στην εαρινή κυκλοφορία του αλλά αποσύρθηκε λόγω δικαστικής διαμάχης με τη scarlett johansson, την πρωταγωνίστρια της ταινίας "her".

το openai έχει επίσης επεκτείνει ορισμένες από τις δυνατότητες προσαρμογής του chatgpt σε προηγμένες λειτουργίες φωνής, συμπεριλαμβανομένης μιας λειτουργίας "προσαρμοσμένης εντολής" που επιτρέπει στους χρήστες να εξατομικεύουν τις απαντήσεις και μια δυνατότητα μνήμης που επιτρέπει στο chatgpt να θυμάται συνομιλίες για μελλοντική αναφορά.

για παράδειγμα, στο παρακάτω βίντεο, στο προσαρμοσμένο μενού chatgpt των ρυθμίσεων του συστήματος, πληκτρολογήστε "το όνομά μου είναι charlotte, και ζω στην περιοχή του κόλπου του σαν φρανσίσκο όταν ρωτηθεί για τις υπαίθριες δραστηριότητες του σαββατοκύριακου, το gpt θα καλέσει τον χρήστη charlotte". παρέχει συστάσεις που ταιριάζουν με τον τοπικό καιρό και την κυκλοφορία.

η openai είπε ότι η ομάδα έχει βελτιώσει την ταχύτητα απόκρισης, την ευχέρεια και τις προφορές σε ορισμένες ξένες γλώσσες. η φωνή προσαρμόζεται στον τόνο της συνομιλίας και μπορείτε να δημιουργήσετε σκηνές που την προτρέπουν να αναλάβει διαφορετικούς ρόλους. η καθυστέρηση του ήχου είναι πολύ χαμηλή και η κατανόηση είναι πιο δυνατή.

ωστόσο, οι λειτουργίες κοινής χρήσης βίντεο και οθόνης που παρουσίασε το openai πριν από τέσσερις μήνες δεν έχουν ενημερωθεί αυτή τη φορά. εκείνη την εποχή, το προσωπικό ρώτησε τον gpt για τα μαθηματικά προβλήματα στο χαρτί και τους κωδικούς στην οθόνη του υπολογιστή και έλαβε απαντήσεις σε πραγματικό χρόνο μέσω φυσικού φωνητικού διαλόγου. επί του παρόντος, το openai δεν έχει παράσχει χρονοδιάγραμμα διάθεσης για αυτήν τη δυνατότητα πολλαπλών μέσων.

επιπλέον, η προηγμένη λειτουργία φωνής δεν είναι προσωρινά ανοιχτή για την ευρωπαϊκή ένωση, το ηνωμένο βασίλειο, την ελβετία, την ισλανδία, τη νορβηγία, το λιχτενστάιν και άλλες περιοχές.

παρόλα αυτά, το να μπορέσουμε επιτέλους να αποκτήσουμε τα χέρια μας με την έκδοση openai της "της" είναι πράγματι ένα συναρπαστικό πράγμα για τους ανθρώπους που έχουν κουραστεί από τον κύκλο της ai. σε συνδυασμό με την προεπισκόπηση o1 που μόλις δημιούργησε ένα κύμα τρέλας, το openai έλεγξε σταθερά τη βιομηχανία για άλλη μια εβδομάδα.

αυτός ο ενθουσιασμός προκάλεσε επίσης σε όλους να υποφέρουν από διαλείπουσα αμνησία:

παρεμπιπτόντως, τι δημοσίευσε σήμερα η google;

το gemini 1.5 αναβαθμίζει δύο νέα μοντέλα, η τιμή μειώνεται στο μισό και η ταχύτητα αυξάνεται

η ενημέρωση της google αυτή τη φορά είναι πραγματικά πολύ σημαντική, τουλάχιστον για τους προγραμματιστές.

σύμφωνα με το google blog, αυτή τη φορά έχουν ενημερώσει δύο μοντέλα gemini ποιότητας παραγωγής: gemini-1.5-pro-002 και gemini-1.5-flash-002. το λεγόμενο "επίπεδο παραγωγής" σημαίνει ότι το μοντέλο ai έχει αναπτυχθεί πλήρως, δοκιμαστεί και βελτιστοποιηθεί και είναι έτοιμο για εμπορική ανάπτυξη. μπορεί να χειριστεί μεγάλο αριθμό αιτημάτων χρηστών και να εφαρμοστεί σε υπηρεσίες προϊόντων, όχι μόνο πειράματα ή έρευνες.

ως σημαντική αναβάθμιση στα μοντέλα της σειράς gemini 1.5 που παρουσιάστηκαν στο συνέδριο i/o τον μάιο του τρέχοντος έτους, τα νέα μοντέλα είναι πιο γρήγορα, πιο ισχυρά και πιο οικονομικά.

τα κύρια σημεία συνοψίζονται ως εξής:

1. σημαντική μείωση τιμής: οι τιμές εισόδου και εξόδου του 1.5 pro έχουν μειωθεί κατά περίπου 50%, μειώνοντας σημαντικά το κόστος κατασκευής, ειδικά για συμβουλές μικρότερες από 128.000 μάρκες.

2. συνολική βελτίωση της ποιότητας: ειδικά η βελτίωση της απόδοσης στα μαθηματικά, τη δημιουργία κώδικα, το περιβάλλον μεγάλου κειμένου και τις οπτικές εργασίες είναι σημαντική, συμπεριλαμβανομένης μιας αύξησης περίπου 20% σε δοκιμές αναφοράς όπως τα math και hiddenmath, και αύξηση 2%-7% σε οπτικές και κωδικοποιημένες εφαρμογές.

3. αύξηση ορίου ρυθμού: το όριο ρυθμού των 1,5 flash και 1,5 pro έχει αυξηθεί από 1000 rpm (αιτήσεις ανά λεπτό) και 360 rpm σε 2000 rpm και 1000 rpm αντίστοιχα, επιτρέποντας στους προγραμματιστές να δημιουργούν και να επεξεργάζονται εργασίες πιο γρήγορα.

4. ταχύτερη έξοδος και χαμηλότερη καθυστέρηση: η ταχύτητα εξόδου αυξάνεται κατά 2 φορές και η καθυστέρηση μειώνεται κατά 3 φορές, παρέχοντας υποστήριξη για πιο αποτελεσματικά σενάρια εφαρμογής.

5. πιο συνοπτικές απαντήσεις: το στυλ απόκρισης είναι πιο συνοπτικό, λιγότερο ακριβό και το μήκος εξόδου μειώνεται κατά 5%-20%.

6. υποστήριξη πολλαπλών μέσων και μεγάλου πλαισίου: το παράθυρο μεγάλου πλαισίου 2 εκατομμυρίων κουπονιών του 1.5 pro υποστηρίζει την επεξεργασία μακροσκελούς κειμένου και εργασιών πολλαπλών μέσων, όπως η δημιουργία περιεχομένου pdf 1.000 σελίδων ή μεγάλα βίντεο.

7. ενημερωμένες ρυθμίσεις φιλτραρίσματος: το προεπιλεγμένο φίλτρο ασφαλείας του μοντέλου δεν εφαρμόζεται πλέον αυτόματα και οι προγραμματιστές μπορούν να προσαρμόσουν τις ρυθμίσεις ασφαλείας του μοντέλου όπως απαιτείται.

οι προγραμματιστές μπορούν να έχουν δωρεάν πρόσβαση στα δύο τελευταία μοντέλα μέσω του google ai studio και του gemini api. το νέο μοντέλο είναι επίσης διαθέσιμο στο vertex ai για μεγάλους οργανισμούς και πελάτες google cloud.

ο δίδυμος τυλιγμένος στη σκιά του gpt

ωστόσο, σε σύγκριση με τους ομοτίμους, πολλοί απλοί χρήστες εξέφρασαν απογοήτευση για την κίνηση της google, πιστεύοντας ότι αυτή δεν ήταν καν μια πραγματική «έκδοση».

ο διευθύνων σύμβουλος του abacus.ai και γνωστός blogger bindu reddy είπε: "δυστυχώς, το openai κυκλοφόρησε o1 που πέρασε το τεστ iq, ενώ η google μόλις έκανε κάποιες μικρές ενημερώσεις στο gemini 1.5. έχουν 100 φορές τους πόρους, 10 φορές το ταλέντο και 10 από όλα τα πράγματα, πώς θα μπορούσε να συμβεί αυτό;»

αν και ορισμένοι προγραμματιστές εξακολουθούν να μιλούν για την google, για παράδειγμα, ένας διαδικτυακός χρήστης στο φόρουμ συζήτησης του reddit είπε:

"αυτά είναι χρήσιμα πράγματα για άτομα που φτιάχνουν εφαρμογές και προσπαθούν να μειώσουν το κόστος και να αυξήσουν τα κέρδη. η εφαρμογή στην οποία εργάζομαι έχει ένα σταθερό κόστος ανά λειτουργία, που καθορίζεται από το μήκος συμβολαίου, το οποίο κάνει το κέρδος μου αυτό είναι περίπου 30% περισσότερο αυτό μπορεί να μην σημαίνει πολλά για τους περισσότερους ανθρώπους.

η τιμή μειώνεται στο μισό, η ταχύτητα αυξάνεται και η καθυστέρηση μειώνεται. αυτά είναι πράγματι αυτό που θέλουν οι προγραμματιστές. αλλά όπως είπαν όλοι, η έκκληση μπορεί να περιορίζεται στην κοινότητα προγραμματιστών.

ακόμη και ορισμένοι προγραμματιστές χλεύασαν: "δεν βλέπω τη σύγκριση με τον claude ή το o1, και πρόκειται να ξεκινήσουμε την επόμενη γενιά μοντέλων openai και anthropic. το deepmind έχει στην πραγματικότητα πολύ ανώτερα μοντέλα, αλλά πηγαίνουν απευθείας στη γραμμή επιχειρήσεων. παρακάμπτοντας το volkswagen είναι το gemini καθόλου εντυπωσιακό, απλά απογοητευτικό.

η κακή ονομασία μοντέλων από την google γελοιοποιήθηκε επίσης από τους χρήστες του διαδικτύου, οι οποίοι θεώρησαν ότι ήταν μακροσκελής και μπερδεμένος.

το information δημοσίευσε πρόσφατα ένα άρθρο με τίτλο "γιατί οι προγραμματιστές ai παρακάμπτουν τους gemini της google". μέσω συνεντεύξεων με πολλούς ιδρυτές εταιρειών τεχνητής νοημοσύνης και εσωτερικούς υπαλλήλους της google, αφηγείται την ιστορία του τρόπου με τον οποίο το gemini «εγκαταλείφθηκε» από τους προγραμματιστές και τα εμπόδια και τις δυσκολίες που αντιμετώπισε για να καλύψει τη διαφορά με το chatgpt.

για παράδειγμα, σε σύγκριση με ανταγωνιστικές τεχνολογίες, η κλήση του gemini είναι πολύ περίπλοκη για προγραμματιστές και επιχειρήσεις. ο ιδρυτής της τοπολογίας aidan mclaughlin είπε ότι η πρώτη φορά που χρησιμοποίησε το api του openai χρειάστηκε μόνο 30 δευτερόλεπτα, ενώ η χρήση του gemini χρειάστηκε 4 ώρες. ταυτόχρονα, οι μεγάλες επιδόσεις μοντέλων της google κατατάσσονται πίσω από τα openai και anthropic και δεν αξίζει τον κόπο να ξεπεράσουμε αυτά τα εμπόδια.

σε σύγκριση με το chatgpt, η αντιδημοφιλία του gemini μεταξύ των προγραμματιστών φαίνεται να είναι ένα ανοιχτό μυστικό στον πραγματικό κόσμο.

μια έρευνα του ιουνίου σε περισσότερους από 750 υπαλλήλους τεχνολογίας από την εκκίνηση επιχειρηματικού λογισμικού retool διαπίστωσε ότι μόνο το 2,6% των ερωτηθέντων είπε ότι χρησιμοποιούν συχνότερα το gemini για την κατασκευή εφαρμογών τεχνητής νοημοσύνης, με περισσότερο από το 76% να επιλέγει τη χρήση gpt.

τα δεδομένα επισκεψιμότητας ιστότοπου που παρακολουθούνται από το similarweb δείχνουν ότι μεταξύ ιουνίου και αυγούστου, η σελίδα προγραμματιστών εφαρμογών του openai έλαβε 82,8 εκατομμύρια προβολές σελίδας, ενώ οι προβολές σελίδων της google ήταν 8,4 εκατομμύρια φορές.

μικρότερες άτυπες έρευνες παρέχουν παρόμοια στοιχεία. στα τέλη του περασμένου μήνα, ο ιδρυτής της finetune, julian saks, ρώτησε 50 προγραμματιστές startup τεχνητής νοημοσύνης στον χώρο εργασίας του στο σαν φρανσίσκο ποια μοντέλα συνομιλίας ai χρησιμοποιούν περισσότερο. σχεδόν όλοι είπαν ότι χρησιμοποιούν κυρίως μοντέλα από το anthropic ή το openai και κανείς δεν ανέφερε το gemini.

αν και το μοντέλο gemini είναι χρήσιμο κατά την ανάλυση μεγάλων εγγράφων ή μεγάλων βάσεων κώδικα, πολλοί προγραμματιστές λένε ότι οι επιλογές μοντέλων της google είναι διαφορετικές, τα βήματα είναι πολύπλοκα και το σύστημα προγραμματιστών είναι διαφορετικό από το openai και πιο δύσκολο στη χρήση. και μερικές φορές, οι διαφορετικές υπηρεσίες της google ανταγωνίζονται μεταξύ τους στα δικά της αποτελέσματα αναζήτησης, διευκολύνοντας τους ανθρώπους να κολλήσουν προσπαθώντας να βρουν τα εργαλεία.

ο δίδυμος ειρωνεύεται συχνά τον χ για αυτόν τον λόγο. ο brendan dolan-gavitt, ερευνητής τεχνητής νοημοσύνης στην startup ασφαλείας xbow, έγινε viral νωρίτερα αυτό το μήνα όταν δημοσίευσε ένα tweet που περιγράφει λεπτομερώς τα πολλά βήματα που έκανε για να ξεκινήσει με το gemini μέσω της vertex. άλλοι προγραμματιστές πήγαν στην ενότητα σχολίων για να εκφράσουν τη συμπάθειά τους.

σε ένα περιβάλλον όπου «οι κορυφαίοι μηχανικοί του κόσμου χρησιμοποιούν openai, claude ή cursor», οι προγραμματιστές δεν χρειάζεται πραγματικά να δοκιμάσουν κάτι άλλο. από την άλλη πλευρά, η μείωση της χρήσης δεν θα επιτρέψει στο gemini να λάβει τόσα σχόλια δεδομένων όπως το chatgpt, με αποτέλεσμα η google να αντιμετωπίσει έναν πιο διφορούμενο οδικό χάρτη για τη βελτίωση του μοντέλου.

απογοήτευση γιατί οι άνθρωποι περιμένουν τόσα πολλά από την google

η google προσπαθεί να αλλάξει αυτή την αντίληψη, συμπεριλαμβανομένης της ανταπόκρισης στην κριτική του gemini στο x, φέρνοντας υπό την προστασία της περισσότερους τεχνικούς εμπειρογνώμονες από εταιρείες όπως το openai και συγχωνεύοντας ορισμένες επικαλυπτόμενες λειτουργίες ανάπτυξης. προωθούν επίσης το gemini φιλοξενώντας εκδηλώσεις προγραμματιστών.

σήμερα, ταυτόχρονα με την κυκλοφορία του gemini-1.5-pro-002, υπάρχει επίσης μια διαδικτυακή εκδήλωση για το gemini for work, η google αφιερώνει πολύ χώρο για να προωθήσει τις τρέχουσες περιπτώσεις εφαρμογών του gemini σε εταιρείες όπως η best buy, η snap, η ups capital. wayfair, κ.λπ. αναφέρεται ότι προσπαθούν να προσελκύσουν περισσότερους μεγάλους εταιρικούς πελάτες παρέχοντας έναν συγκεκριμένο βαθμό υπηρεσιών «λευκού γαντιού».

ωστόσο, ενόψει του παγιωμένου μεριδίου αγοράς, η αντεπίθεση της google μπορεί να μην είναι τόσο εύκολη.

ο logan kilpatrick, επικεφαλής προϊόντων στο ai studio, ο οποίος ήταν υπεύθυνος για τις σχέσεις προγραμματιστών στο openai πριν ενταχθεί τον απρίλιο του τρέχοντος έτους, δήλωσε: "η πραγματικότητα είναι ότι το openai είναι μπροστά από την google όσον αφορά τα εργαλεία προγραμματισμού llm api. πρέπει να ανταγωνιστούμε με τους τρέχουσες αναπτυξιακές προσπάθειες μεταξύ των προγραμματιστών αγωνίζονται για παγιωμένο μερίδιο αγοράς.

νωρίτερα, ο rowan cheung, γνωστός blogger στον κύκλο της ai, προέβλεψε ότι είχε ολοκληρώσει μια συνέντευξη σχετικά με μια σημαντική αναβάθμιση του μοντέλου ai σήμερα, οι προγραμματιστές θα έχουν μια μεγάλη μέρα.

κάτω από αυτό το tweet, η χαμογελαστή έκφραση του logan kilpatrick φαινόταν λίγο αμήχανη ανάμεσα σε πολλές τύψεις που έλεγαν «γιατί δεν είναι ο claude opus 3.5;»

συντηρητικά, αμφιλεγόμενα και καθυστερημένα είναι τα στερεότυπα που η google, ο γίγαντας της τεχνητής νοημοσύνης, έχει αφήσει στην κοινότητα σήμερα. η εκτόξευση του gemini-1.5-pro-002 δεν φαίνεται να σπάει αυτό το αδιέξοδο.

η απογοήτευση των ανθρώπων με αυτήν την εταιρεία πηγάζει από τις υψηλές προσδοκίες για αυτήν: με τόσο ισχυρό απόθεμα δύναμης και ταλέντου, θα ήταν κρίμα για όλους να μην μπορούν να παράσχουν στον κόσμο περισσότερες επιλογές "αντικατάστασης" για το openai.

νέα

είναι και πάλι ζωηρό! η βελτιωμένη έκδοση του openai "her" είναι επίσημα ανοιχτή, ξεπερνώντας την αναβάθμιση "βαθμού παραγωγής" του gemini...

εισαγωγή

τα στοιχεία επικοινωνίας μου