τα στοιχεία επικοινωνίας μου
ταχυδρομείο[email protected]
2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
συγγραφέας σουχόι
συντάκτης|wang bo
με τα στελέχη να αποχωρούν και την apple να αποσύρεται από τις διαπραγματεύσεις χρηματοδότησης, αυτή είναι αναμφίβολα μια ταραχώδης εβδομάδα για το openai. αλλά το openai εξακολουθεί να επιμένει να πείσει τους προγραμματιστές να δημιουργήσουν εφαρμογές χρησιμοποιώντας τα μοντέλα ai τους.
την 1η οκτωβρίου, τοπική ώρα στις ηνωμένες πολιτείες, το openai πραγματοποίησε το devday στο σαν φρανσίσκο. σε αντίθεση με την περσινή μεγάλη εκδήλωση, η φετινή εκδήλωση ήταν πιο χαμηλών τόνων και μετατράπηκε σε roadshow για προγραμματιστές.
αυτή τη φορά, το openai δεν λανσάρει ένα σημαντικό προϊόν, αλλά αντ' αυτού εργάζεται στο υπάρχονόλα συμπεριλαμβάνονταιεργαλεία καιapiτο κιτ έχει βελτιωθεί σταδιακά.
αποκάλυψαν τέσσερις καινοτομίες:vision fine-tuning, σε πραγματικό χρόνοapi(api σε πραγματικό χρόνο), μοντέλο απόσταξης και προσωρινή αποθήκευση.
για παράδειγμα, η δημόσια έκδοση beta του api σε πραγματικό χρόνο επιτρέπει στους προγραμματιστές να δημιουργούν εφαρμογές που μπορούν να δημιουργήσουν γρήγορα φωνητικές αποκρίσεις ai. αυτή η νέα τεχνολογία όχι μόνο ανταποκρίνεται γρήγορα, αλλά παρέχει επίσης έξι διαφορετικές επιλογές ήχου. αυτό το api δεν «αντιγράφει» την προηγμένη λειτουργία φωνής του chatgpt, αλλά η λειτουργικότητα είναι βασικά παρόμοια.
ο romain huet, διευθυντής εμπειρίας προγραμματιστών του openai, έδειξε επίσης πώς να χρησιμοποιήσετε το o1 για να δημιουργήσετε μια εφαρμογή iphone για ios με μια προτροπή σε περίπου 30 δευτερόλεπτα.
το yute επιδεικνύει τη δημιουργία εφαρμογών iphone για ios. πίστωση εικόνας: x από romain huet
τα τελευταία δύο χρόνια, το openai μείωσε το κόστος πρόσβασης των προγραμματιστών στο api του κατά 99% ως απάντηση στην πίεση της αγοράς από ανταγωνιστές όπως η meta και η google. και από το πλαίσιο του νέου εργαλείου, μπορούμε να μάθουμε,η στρατηγική του openai ευνοεί την ενίσχυση του οικοσυστήματος προγραμματιστών του αντί να ανταγωνίζεται άμεσα σε εφαρμογές τελικού χρήστη.
πριν από την εκδήλωση, ο επικεφαλής προϊόντων του openai kevin weil ανέφερε ότι η επικεφαλής τεχνολογίας mira murati και ο επικεφαλής έρευνας bob mcgrew'sη παραίτηση δεν θα επηρεάσει τη μακροπρόθεσμη ανάπτυξη της εταιρείας.είπε ότι παρά τις «συχνές αλλαγές προσωπικού», το openai μπορεί ακόμα «να διατηρήσει την αναπτυξιακή δυναμική».
καθώς ομάδες τεχνολογίας όπως η google και η apple αγωνίζονται να αναπτύξουν τους λεγόμενους πράκτορες τεχνητής νοημοσύνης στους καταναλωτές,το openai σκέφτεταιόλα συμπεριλαμβάνονταιο βοηθός θα «γίνει mainstream» την επόμενη χρονιά.οι δυνατότητες των βοηθών τεχνητής νοημοσύνης, συμπεριλαμβανομένης της συλλογιστικής και της ολοκλήρωσης σύνθετων εργασιών, έχουν γίνει το πιο πρόσφατο πεδίο μάχης για τις εταιρείες τεχνολογίας, που κάθε μία ελπίζει να αξιοποιήσει αυτήν την ταχέως αναπτυσσόμενη τεχνολογία για να αναπτύξει ροές εσόδων.
«ελπίζεται ότι οι μέθοδοι αλληλεπίδρασης της τεχνητής νοημοσύνης μπορούν να καλύψουν όλους τους τρόπους με τους οποίους αλληλεπιδρούν οι άνθρωποι, «η ανάπτυξη συστημάτων πρακτόρων θα καταστήσει δυνατή αυτή την αλληλεπίδραση». οι μέθοδοι σε αυτό, είτε πρόκειται για λεκτική επικοινωνία, συναισθηματική έκφραση ή μη λεκτική επικοινωνία, κ.λπ., κάνουν την αλληλεπίδραση μεταξύ ανθρώπων και τεχνητής νοημοσύνης όσο το δυνατόν πιο φυσική και απρόσκοπτη.
εκτός από το openai, άλλες εταιρείες όπως η microsoft, η salesforce και η workday θέτουν επίσης τις δυνατότητες αντιπροσώπων στον πυρήνα των σχεδίων τεχνητής νοημοσύνης τους, ενώ η google και η meta έχουν επίσης δηλώσει ότι η ενσωμάτωση μοντέλων τεχνητής νοημοσύνης στα προϊόντα τους αποτελεί βασικό τομέα εστίασης για αυτές.
πέρυσι, το openai κυκλοφόρησε το "assistants api" του για να επιτρέψει στους προγραμματιστές να δημιουργήσουν πράκτορες χρησιμοποιώντας την τεχνολογία του. αλλά αποκάλυψαν επίσης ότι τα σχέδια παρεμποδίστηκαν από την περιορισμένη λειτουργικότητα των πρώιμων μοντέλων.
ο weill ανέφερε ότι οι βελτιώσεις στη σκέψη και τη λογική που παρέχονται από τα τελευταία μοντέλα του openai θα αντικατοπτρίζονται στα προϊόντα του, όπως το chatgpt, και στις startups και τους προγραμματιστές που κατασκευάζουν εφαρμογές χρησιμοποιώντας το api του, αλλά δεν είπε αν θα αναπτύξουν αμέσως το δικό τους. πράκτορας ai.
το openai παρουσίασε μια ζωντανή συνομιλία με ένα σύστημα τεχνητής νοημοσύνης που έχει ως αποστολή να βοηθήσει στην εύρεση και αγορά τοπικά διαθέσιμων προϊόντων. για παράδειγμα, αν αγοράσετε φράουλες, η τεχνητή νοημοσύνη θα καλέσει στη συνέχεια τον έμπορο για να κάνει μια παραγγελία σύμφωνα με τις οδηγίες του χρήστη.
επίδειξη τεχνητής νοημοσύνης που αγοράζει φράουλες με βάση προτροπές πηγή εικόνας: ken collins' x
το openai τονίζει ότι όποιος χρησιμοποιεί την τεχνολογία πρέπει να καταστήσει σαφές ότι πρόκειται για τεχνητή νοημοσύνη, όχι για άνθρωπο και ότι παρέχει στους προγραμματιστές μόνο περιορισμένες προκαθορισμένες επιλογές, όχι τη δυνατότητα δημιουργίας νέων ήχων.
«εάν το κάνουμε σωστά, θα έχουμε περισσότερο χρόνο για να επικεντρωθούμε σε ό,τι είναι σημαντικό και λιγότερο χρόνο να κοιτάμε τα τηλέφωνά μας», είπε ο ware.
1. προσωρινή αποθήκευση συμβουλών: σωτήρας για τους προϋπολογισμούς προγραμματιστών
η λειτουργία "hint cache" είναι μια από τις πιο σημαντικές εκκινήσεις αυτού του συμβάντος και χρησιμοποιείται για τη μείωση του κόστους και της καθυστέρησης για τους προγραμματιστές.
πολλοί προγραμματιστές που κατασκευάζουν εφαρμογές τεχνητής νοημοσύνης επαναχρησιμοποιούν το ίδιο περιβάλλον σε πολλές κλήσεις api, όπως όταν επεξεργάζεστε μια βάση κώδικα ή όταν κάνετε μια μακρά συνομιλία πολλαπλών στροφών με ένα chatbot. η προσωρινή μνήμη συμβουλών εφαρμόζει αυτόματα έκπτωση 50% στο διακριτικό εισόδου που έχει υποστεί τελευταία επεξεργασία από το μοντέλο, χρησιμοποιώντας ξανά το διακριτικό εισόδου που εμφανίστηκε πιο πρόσφατα.
τα διακριτικά εισόδου στην προσωρινή αποθήκευση μπορούν να εξοικονομήσουν έως και 50% σε σύγκριση με τα διακριτικά που δεν έχουν αποθηκευτεί στην κρυφή μνήμη σε διάφορα μοντέλα gpt. πηγή εικόνας: openai
διαθεσιμότητα και τιμολόγηση της προσωρινής μνήμης συμβουλών από σήμερα, η προσωρινή μνήμη υπόδειξης θα εφαρμόζεται αυτόματα στις πιο πρόσφατες εκδόσεις των gpt-4o, gpt-4o mini, o1-preview και o1-mini, καθώς και σε βελτιωμένες εκδόσεις αυτών των μοντέλων. οι αποθηκευμένες συμβουλές παρέχουν έκπτωση σε σύγκριση με τις μη αποθηκευμένες συμβουλές.
οι κλήσεις api προς υποστηριζόμενα μοντέλα θα επωφεληθούν αυτόματα από την προσωρινή αποθήκευση, για μηνύματα που υπερβαίνουν τα 1024 διακριτικά. το μεγαλύτερο πρόθεμα υποδείξεων που υπολογίζεται πριν από την προσωρινή μνήμη api, ξεκινώντας από το σημάδι 1024 και αυξήσεις 128 σημείων. εάν ένας χρήστης χρησιμοποιεί συχνά υποδείξεις με κοινά προθέματα, το openai θα εφαρμόσει αυτόματα την έκπτωση στην προσωρινή μνήμη υποδείξεων χωρίς ο χρήστης να χρειάζεται να κάνει αλλαγές στην ενσωμάτωση του api.
η προσωρινή μνήμη διαγράφεται συνήθως μετά από 5 έως 10 λεπτά αδράνειας και αφαιρείται πάντα εντός μιας ώρας από την τελευταία χρήση της κρυφής μνήμης. όπως όλες οι υπηρεσίες api, η προσωρινή αποθήκευση συμβουλών υπόκειται στη δέσμευση εταιρικού απορρήτου του opai. η προσωρινή μνήμη συμβουλών δεν μοιράζεται μεταξύ οργανισμών.
η σημαντική μείωση του κόστους παρέχει ευκαιρίες σε διάφορες εταιρείες να αναπτύξουν νέες εφαρμογές που προηγουμένως ήταν πολύ δαπανηρές στην εφαρμογή τους.
ο olivier godement, επικεφαλής προϊόντων πλατφόρμας openai, μίλησε σε μια μικρή συνέντευξη τύπου στα κεντρικά γραφεία του openai στο σαν φρανσίσκο: "ήμασταν πολύ απασχολημένοι. πριν από δύο χρόνια το gpt-3 πρωτοστατούσε στην τεχνολογία στην κατηγορία του, αλλά τώρα έχουμε πετύχει σχεδόν 1.000- διπλάσια μείωση του σχετικού κόστους».
2. οπτική λεπτομέρεια: τα νέα σύνορα της οπτικής τεχνητής νοημοσύνης
μια άλλη μεγάλη ανακοίνωση είναι η εισαγωγή δυνατοτήτων οπτικής μικρορύθμισης στο τελευταίο μοντέλο γλώσσας μεγάλης κλίμακας του openai, το gpt-4o. οι προγραμματιστές μπορούν να ρυθμίσουν με ακρίβεια όχι μόνο το κείμενο αλλά και τις εικόνες, κάτι που θα μπορούσε να μεταμορφώσει τομείς όπως τα αυτοοδηγούμενα αυτοκίνητα, η ιατρική απεικόνιση και οι δυνατότητες οπτικής αναζήτησης.
από την εισαγωγή του μικρορύθμισης κειμένου, εκατοντάδες χιλιάδες προγραμματιστές έχουν αξιοποιήσει σύνολα δεδομένων μόνο κειμένου για να βελτιστοποιήσουν τα μοντέλα για να βελτιώσουν την απόδοση σε συγκεκριμένες εργασίες. αλλά σε πολλές περιπτώσεις, η λεπτομέρεια κειμένου από μόνη της δεν θα καλύψει όλες τις ανάγκες. μέσω οπτικής λεπτομέρειας, οι προγραμματιστές μπορούν να βελτιστοποιήσουν το μοντέλο gpt-4o ανεβάζοντας απλώς τουλάχιστον 100 εικόνες για να βελτιώσουν την απόδοσή του σε εργασίες όρασης, ειδικά κατά την επεξεργασία μεγάλων ποσοτήτων δεδομένων κειμένου και εικόνας.
η grab, η κορυφαία εταιρεία διανομής και διανομής τροφίμων στη νοτιοανατολική ασία, έχει ήδη αξιοποιήσει την τεχνολογία για να βελτιώσει τις υπηρεσίες χαρτογράφησης της, σύμφωνα με το openai. χρησιμοποιώντας μόλις 100 παραδείγματα, το grab βελτίωσε την ακρίβεια μέτρησης λωρίδας κατά 20% και την ακρίβεια θέσης σήμανσης ορίου ταχύτητας κατά 13%.
παράδειγμα πινακίδας ορίου ταχύτητας που επισημάνθηκε με επιτυχία από το μοντέλο οπτικής λεπτομέρειας gpt-4o πηγή εικόνας: openai
το automat χρησιμοποιεί οπτική λεπτομέρεια για να εκπαιδεύσει το gpt-4o να αναγνωρίζει στοιχεία διεπαφής χρήστη στην οθόνη, με βάση ένα σύνολο δεδομένων στιγμιότυπων οθόνης, βελτιώνοντας έτσι το ποσοστό επιτυχίας των εργαλείων αυτοματοποίησής του. με αυτόν τον τρόπο, το ποσοστό επιτυχίας του ρομπότ agent της automat αυξήθηκε από 16,60% σε 61,67%.
το ρομπότ επιτραπέζιου υπολογιστή εντοπίζει με επιτυχία τα κέντρα στοιχείων διεπαφής χρήστη μέσω οπτικής λεπτομέρειας χρησιμοποιώντας στιγμιότυπα οθόνης ιστότοπου, πηγή: openai
οι πραγματικές εφαρμογές οπτικής λεπτομέρειας επιδεικνύουν τις δυνατότητες οπτικής μικρορύθμισης για τη σημαντική βελτίωση των υπηρεσιών τεχνητής νοημοσύνης σε διάφορους κλάδους χρησιμοποιώντας μικρές παρτίδες δεδομένων οπτικής εκπαίδευσης.
η δυνατότητα οπτικής μικρορύθμισης είναι πλέον διαθέσιμη σε όλους τους χρήστες που πληρώνουν και υποστηρίζει το πιο πρόσφατο μοντέλο gpt-4o. οι προγραμματιστές μπορούν να αξιοποιήσουν αυτές τις δυνατότητες για να επεκτείνουν τα υπάρχοντα σύνολα δεδομένων εκπαίδευσης για τελειοποίηση εικόνας. επιπλέον, το openai προσφέρει 1 εκατομμύριο δωρεάν κουπόνια εκπαίδευσης την ημέρα έως τις 31 οκτωβρίου 2024. οι αμοιβές για την κατάρτιση και την εξαγωγή συμπερασμάτων θα προσαρμοστούν αργότερα.
3. api σε πραγματικό χρόνο: γεφυρώνοντας το χάσμα μεταξύ τεχνητής νοημοσύνης συνομιλίας
το api σε πραγματικό χρόνο βρίσκεται αυτήν τη στιγμή σε δημόσια έκδοση beta. επιτρέπει στους προγραμματιστές να δημιουργούν εμπειρίες χαμηλής καθυστέρησης, πολλαπλών τρόπων, ειδικά σε εφαρμογές ομιλίας σε ομιλία. αυτό σημαίνει ότι οι προγραμματιστές μπορούν να αρχίσουν να προσθέτουν τα φωνητικά χειριστήρια του chatgpt στις εφαρμογές τους.
για να δείξει τις δυνατότητες του api, το openai παρουσίασε μια ενημερωμένη έκδοση του wanderlust, μιας εφαρμογής ταξιδιωτικού σχεδιασμού που παρουσιάστηκε στο περσινό συνέδριο.
με τη βοήθεια του api σε πραγματικό χρόνο, οι χρήστες μπορούν να μιλήσουν απευθείας στην εφαρμογή και να προγραμματίσουν το ταξίδι τους με φυσικό τρόπο συνομιλίας. το σύστημα επιτρέπει ακόμη και διακοπές κατά τη διάρκεια της ομιλίας, μιμούμενοι την ανθρώπινη συνομιλία.
το healthify είναι μια εφαρμογή προπόνησης διατροφής και φυσικής κατάστασης που χρησιμοποιεί api σε πραγματικό χρόνο για να ενεργοποιήσει φυσικές συνομιλίες με ai. πηγή εικόνας: openai
ενώ ο προγραμματισμός ταξιδιού είναι μόνο ένα παράδειγμα, τα api σε πραγματικό χρόνο ανοίγουν ένα ευρύ φάσμα δυνατοτήτων για εφαρμογές φωνής σε διάφορους κλάδους. από την εξυπηρέτηση πελατών έως τα εργαλεία εκπαίδευσης και προσβασιμότητας, οι προγραμματιστές διαθέτουν πλέον ισχυρούς νέους πόρους για να δημιουργήσουν πιο έξυπνες και ανταποκρινόμενες εμπειρίες που βασίζονται σε τεχνητή νοημοσύνη.
«όποτε σχεδιάζουμε ένα προϊόν, βασικά σκεφτόμαστε τόσο τις νεοφυείς επιχειρήσεις όσο και τις επιχειρήσεις ταυτόχρονα», εξήγησε η goldment: «έτσι, στην άλφα φάση, έχουμε πολλές επιχειρήσεις που χρησιμοποιούν api, καθώς και νέα μοντέλα για νέα προϊόντα.
το api σε πραγματικό χρόνο απλοποιεί ουσιαστικά τη διαδικασία δημιουργίας φωνητικών βοηθών και άλλων εργαλείων τεχνητής νοημοσύνης συνομιλίας, εξαλείφοντας την ανάγκη να συνδυάζονται πολλά μοντέλα για μεταγραφή, συμπερασματικά στοιχεία και μετατροπή κειμένου σε ομιλία.
οι πρώτοι χρήστες, όπως η εφαρμογή γυμναστικής διατροφής και φυσικής κατάστασης, healthify και η πλατφόρμα εκμάθησης γλωσσών speak, έχουν ενσωματώσει api σε πραγματικό χρόνο στα προϊόντα τους. τα api έχουν τη δυνατότητα να δημιουργήσουν πιο φυσικές και ελκυστικές εμπειρίες χρηστών σε τομείς που κυμαίνονται από την υγειονομική περίθαλψη έως την εκπαίδευση.
η δομή τιμολόγησης του api σε πραγματικό χρόνο, αν και δεν είναι φθηνή (0,06 $ ανά λεπτό εισόδου ήχου, 0,24 $ ανά λεπτό εξόδου ήχου), εξακολουθεί να αντιπροσωπεύει μια σημαντική πρόταση αξίας για προγραμματιστές που θέλουν να δημιουργήσουν εφαρμογές που βασίζονται στη φωνή.
4. μοντέλο απόσταξης: προς πιο προσιτή τεχνητή νοημοσύνη
ίσως η πιο μεταμορφωτική ανακοίνωση αυτού είναι η εισαγωγή μοντέλου απόσταξης.
η ενσωματωμένη ροή εργασιών του επιτρέπει στους προγραμματιστές να χρησιμοποιούν την έξοδο προηγμένων μοντέλων όπως το o1-preview και το gpt-4o για να βελτιώσουν την απόδοση πιο αποτελεσματικών μοντέλων όπως το gpt-4o mini. οι μικρές εταιρείες μπορούν επίσης να χρησιμοποιούν παρόμοια χαρακτηριστικά προηγμένων μοντέλων χωρίς να ανησυχούν για το κόστος υπολογισμού.
επίδειξη μικρορύθμισης, πηγή: openai
η απόσταξη μοντέλων αντιμετωπίζει το μακροχρόνιο χάσμα της βιομηχανίας τεχνητής νοημοσύνης μεταξύ συστημάτων αιχμής, έντασης πόρων και πιο προσιτά αλλά λιγότερο ισχυρά συστήματα.
ας υποθέσουμε ότι μια μικρή startup ιατρικής τεχνολογίας αναπτύσσει ένα διαγνωστικό εργαλείο τεχνητής νοημοσύνης για τις αγροτικές κλινικές χρησιμοποιώντας την απόσταξη μοντέλων, η ομάδα μπορεί να εκπαιδεύσει ένα μικρό μοντέλο που μπορεί να λειτουργήσει σε τυπικό φορητό υπολογιστή ή tablet και να συλλάβει τις περισσότερες διαγνώσεις του μεγαλύτερου μοντέλου .
αυτό μπορεί να φέρει εξελιγμένες δυνατότητες τεχνητής νοημοσύνης σε ρυθμίσεις περιορισμένων πόρων για τη βελτίωση των αποτελεσμάτων υγειονομικής περίθαλψης σε υποεξυπηρετούμενες περιοχές.
δεν είναι δύσκολο να καταλάβουμε από αυτήν την ενημέρωση ότι το openai έχει κάνει μια σημαντική στρατηγική αλλαγή - εστιάζοντας περισσότερο στην ανάπτυξη του οικοσυστήματος παρά απλώς στην επιδίωξη εντυπωσιακών λανσαρισμάτων προϊόντων, αν και η στρατηγική μπορεί να μην είναι τόσο άμεση στο κοινό όσο το προϊόν εκτοξεύει.
σε σύγκριση με τη συναρπαστική ημέρα προγραμματιστή το 2023, η οποία κυκλοφόρησε το κατάστημα gpt και τα προσαρμοσμένα εργαλεία gpt, η φετινή εκδήλωση είναι πολύ χαμηλότερη. οι γρήγορες αλλαγές στον τομέα της τεχνητής νοημοσύνης, σε συνδυασμό με σημαντικές προόδους από τους ανταγωνιστές και τις αυξανόμενες ανησυχίες σχετικά με τη διαθεσιμότητα των εκπαιδευτικών δεδομένων, ώθησαν το openai να επικεντρωθεί περισσότερο στη βελτίωση των υφιστάμενων εργαλείων και στην ενίσχυση των δυνατοτήτων των προγραμματιστών για να αντιμετωπίσουν αυτές τις αλλαγές.
βελτιώνοντας την αποδοτικότητα του μοντέλου και μειώνοντας το κόστος, το openai ελπίζει να διατηρήσει το πλεονέκτημά του έναντι του σκληρού ανταγωνισμού και να αντιμετωπίσει ζητήματα έντασης πόρων και περιβαλλοντικών επιπτώσεων. η επιτυχία του openai θα εξαρτηθεί σε μεγάλο βαθμό από την ικανότητά του να καλλιεργεί αποτελεσματικά ένα ζωντανό οικοσύστημα προγραμματιστών.
παραπομπές:
《εισαγωγή του api σε πραγματικό χρόνο》,openai
《εισαγωγή της όρασης στο api βελτιστοποίησης》,openai
《προτροπή προσωρινής αποθήκευσης στο api》,openai
《μοντέλο απόσταξης στο api》openai
《openai's devday 2024: 4 σημαντικές ενημερώσεις που θα κάνουν το ai πιο προσιτό και προσιτό》,venturebeat
《το devday του openai φέρνει το api σε πραγματικό χρόνο και άλλες λιχουδιές για προγραμματιστές εφαρμογών ai》,techcrunch
(πηγή εικόνας εξωφύλλου: openai)