Δευτέρα 3 Φεβρουαρίου 2025

Πώς η DeepSeek άλλαξε το μέλλον της τεχνητής νοημοσύνης και τι σημαίνει αυτό για την εθνική ασφάλεια

Το επίτευγμα της Κίνας είναι μια ευκαιρία για τις αμερικανικές εταιρείες να κατασκευάσουν πιο αποτελεσματικά εργαλεία. Αυτό θα βοηθήσει επίσης τον αμερικανικό στρατό.

Λίγες ημέρες αφότου η κινεζική DeepSeek παρουσίασε λεπτομερώς μια προσέγγιση για τη γενεσιουργό τεχνητή νοημοσύνη που χρειάζεται μόνο ένα κλάσμα της υπολογιστικής ισχύος που χρησιμοποιείται για την κατασκευή διακεκριμένων αμερικανικών εργαλείων, η παγκόσμια συζήτηση γύρω από την τεχνητή νοημοσύνη και την εθνική ασφάλεια -από το πώς το Πεντάγωνο αγοράζει και χρησιμοποιεί την τεχνητή νοημοσύνη έως το πώς οι ξένες δυνάμεις θα μπορούσαν να διαταράξουν την αμερικανική ζωή, συμπεριλαμβανομένης της ιδιωτικής ζωής- αλλάζει.
Η ανακοίνωση της DeepSeek προκάλεσε συλλογικό “θρήνο” στον Λευκό Οίκο, τη Wall Street και τη Silicon Valley. Στην Ουάσινγκτον, ο πρόεδρος Τραμπ την αποκάλεσε «αφύπνιση για τις βιομηχανίες μας ότι πρέπει να είμαστε επικεντρωμένοι στον ανταγωνισμό» έναντι της Κίνας. Η εκπρόσωπος Τύπου του Λευκού Οίκου Κάρολαϊν Λέβιτ δήλωσε ότι το Συμβούλιο Εθνικής Ασφάλειας εξετάζει επί του παρόντος την εφαρμογή. Το Πολεμικό Ναυτικό την έχει ήδη απαγορεύσει. Στη Wall Street, η μετοχή της εταιρείας κατασκευής τσιπ Nvidia σημείωσε πτώση. Η OpenAI, ο πλησιέστερος αμερικανικός ανταγωνιστής της DeepSeek, καταγγέλλει ότι η εφαρμογή ουσιαστικά αποτελεί δικό της μοντέλο.

Αν πιστεύετε ότι οι Ηνωμένες Πολιτείες «πρέπει να κερδίσουν τον ανταγωνισμό της τεχνητής νοημοσύνης που εντείνει τον στρατηγικό ανταγωνισμό με την Κίνα», όπως έγραψαν το 2021 ο πρώην πρόεδρος της Google Έρικ Σμιντ και ο πρώην αναπληρωτής υπουργός Άμυνας Ρόμπερτ Γουόρκ, τότε το DeepSeek είναι μεγάλη υπόθεση.

Γιατί το DeepSeek είναι τόσο σημαντικό; Για ένα πράγμα, είναι πολύ πιο ανοιχτού κώδικα από άλλα μοντέλα. Αλλά η καθοριστική τεχνική καινοτομία έγκειται στην ικανότητα του μοντέλου να αποστάζει προηγμένες δυνατότητες συλλογισμού από τεράστια μοντέλα σε μικρότερα, πιο αποδοτικά αντίστοιχα. Ένα μοντέλο DeepSeek συχνά ξεπερνά μεγαλύτερες εναλλακτικές λύσεις ανοικτού κώδικα, θέτοντας ένα νέο πρότυπο για τις επιδόσεις συμπαγούς τεχνητής νοημοσύνης.

Το DeepSeek βασίζεται σε μεγάλο βαθμό στην ενισχυτική μάθηση για την ανάπτυξη δεξιοτήτων συλλογισμού, παρακάμπτοντας την εποπτευόμενη τελειοποίηση που χρησιμοποιείται συνήθως στις αρχικές φάσεις από ανταγωνιστές όπως το OpenAI. Αυτή η προσέγγιση αποτελεί σκόπιμη απόκλιση από τις υβριδικές στρατηγικές εκπαίδευσης που χρησιμοποιούν οι γίγαντες της τεχνητής νοημοσύνης με έδρα τις ΗΠΑ.

Τα αποτελέσματα συγκριτικής αξιολόγησης που περιγράφονται στην εργασία αποκαλύπτουν ότι τα μοντέλα της DeepSeek είναι ιδιαίτερα ανταγωνιστικά σε εργασίες έντασης συλλογισμού, επιτυγχάνοντας σταθερά κορυφαίες επιδόσεις σε τομείς όπως τα μαθηματικά και η κωδικοποίηση. Ωστόσο, η έρευνα αναδεικνύει και ορισμένα τρωτά σημεία, ιδίως σε εργασίες που δεν σχετίζονται με τη λογική και την ακρίβεια πραγματικών ερωτημάτων, όπου υπολείπεται των πιο προηγμένων προσφορών του OpenAI.

Κανείς δεν έχει επαληθεύσει ανεξάρτητα ότι η DeepSeek δεν χρησιμοποιεί μεγάλους υπολογιστικούς πόρους για να επιτύχει τα αποτελέσματα των συγκριτικών της επιδόσεων (ή ότι δεν έχει ουσιαστικά αντιγράψει το OpenAI), αλλά οι έλεγχοι των ΗΠΑ σε εξαιρετικά προηγμένα μικροτσίπ θα περιόριζαν τους πόρους που είναι διαθέσιμοι στην Κίνα.

Ο Άλεξ Γουάνγκ, διευθύνων σύμβουλος της Scale AI, η εταιρεία του οποίου αξιολογεί επίσης μοντέλα AI, περιέγραψε το DeepSeek ως συγκρίσιμο με το OpenAI σε συνέντευξη στο CNBC. Είπε επίσης ότι η Κίνα έχει αποκτήσει περίπου 50.000 από τα τσιπ H100 της Nvidia παρά τους ελέγχους εξαγωγής.

Ένας εκπρόσωπος της Nvidia δεν απάντησε άμεσα στον ισχυρισμό αυτό. Δήλωσε στο Defense One: «Το DeepSeek είναι μια εξαιρετική εξέλιξη της τεχνητής νοημοσύνης και ένα τέλειο παράδειγμα του Test Time Scaling,» μια τεχνική που αυξάνει την υπολογιστική ισχύ όταν το μοντέλο λαμβάνει δεδομένα για να παράγει ένα νέο αποτέλεσμα. Η επιπλέον υπολογιστική ισχύς επιτρέπει στο μοντέλο να εξερευνήσει διαφορετικές επιλογές και να βελτιώσει τις απαντήσεις τους, φτάνοντας έτσι σε καλύτερες απαντήσεις με λιγότερη εκπαίδευση (λιγότερος υπολογισμός). Το μοντέλο μπορεί στη συνέχεια να εστιάσει την υπολογιστική του ενέργεια πιο αποτελεσματικά.

«Η εργασία της DeepSeek δείχνει πώς μπορούν να δημιουργηθούν νέα μοντέλα με τη χρήση αυτής της τεχνικής, αξιοποιώντας ευρέως διαθέσιμα μοντέλα και υπολογιστές που συμμορφώνονται πλήρως με τον έλεγχο των εξαγωγών. Η εξαγωγή συμπερασμάτων απαιτεί σημαντικό αριθμό GPU της NVIDIA και δικτύωση υψηλής απόδοσης. Τώρα έχουμε τρεις νόμους κλιμάκωσης: προ-εκπαίδευση και μετά-εκπαίδευση, οι οποίοι συνεχίζονται, και νέα κλιμάκωση σε χρόνο δοκιμής», δήλωσε ο εκπρόσωπος της Nvidia.

Η εξέλιξη αυτή αντιπροσωπεύει μια θεμελιώδη αλλαγή στη συζήτηση για το πώς θα οικοδομηθεί η κυριαρχία της τεχνητής νοημοσύνης. Ενώ εταιρείες όπως η OpenAI πέτυχαν τα αποτελέσματά τους με βάση τεράστια σύνολα δεδομένων, πολύ μεγάλα μοντέλα και διαρκώς επεκτεινόμενους υπολογιστικούς πόρους, η επόμενη φάση της τεχνητής νοημοσύνης πιθανότατα θα εγκαινιάσει μικρότερα μοντέλα που θα χρειάζονται λιγότερους υπολογιστικούς πόρους.

Αυτό μπορεί να αποτελεί κακό σημάδι για τους παρόχους cloud μεγάλων επιχειρήσεων, συμπεριλαμβανομένων πολλών από τους τεχνολογικούς γίγαντες των οποίων οι ηγέτες συμμετείχαν στην ορκωμοσία του Τραμπ. Πολλές εταιρείες υπολόγιζαν στην τεράστια ζήτηση για προϊόντα γεννητικής ΤΝ που απαιτούν πόρους -και συμπιέζουν εναλλακτικές προσεγγίσεις. Αλλά η αλλαγή στη συζήτηση γύρω από τον τρόπο κατασκευής της ΤΝ θα μπορούσε να είναι καλή είδηση για τα στρατεύματα που θέλουν να αξιοποιήσουν τα πιο ισχυρά εργαλεία σε μέρη όπου η ισχύς και η συνδεσιμότητα με μεγάλους πόρους cloud είναι αποσπασματικές. Και θα μπορούσε επίσης να είναι χρήσιμη για ένα υπουργείο Άμυνας που έχει αναλάβει να συλλάβει τις καλύτερες δυνατότητες ΤΝ και ταυτόχρονα να περιορίσει τις δαπάνες.

Ένα νέο, μικρότερο μέλλον για την τεχνητή νοημοσύνη

Οι ερευνητές της τεχνητής νοημοσύνης που προσπαθούσαν να χαράξουν έναν πολύ διαφορετικό δρόμο από αυτόν του OpenAI και των μεγάλων εταιρικών παρόχων cloud δεν εξεπλάγησαν από το επίτευγμα της DeepSeek.

Ο επιστήμονας δεδομένων Ντρου Μπρούνιγκ δήλωσε στο Defense One: «Αν υπάρχει ένα μάθημα από τον θρίαμβο της DeepSeek, αυτό είναι το εξής: να είστε επιφυλακτικοί όταν ο δρόμος προς την πρόοδο είναι απλώς να ξοδεύετε περισσότερα χρήματα. Αυτός ο δρόμος δεν ευνοεί την καινοτομία και οι φτωχότεροι ανταγωνιστές σας θα αναγκαστούν να γίνουν δημιουργικοί, να εργαστούν εντός των περιορισμών τους και τελικά… θα κερδίσουν. Το να ξοδεύεις δεν είναι καινοτομία».

Σε μια πρόσφατη ανάρτηση στο blog, περιέγραψε πώς τα συνθετικά δεδομένα μπορούν να μειώσουν την ποσότητα των ακατέργαστων δεδομένων -και την υπολογιστική ισχύ- που απαιτούνται για την παραγωγή μοντέλων υψηλής απόδοσης. «Αυτή η τακτική ωφελεί τα μικρότερα μοντέλα με τον ίδιο ρυθμό όπως και τα μεγάλα», είπε.

Ο Πιτ Γουόρντεν, διευθύνων σύμβουλος της νεοσύστατης επιχείρησης AI Useful Sensors, δήλωσε στο Defense One: «Το DeepSeek αποδεικνύει ότι το να ξοδεύουμε όλο και περισσότερα χρήματα σε όλο και μεγαλύτερα μοντέλα δεν είναι η μόνη προσέγγιση για τη βελτίωση της AI. Το TinyML βασίζεται στην ιδέα ότι χρησιμοποιώντας μικρότερα μοντέλα που είναι φθηνότερο να εκπαιδευτούν, μπορούμε να δημιουργήσουμε εφαρμογές που έχουν μεγάλο αντίκτυπο, παρά το μέγεθός τους».

Ενισχύστε το militaire.gr ,δείτε γιατί ΕΔΩ

Αλλά ο διδακτορικός φοιτητής AI του Berkeley Ριτβίκ Γκούπτα, ο οποίος μαζί με αρκετούς συναδέλφους του έγραψε μία από τις θεμελιώδεις εργασίες σχετικά με τη δημιουργία μικρότερων μοντέλων AI που παράγουν μεγάλα αποτελέσματα, προειδοποίησε ότι μεγάλο μέρος της διαφημιστικής εκστρατείας γύρω από το DeepSeek δείχνει μια λανθασμένη ανάγνωση του τι ακριβώς είναι, το οποίο περιέγραψε ως «ακόμα ένα μεγάλο μοντέλο», με 671 δισεκατομμύρια παραμέτρους.

«Ωστόσο, είναι πολύ αξιοσημείωτο το γεγονός ότι η ομάδα DeepSeek-R1 προσφέρει “αποσταγμένες” εκδόσεις των μοντέλων της από πρώτο χέρι», δήλωσε ο Γκούπτα στο Defense One. «Αυτό που έκανε η DeepSeek είναι να πάρει μικρότερες εκδόσεις των Λάμα και Κουέν που κυμαίνονται από 1,5-70 δισεκατομμύρια παραμέτρους και να τις εκπαιδεύσει στις εκροές του DeepSeek-R1. Αυτό επιτρέπει σε ένα μοντέλο ‘R1-like’ να λειτουργεί σε μικρότερες συσκευές, όπως φορητούς υπολογιστές ή τηλέφωνα».

Οι επιδόσεις του DeepSeek -στο βαθμό που δείχνουν τι είναι δυνατό- θα δώσουν στο Υπουργείο Άμυνας μεγαλύτερη επιρροή στις συζητήσεις του με τη βιομηχανία και θα επιτρέψουν στο Υπουργείο να βρει περισσότερους ανταγωνιστές.

«Δεν θα με εξέπληττε να δω το Υπουργείο Άμυνας να αγκαλιάζει αμερικανικές αναπαραγωγές του DeepSeek και του Κουέν με ανοιχτό κώδικα», δήλωσε ο Γκούπτα. «Το υπουργείο Άμυνας είχε πάντα την έλξη να ζητάει ειδικές, on-premise εκδόσεις των κατά τα άλλα προσφορών υπηρεσιών μόνο στο cloud. Δεν θα με εξέπληττε αν κάνουν αυτό το αίτημα για την OpenAI και την Claude».

Η Χάιντι Κλάαφ, επικεφαλής επιστήμονας Τεχνητής Νοημοσύνης στο Ινστιτούτο AI Now, επικεντρώνει την έρευνά της στην ασφάλεια της Τεχνητής Νοημοσύνης στα οπλικά συστήματα και στην εθνική ασφάλεια. Δήλωσε στο Defense One ότι η ανακάλυψη, αν είναι πραγματική, θα μπορούσε να ανοίξει τη χρήση της παραγωγικής τεχνητής νοημοσύνης σε μικρότερους παίκτες, συμπεριλαμβανομένων ενδεχομένως μικρών κατασκευαστών. Αλλά τέτοια μοντέλα δεν θα είναι ποτέ κατάλληλα για μάχη, είπε, παρά την προθυμία τους να τα χρησιμοποιήσουν σε τέτοια πλαίσια.

Ενισχύστε το militaire.gr ,δείτε γιατί ΕΔΩ

«Σε γενικές γραμμές, τα LLM ή τα μοντέλα θεμελίωσης δεν είναι κατάλληλα για κρίσιμα καθήκοντα ασφαλείας, δεδομένου του πόσο επιρρεπή είναι σε σφάλματα με εφαρμογές που απαιτούν αξιοπιστία και ακρίβεια. Ωστόσο, το μέγεθος και οι δυνατότητες του DeepSeek ανοίγουν τη χρήση των μοντέλων θεμελίωσης σε μικρότερους φορείς που προηγουμένως μπορεί να μην είχαν πρόσβαση, και αυτό μπορεί να περιλαμβάνει κατασκευαστές αυτοκινήτων που μπορεί να ενδιαφέρονται να χρησιμοποιήσουν μοντέλα θεμελίωσης με τρόπο που δεν είναι κρίσιμο για την ασφάλεια», δήλωσε η Κλάαφ.

Ο Άντριου Ρέντι του Εργαστηρίου Κινδύνου και Ασφάλειας του Μπέρκλεϊ, δήλωσε στο Defense One: «Οι επιδόσεις του DeepSeek δεν προκαλούν καμία έκπληξη σε όσους από εμάς παρακολουθούμε τον τρόπο με τον οποίο οι ερευνητές της τεχνητής νοημοσύνης είναι σε θέση να αναπτύσσουν μοντέλα με μειούμενες ποσότητες υπολογιστών».

Οι αμερικανικές εταιρείες θα πρέπει να δουν την ανακάλυψη ως μια ευκαιρία να επιδιώξουν την καινοτομία προς μια διαφορετική κατεύθυνση, είπε. «Είναι ενδιαφέρον ότι οι προκλήσεις υπολογισμού που αντιμετωπίζουν οι Κινέζοι ερευνητές (υπό το πρίσμα του αμερικανικού ελέγχου των εξαγωγών στις GPU της NVIDIA) δεν διαφέρουν από εκείνες που αντιμετωπίζουν οι Αμερικανοί ακαδημαϊκοί, δεδομένου ότι είμαστε όλο και πιο περιορισμένοι σε υπολογισμούς σε σύγκριση με τους παίκτες της ιδιωτικής βιομηχανίας».

Ο στρατός των Ηνωμένων Πολιτειών δαπανά ήδη σημαντικά σε δυνατότητες ακραίων συστημάτων για να φέρει την υπολογιστική ισχύ όσο το δυνατόν πιο κοντά στους πολεμιστές. Το μικρότερο επίτευγμα επιδόσεων του μοντέλου υποδηλώνει ότι αυτές οι επενδύσεις σε υπολογιστές άκρων έχουν αυξήσει την αξία τους, δήλωσε ο Ρέντι.

«Υπάρχει επίσης ένα πραγματικά ενδιαφέρον ερώτημα σχετικά με τη χρήση των ανοικτών σε αντίθεση με τα κλειστά μοντέλα στο στρατιωτικό πλαίσιο», δήλωσε. «Το πλεονέκτημα των πρώτων είναι ότι είναι εύκολο να μετακινηθούν μέσα στα κυβερνητικά δίκτυα για να αξιοποιήσουν τα δεδομένα, αλλά υπάρχουν οι προφανείς κίνδυνοι να πάρουν τα αντίπαλα κράτη στα χέρια τους τα δεδομένα εκπαίδευσης, τα βάρη των μοντέλων κ.λπ.».

Ενισχύστε το militaire.gr ,δείτε γιατί ΕΔΩ

Αλλά ίσως το πιο σημαντικό συμπέρασμα από την ανακοίνωση της DeepSeek δεν είναι αυτό που σημαίνει για τον ανταγωνισμό μεταξύ των Ηνωμένων Πολιτειών και της Κίνας, αλλά για τους ιδιώτες, τους δημόσιους φορείς και όλους όσους αντιμετωπίζουν με σκεπτικισμό την αυξανόμενη επιρροή μιας ολοένα και μικρότερης ομάδας τεχνολογικών παικτών. Είναι καλά νέα αν θέλετε να δημιουργήσετε το δικό σας εργαλείο δημιουργικής τεχνητής νοημοσύνης, με δεδομένα που εσείς ελέγχετε, αντί να βασίζεστε σε ένα εργαλείο από μια μεγάλη εταιρεία που μπορεί να έχει ή να μην έχει τα συμφέροντά σας.

«Το διαδίκτυο έχει ιστορικά ευδοκιμήσει ως ένα αποκεντρωμένο σύνολο υπηρεσιών», δήλωσε ο Γκούπτα. Αν ο στόχος είναι να αποκτήσει ο καθένας τη δική του «προσωπική τεχνητή νοημοσύνη», τότε θα είναι απαραίτητο τα μικρά μοντέλα να τρέχουν στις προσωπικές συσκευές των ανθρώπων. Αναμένω ότι εταιρείες όπως η Apple, που έχουν ένα μοντέλο με προτεραιότητα στην ιδιωτικότητα, θα συνεχίσουν να πιέζουν για offline, αποσυνδεδεμένους αλγορίθμους».

Αλλά η Κλάαφ προειδοποιεί ότι η αντικατάσταση των μεγάλων μοντέλων από τα αποσταγμένα ενέχει ατομικούς κινδύνους για την ιδιωτικότητα που ισχύουν και για τα στρατεύματα, καθώς η έκθεση των προσωπικών δεδομένων τους επηρεάζει όπως ακριβώς και τους πολίτες, καθιστώντας τους ευάλωτους σε αντίπαλη στόχευση, εξαναγκασμό κ.λπ.

Και η ευρεία έκθεση των προσωπικών δεδομένων των Αμερικανών είναι από μόνη της ένα εθνικό τρωτό σημείο που οι αντίπαλοι θα μπορούσαν να χρησιμοποιήσουν σε περίπτωση σύγκρουσης, όπως έχουν επισημάνει οι στρατιωτικοί ηγέτες. Χωρίς ολοκληρωμένη μεταρρύθμιση που θα βοηθήσει τους ιδιώτες να προστατεύσουν καλύτερα τα δικά τους δεδομένα, ο πολλαπλασιασμός ισχυρών μικρών μοντέλων όπως το DeepSeek θα μπορούσε να επιδεινώσει μια κακή τάση.

«Το DeepSeek αμφισβητεί την ιδέα ότι τα μοντέλα μεγαλύτερης κλίμακας είναι πάντα πιο αποδοτικά, γεγονός που έχει σημαντικές επιπτώσεις δεδομένων των τρωτών σημείων ασφάλειας και προστασίας της ιδιωτικής ζωής που προκύπτουν από την κατασκευή μοντέλων τεχνητής νοημοσύνης σε κλίμακα», δήλωσε η Κλάαφ.

Για την προσωπική ιδιωτικότητα, «οι τεχνικές απόσταξης επιτρέπουν τη συμπίεση μεγαλύτερων μοντέλων σε μικρότερα, διατηρώντας παράλληλα πολλές από τις ιδιότητες του μεγαλύτερου μοντέλου. Για τους πολίτες που είχαν εκπαιδευτεί μοντέλα ίδρυσης στα δεδομένα τους, όλα τα ίδια ζητήματα προστασίας της ιδιωτικής ζωής θα διαιωνίζονταν στα αποσταγμένα μοντέλα της DeepSeek – μόνο που τώρα δεν είναι υπό τη δικαιοδοσία των ΗΠΑ. Αυτός είναι ο λόγος για τον οποίο έχουμε προειδοποιήσει ότι η εκπαίδευση μοντέλων τεχνητής νοημοσύνης σε ευαίσθητα δεδομένα αποτελεί κίνδυνο για την εθνική ασφάλεια».

Πηγή: Defense One

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου