Η εταιρεία προσέλαβε τον επικεφαλής της Google για τη σάρωση βιβλίων για να τεμαχίσει και να ψηφιοποιήσει “όλα τα βιβλία του κόσμου”
Τη Δευτέρα, δικαστικά έγγραφα αποκάλυψαν ότι η εταιρεία τεχνητής νοημοσύνης Anthropic ξόδεψε εκατομμύρια δολάρια σαρώνοντας φυσικά έντυπα βιβλία για να κατασκευάσει το Claude, έναν βοηθό τεχνητής νοημοσύνης παρόμοιο με το ChatGPT.
Κατά τη διαδικασία αυτή, η εταιρεία έκοψε εκατομμύρια έντυπα βιβλία από τις βιβλιοδεσίες τους, τα σάρωσε σε ψηφιακά αρχεία και πέταξε τα πρωτότυπα αποκλειστικά και μόνο για τον σκοπό της εκπαίδευσης της ΤΝ – λεπτομέρειες που θάφτηκαν σε μια απόφαση περί πνευματικών δικαιωμάτων σχετικά με τη δίκαιη χρήση, της οποίας τις ευρύτερες συνέπειες της δίκαιης χρήσης αναφέραμε χθες.
Η νομική απόφαση 32 σελίδων αφηγείται την ιστορία του πώς, τον Φεβρουάριο του 2024, η εταιρεία προσέλαβε τον Tom Turvey, τον πρώην επικεφαλής των συνεργασιών για το έργο σάρωσης βιβλίων Google Books, και του ανέθεσε να αποκτήσει “όλα τα βιβλία του κόσμου”.
Η στρατηγική πρόσληψη φαίνεται ότι είχε σχεδιαστεί για να αναπαράγει τη νομικά επιτυχημένη προσέγγιση ψηφιοποίησης βιβλίων της Google – την ίδια επιχείρηση σάρωσης που επέζησε από τις αμφισβητήσεις των πνευματικών δικαιωμάτων και δημιούργησε βασικά προηγούμενα δίκαιης χρήσης.
Ενώ η καταστροφική σάρωση αποτελεί κοινή πρακτική μεταξύ ορισμένων επιχειρήσεων ψηφιοποίησης βιβλίων, η προσέγγιση της Anthropic ήταν κάπως ασυνήθιστη λόγω της τεκμηριωμένης μαζικής κλίμακας.
Αντίθετα, το πρόγραμμα Google Books χρησιμοποίησε σε μεγάλο βαθμό μια πατενταρισμένη μη καταστροφική διαδικασία με κάμερες για τη σάρωση εκατομμυρίων βιβλίων που δανείστηκαν από βιβλιοθήκες και αργότερα επιστράφηκαν.
Για την Anthropic, η ταχύτερη ταχύτητα και το χαμηλότερο κόστος της καταστροφικής διαδικασίας φαίνεται ότι υπερίσχυσε κάθε ανάγκη για τη διατήρηση των ίδιων των φυσικών βιβλίων, υποδηλώνοντας την ανάγκη για μια φθηνή και εύκολη λύση σε μια άκρως ανταγωνιστική βιομηχανία.
Τελικά, ο δικαστής William Alsup έκρινε ότι αυτή η καταστροφική διαδικασία σάρωσης χαρακτηρίστηκε ως θεμιτή χρήση – αλλά μόνο επειδή η Anthropic είχε αγοράσει νόμιμα πρώτα τα βιβλία, είχε καταστρέψει κάθε έντυπο αντίγραφο μετά τη σάρωση και είχε κρατήσει τα ψηφιακά αρχεία εσωτερικά αντί να τα διανείμει.
Ο δικαστής συνέκρινε τη διαδικασία με τη “διατήρηση του χώρου” μέσω της μετατροπής του μορφότυπου και τη θεώρησε μετασχηματιστική.
Αν η Anthropic είχε επιμείνει σε αυτή την προσέγγιση από την αρχή, ίσως να είχε επιτύχει την πρώτη νομικά εγκεκριμένη περίπτωση θεμιτής χρήσης ΤΝ.
Αντ’ αυτού, η προηγούμενη πειρατεία της εταιρείας υπονόμευσε τη θέση της.
Αλλά αν δεν είστε καλά εξοικειωμένοι με τη βιομηχανία της τεχνητής νοημοσύνης και τα πνευματικά δικαιώματα, ίσως αναρωτηθείτε: Γιατί μια εταιρεία να ξοδέψει εκατομμύρια δολάρια για βιβλία για να τα καταστρέψει;
Πίσω από αυτούς τους περίεργους νομικούς ελιγμούς κρύβεται μια πιο θεμελιώδης κινητήρια δύναμη: η ακόρεστη δίψα της βιομηχανίας ΤΝ για κείμενα υψηλής ποιότητας.
Η κούρσα για υψηλής ποιότητας δεδομένα εκπαίδευσης
Για να καταλάβετε γιατί η Anthropic θα ήθελε να σαρώσει εκατομμύρια βιβλία, είναι σημαντικό να γνωρίζετε ότι οι ερευνητές ΤΝ δημιουργούν μεγάλα γλωσσικά μοντέλα (LLM) όπως αυτά που τροφοδοτούν το ChatGPT και την Claude, τροφοδοτώντας δισεκατομμύρια λέξεις σε ένα νευρωνικό δίκτυο.
Κατά τη διάρκεια της εκπαίδευσης, το σύστημα τεχνητής νοημοσύνης επεξεργάζεται το κείμενο επανειλημμένα, δημιουργώντας στατιστικές σχέσεις μεταξύ λέξεων και εννοιών κατά τη διαδικασία.
Η ποιότητα των δεδομένων εκπαίδευσης που τροφοδοτούνται στο νευρωνικό δίκτυο επηρεάζει άμεσα τις δυνατότητες του μοντέλου ΤΝ που προκύπτει.
Τα μοντέλα που εκπαιδεύονται σε καλά επεξεργασμένα βιβλία και άρθρα τείνουν να παράγουν πιο συνεκτικές και ακριβείς απαντήσεις από εκείνα που εκπαιδεύονται σε κείμενο χαμηλότερης ποιότητας, όπως τυχαία σχόλια στο YouTube.
Οι εκδότες ελέγχουν νομικά το περιεχόμενο που οι εταιρείες AI επιθυμούν απεγνωσμένα, αλλά οι εταιρείες AI δεν θέλουν πάντα να διαπραγματεύονται μια άδεια.
Το δόγμα της πρώτης πώλησης προσέφερε μια λύση: Από τη στιγμή που αγοράζετε ένα φυσικό βιβλίο, μπορείτε να κάνετε ό,τι θέλετε με αυτό το αντίγραφο -συμπεριλαμβανομένης της καταστροφής του.
Αυτό σήμαινε ότι η αγορά φυσικών βιβλίων προσέφερε μια νομική λύση.
Και όμως η αγορά πραγμάτων είναι ακριβή, ακόμη και αν είναι νόμιμη. Έτσι, όπως και πολλές εταιρείες τεχνητής νοημοσύνης πριν από αυτήν, η Anthropic επέλεξε αρχικά τον γρήγορο και εύκολο δρόμο.
Στην προσπάθειά της να αποκτήσει υψηλής ποιότητας δεδομένα εκπαίδευσης, αναφέρεται στη δικαστική κατάθεση, η Anthropic επέλεξε αρχικά να συγκεντρώσει ψηφιοποιημένες εκδόσεις πειρατικών βιβλίων για να αποφύγει αυτό που ο διευθύνων σύμβουλος Dario Amodei αποκάλεσε «νομικό/πρακτικό/επιχειρηματικό κόπο» – τις πολύπλοκες διαπραγματεύσεις αδειοδότησης με τους εκδότες.
Αλλά μέχρι το 2024, η Anthropic είχε αρχίσει να « μην είναι τόσο ενθουσιασμένη με τη χρήση πειρατικών ηλεκτρονικών βιβλίων για νομικούς λόγους» και χρειαζόταν μια ασφαλέστερη πηγή.


Γράψτε απάντηση στο ΝΕΜΕΣΙΣ Ακύρωση απάντησης