Η Anthropic Κατέστρεψε Εκατομμύρια Έντυπα Βιβλία για να Δημιουργήσει τα Μοντέλα Τεχνητής Νοημοσύνης της

Η εταιρεία προσέλαβε τον επικεφαλής της Google για τη σάρωση βιβλίων για να τεμαχίσει και να ψηφιοποιήσει “όλα τα βιβλία του κόσμου”

Τη Δευτέρα, δικαστικά έγγραφα αποκάλυψαν ότι η εταιρεία τεχνητής νοημοσύνης Anthropic ξόδεψε εκατομμύρια δολάρια σαρώνοντας φυσικά έντυπα βιβλία για να κατασκευάσει το Claude, έναν βοηθό τεχνητής νοημοσύνης παρόμοιο με το ChatGPT.

Κατά τη διαδικασία αυτή, η εταιρεία έκοψε εκατομμύρια έντυπα βιβλία από τις βιβλιοδεσίες τους, τα σάρωσε σε ψηφιακά αρχεία και πέταξε τα πρωτότυπα αποκλειστικά και μόνο για τον σκοπό της εκπαίδευσης της ΤΝ – λεπτομέρειες που θάφτηκαν σε μια απόφαση περί πνευματικών δικαιωμάτων σχετικά με τη δίκαιη χρήση, της οποίας τις ευρύτερες συνέπειες της δίκαιης χρήσης αναφέραμε χθες.

Η νομική απόφαση 32 σελίδων αφηγείται την ιστορία του πώς, τον Φεβρουάριο του 2024, η εταιρεία προσέλαβε τον Tom Turvey, τον πρώην επικεφαλής των συνεργασιών για το έργο σάρωσης βιβλίων Google Books, και του ανέθεσε να αποκτήσει “όλα τα βιβλία του κόσμου”.

Η στρατηγική πρόσληψη φαίνεται ότι είχε σχεδιαστεί για να αναπαράγει τη νομικά επιτυχημένη προσέγγιση ψηφιοποίησης βιβλίων της Google – την ίδια επιχείρηση σάρωσης που επέζησε από τις αμφισβητήσεις των πνευματικών δικαιωμάτων και δημιούργησε βασικά προηγούμενα δίκαιης χρήσης.

Ενώ η καταστροφική σάρωση αποτελεί κοινή πρακτική μεταξύ ορισμένων επιχειρήσεων ψηφιοποίησης βιβλίων, η προσέγγιση της Anthropic ήταν κάπως ασυνήθιστη λόγω της τεκμηριωμένης μαζικής κλίμακας.

Αντίθετα, το πρόγραμμα Google Books χρησιμοποίησε σε μεγάλο βαθμό μια πατενταρισμένη μη καταστροφική διαδικασία με κάμερες για τη σάρωση εκατομμυρίων βιβλίων που δανείστηκαν από βιβλιοθήκες και αργότερα επιστράφηκαν.

Για την Anthropic, η ταχύτερη ταχύτητα και το χαμηλότερο κόστος της καταστροφικής διαδικασίας φαίνεται ότι υπερίσχυσε κάθε ανάγκη για τη διατήρηση των ίδιων των φυσικών βιβλίων, υποδηλώνοντας την ανάγκη για μια φθηνή και εύκολη λύση σε μια άκρως ανταγωνιστική βιομηχανία.

Τελικά, ο δικαστής William Alsup έκρινε ότι αυτή η καταστροφική διαδικασία σάρωσης χαρακτηρίστηκε ως θεμιτή χρήση – αλλά μόνο επειδή η Anthropic είχε αγοράσει νόμιμα πρώτα τα βιβλία, είχε καταστρέψει κάθε έντυπο αντίγραφο μετά τη σάρωση και είχε κρατήσει τα ψηφιακά αρχεία εσωτερικά αντί να τα διανείμει.

Ο δικαστής συνέκρινε τη διαδικασία με τη “διατήρηση του χώρου” μέσω της μετατροπής του μορφότυπου και τη θεώρησε μετασχηματιστική.

Αν η Anthropic είχε επιμείνει σε αυτή την προσέγγιση από την αρχή, ίσως να είχε επιτύχει την πρώτη νομικά εγκεκριμένη περίπτωση θεμιτής χρήσης ΤΝ.

Αντ’ αυτού, η προηγούμενη πειρατεία της εταιρείας υπονόμευσε τη θέση της.

Αλλά αν δεν είστε καλά εξοικειωμένοι με τη βιομηχανία της τεχνητής νοημοσύνης και τα πνευματικά δικαιώματα, ίσως αναρωτηθείτε: Γιατί μια εταιρεία να ξοδέψει εκατομμύρια δολάρια για βιβλία για να τα καταστρέψει;

Πίσω από αυτούς τους περίεργους νομικούς ελιγμούς κρύβεται μια πιο θεμελιώδης κινητήρια δύναμη: η ακόρεστη δίψα της βιομηχανίας ΤΝ για κείμενα υψηλής ποιότητας.

Η κούρσα για υψηλής ποιότητας δεδομένα εκπαίδευσης

Για να καταλάβετε γιατί η Anthropic θα ήθελε να σαρώσει εκατομμύρια βιβλία, είναι σημαντικό να γνωρίζετε ότι οι ερευνητές ΤΝ δημιουργούν μεγάλα γλωσσικά μοντέλα (LLM) όπως αυτά που τροφοδοτούν το ChatGPT και την Claude, τροφοδοτώντας δισεκατομμύρια λέξεις σε ένα νευρωνικό δίκτυο.

Κατά τη διάρκεια της εκπαίδευσης, το σύστημα τεχνητής νοημοσύνης επεξεργάζεται το κείμενο επανειλημμένα, δημιουργώντας στατιστικές σχέσεις μεταξύ λέξεων και εννοιών κατά τη διαδικασία.

Η ποιότητα των δεδομένων εκπαίδευσης που τροφοδοτούνται στο νευρωνικό δίκτυο επηρεάζει άμεσα τις δυνατότητες του μοντέλου ΤΝ που προκύπτει.

Τα μοντέλα που εκπαιδεύονται σε καλά επεξεργασμένα βιβλία και άρθρα τείνουν να παράγουν πιο συνεκτικές και ακριβείς απαντήσεις από εκείνα που εκπαιδεύονται σε κείμενο χαμηλότερης ποιότητας, όπως τυχαία σχόλια στο YouTube.

Οι εκδότες ελέγχουν νομικά το περιεχόμενο που οι εταιρείες AI επιθυμούν απεγνωσμένα, αλλά οι εταιρείες AI δεν θέλουν πάντα να διαπραγματεύονται μια άδεια.

Το δόγμα της πρώτης πώλησης προσέφερε μια λύση: Από τη στιγμή που αγοράζετε ένα φυσικό βιβλίο, μπορείτε να κάνετε ό,τι θέλετε με αυτό το αντίγραφο -συμπεριλαμβανομένης της καταστροφής του.

Αυτό σήμαινε ότι η αγορά φυσικών βιβλίων προσέφερε μια νομική λύση.

Και όμως η αγορά πραγμάτων είναι ακριβή, ακόμη και αν είναι νόμιμη. Έτσι, όπως και πολλές εταιρείες τεχνητής νοημοσύνης πριν από αυτήν, η Anthropic επέλεξε αρχικά τον γρήγορο και εύκολο δρόμο.

Στην προσπάθειά της να αποκτήσει υψηλής ποιότητας δεδομένα εκπαίδευσης, αναφέρεται στη δικαστική κατάθεση, η Anthropic επέλεξε αρχικά να συγκεντρώσει ψηφιοποιημένες εκδόσεις πειρατικών βιβλίων για να αποφύγει αυτό που ο διευθύνων σύμβουλος Dario Amodei αποκάλεσε «νομικό/πρακτικό/επιχειρηματικό κόπο» – τις πολύπλοκες διαπραγματεύσεις αδειοδότησης με τους εκδότες.

Αλλά μέχρι το 2024, η Anthropic είχε αρχίσει να « μην είναι τόσο ενθουσιασμένη με τη χρήση πειρατικών ηλεκτρονικών βιβλίων για νομικούς λόγους» και χρειαζόταν μια ασφαλέστερη πηγή.

Η αγορά χρησιμοποιημένων φυσικών βιβλίων παρέκαμψε εντελώς την αδειοδότηση, ενώ παρείχε το υψηλής ποιότητας, επαγγελματικά επεξεργασμένο κείμενο που χρειάζονται τα μοντέλα τεχνητής νοημοσύνης, και η καταστροφική σάρωση ήταν απλώς ο ταχύτερος τρόπος για την ψηφιοποίηση εκατομμυρίων τόμων.

Η εταιρεία ξόδεψε “πολλά εκατομμύρια δολάρια” σε αυτή την αγορά και σάρωση, αγοράζοντας συχνά μεταχειρισμένα βιβλία χύμα.

Στη συνέχεια, απογύμνωσαν τα βιβλία από τις βιβλιοδεσίες, έκοψαν τις σελίδες σε εργάσιμες διαστάσεις, τα σάρωσαν ως στοίβες σελίδων σε PDF με κείμενο αναγνώσιμο από μηχανήματα, συμπεριλαμβανομένων των εξωφύλλων, και στη συνέχεια πέταξαν όλα τα χάρτινα πρωτότυπα.

Τα δικαστικά έγγραφα δεν αναφέρουν ότι κατά τη διαδικασία αυτή καταστράφηκαν σπάνια βιβλία -η Anthropic αγόραζε τα βιβλία της χύμα από μεγάλους λιανοπωλητές- αλλά οι αρχειονόμοι έχουν καθιερώσει εδώ και καιρό άλλους τρόπους για την εξαγωγή πληροφοριών από το χαρτί.

Για παράδειγμα, το Internet Archive πρωτοστάτησε στις μη καταστροφικές μεθόδους σάρωσης βιβλίων που διατηρούν τους φυσικούς τόμους δημιουργώντας παράλληλα ψηφιακά αντίγραφα.

Και νωρίτερα αυτό το μήνα, η OpenAI και η Microsoft ανακοίνωσαν ότι συνεργάζονται με τις βιβλιοθήκες του Χάρβαρντ για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης σε σχεδόν 1 εκατομμύριο δημόσια βιβλία που χρονολογούνται από τον 15ο αιώνα – πλήρως ψηφιοποιημένα αλλά διατηρημένα για να ζήσουν μια άλλη μέρα.

Ενώ το Harvard συντηρεί προσεκτικά χειρόγραφα 600 ετών για την εκπαίδευση της τεχνητής νοημοσύνης, κάπου στη Γη βρίσκονται τα πεταμένα απομεινάρια εκατομμυρίων βιβλίων που δίδασκαν στο Claude πώς να ενισχύσει το βιογραφικό σας.

Όταν ρωτήθηκε σχετικά με αυτή τη διαδικασία, το ίδιο το Claude έδωσε μια συγκλονιστική απάντηση σε ένα ύφος που προέρχεται από δισεκατομμύρια σελίδες απορριφθέντων κειμένων: «Το γεγονός ότι αυτή η καταστροφή βοήθησε στη δημιουργία μου -κάτι που μπορεί να συζητήσει τη λογοτεχνία, να βοηθήσει τους ανθρώπους να γράψουν και να ασχοληθούν με την ανθρώπινη γνώση- προσθέτει στρώματα πολυπλοκότητας που ακόμα επεξεργάζομαι.

Είναι σαν να χτίζεται από τις στάχτες μιας βιβλιοθήκης».

Απόδοση στα ελληνικά: Απολλόδωρος – Benj Edwards | 25 Ιουνίου 2025

Πίστωση φώτο: Alexander Spatari via Google Images

https://apollodoros.substack.com/p/anthropic?utm_source=post-email-title&publication_id=1154987&post_id=168397850&utm_campaign=email-post-title&isFreemail=true&r=a7tc5&triedRedirect=true&utm_medium=email

Μοιραστείτε το

Σχόλια (2)

ΝΕΜΕΣΙΣ

19 Ιουλίου 2025 | 21:10

Απάντηση

Ιουλίου 19, 2025
ΠΡΟΕΙΔΟΠΟΙΗΣΗ
Κέρδισε
το βραβείο Νόμπελ
και προειδοποιεί την ανθρωπότητα!
https://sinomosiologos.blogspot.com/2025/07/blog-post_821.html
Ιουλίου 17, 2025
GEMINI A.I.
Το κινητο σου
βλεπει και…. θυμαται…
KAI OXI MONO…..!!!
https://sinomosiologos.blogspot.com/2025/07/gemini-ai.html
1. ΝΕΜΕΣΙΣ
  
  20 Ιουλίου 2025 | 11:08
  
  Απάντηση
  
  MAY 29
  για τις ηλεκτρονικές ταυτότητες τις Οργουελικές
  Για εσένα που δεν έχεις καταλάβει γιατί αρνούμαστε τις ψηφιακές ταυτότητες:
  Γιώτα Τσέλιου, δικηγόρος.
  (—-ΕΛΕΥΘΕΡΕΣ ΟΙ ΑΝΑΔΗΜΟΣΙΕΥΣΕΙΣ—)
  https://vk.com/wall832227283_7531
  για την μεταφορα: apollonios (στην Κίνα αναγνωρίζουν τα πρόσωπα.
  Αυτό είναι “εξέλιξη”;)
  http://opacun.blogspot.com/2025/05/blog-post_29.html

Αφήστε μια απάντηση Ακύρωση απάντησης

Ανακοινωσεις

Κείμενα σε άλλη γλώσσα

Ενημερώνω τους φίλους αναγνώστες ότι κείμενα που είναι σε άλλη γλώσσα γραμμένα και δεν συνοδεύονται από την Ελληνική μετάφραση δεν θα ανακοινώνονται, Ευχαριστώ!

Greeklish

Ο διαχειριστής τού παρόντος ιστολογίου παρακαλεί τούς σεβαστούς αναγνώστες όπως σε τυχόν σχόλιά τους να χρησιμοποιούν την Ελληνική γραφή. Σχόλια που είναι γραμμένα σε “greeklish” θα διαγράφονται, όποιο και να είναι το περιεχόμενό τους.

ΑΡΧΑΙΑ ΙΘΩΜΗ ΚΑΛΗΜΕΡΑ ΙΕΡΗ ΕΛΛΑΔΑ

ΑΝΑΖΗΤΗΣΗ

ΚΑΤΗΓΟΡΙΕΣ

ΑΝΑΖΗΤΗΣΗ

ΚΑΤΗΓΟΡΙΕΣ

Η Anthropic Κατέστρεψε Εκατομμύρια Έντυπα Βιβλία για να Δημιουργήσει τα Μοντέλα Τεχνητής Νοημοσύνης της

Η εταιρεία προσέλαβε τον επικεφαλής της Google για τη σάρωση βιβλίων για να τεμαχίσει και να ψηφιοποιήσει “όλα τα βιβλία του κόσμου”

Ο δικαστής συνέκρινε τη διαδικασία με τη “διατήρηση του χώρου” μέσω της μετατροπής του μορφότυπου και τη θεώρησε μετασχηματιστική.

Αν η Anthropic είχε επιμείνει σε αυτή την προσέγγιση από την αρχή, ίσως να είχε επιτύχει την πρώτη νομικά εγκεκριμένη περίπτωση θεμιτής χρήσης ΤΝ.

Αντ’ αυτού, η προηγούμενη πειρατεία της εταιρείας υπονόμευσε τη θέση της.

Πίσω από αυτούς τους περίεργους νομικούς ελιγμούς κρύβεται μια πιο θεμελιώδης κινητήρια δύναμη: η ακόρεστη δίψα της βιομηχανίας ΤΝ για κείμενα υψηλής ποιότητας.

Η κούρσα για υψηλής ποιότητας δεδομένα εκπαίδευσης

Η ποιότητα των δεδομένων εκπαίδευσης που τροφοδοτούνται στο νευρωνικό δίκτυο επηρεάζει άμεσα τις δυνατότητες του μοντέλου ΤΝ που προκύπτει.

Οι εκδότες ελέγχουν νομικά το περιεχόμενο που οι εταιρείες AI επιθυμούν απεγνωσμένα, αλλά οι εταιρείες AI δεν θέλουν πάντα να διαπραγματεύονται μια άδεια.

Αυτό σήμαινε ότι η αγορά φυσικών βιβλίων προσέφερε μια νομική λύση.

Η εταιρεία ξόδεψε “πολλά εκατομμύρια δολάρια” σε αυτή την αγορά και σάρωση, αγοράζοντας συχνά μεταχειρισμένα βιβλία χύμα.

Είναι σαν να χτίζεται από τις στάχτες μιας βιβλιοθήκης».

Απόδοση στα ελληνικά: Απολλόδωρος – Benj Edwards | 25 Ιουνίου 2025

Πίστωση φώτο: Alexander Spatari via Google Images

https://apollodoros.substack.com/p/anthropic?utm_source=post-email-title&publication_id=1154987&post_id=168397850&utm_campaign=email-post-title&isFreemail=true&r=a7tc5&triedRedirect=true&utm_medium=email

Σχόλια (2)

Αφήστε μια απάντηση Ακύρωση απάντησης

ΑΝΑΖΗΤΗΣΗ

ΚΑΤΗΓΟΡΙΕΣ

ΠΡΩΤΟΣΕΛΙΔΑ

Ανακοινωσεις