ΑΡΧΑΙΑ ΙΘΩΜΗ ΚΑΛΗΜΕΡΑ ΙΕΡΗ ΕΛΛΑΔΑ

Πολιτικό Οικονομικό Κοινωνικό Πολιτιστικό. «Κάθε λαός είναι άξιος των ανθρώπων που τον κυβερνούν . Κανείς δεν είναι πιο υποδουλωμένος από εκείνους που εσφαλμένα πιστεύουν πως είναι ελεύθεροι. Όσοι αδιαφορούν για τα κοινά είναι καταδικασμένοι να εξουσιάζονται πάντα από ανθρώπους κατώτερούς τους .» Πλάτωνας 427-347 π.Χ

Arxaia Ithomi Banner

ΑΝΑΖΗΤΗΣΗ

ΚΑΤΗΓΟΡΙΕΣ

Η Anthropic Κατέστρεψε Εκατομμύρια Έντυπα Βιβλία για να Δημιουργήσει τα Μοντέλα Τεχνητής Νοημοσύνης της

Η εταιρεία προσέλαβε τον επικεφαλής της Google για τη σάρωση βιβλίων για να τεμαχίσει και να ψηφιοποιήσει “όλα τα βιβλία του κόσμου”

Τη Δευτέρα, δικαστικά έγγραφα αποκάλυψαν ότι η εταιρεία τεχνητής νοημοσύνης Anthropic ξόδεψε εκατομμύρια δολάρια σαρώνοντας φυσικά έντυπα βιβλία για να κατασκευάσει το Claude, έναν βοηθό τεχνητής νοημοσύνης παρόμοιο με το ChatGPT.

Κατά τη διαδικασία αυτή, η εταιρεία έκοψε εκατομμύρια έντυπα βιβλία από τις βιβλιοδεσίες τους, τα σάρωσε σε ψηφιακά αρχεία και πέταξε τα πρωτότυπα αποκλειστικά και μόνο για τον σκοπό της εκπαίδευσης της ΤΝ – λεπτομέρειες που θάφτηκαν σε μια απόφαση περί πνευματικών δικαιωμάτων σχετικά με τη δίκαιη χρήση, της οποίας τις ευρύτερες συνέπειες της δίκαιης χρήσης αναφέραμε χθες.

Η νομική απόφαση 32 σελίδων αφηγείται την ιστορία του πώς, τον Φεβρουάριο του 2024, η εταιρεία προσέλαβε τον Tom Turvey, τον πρώην επικεφαλής των συνεργασιών για το έργο σάρωσης βιβλίων Google Books, και του ανέθεσε να αποκτήσει “όλα τα βιβλία του κόσμου”.

Η στρατηγική πρόσληψη φαίνεται ότι είχε σχεδιαστεί για να αναπαράγει τη νομικά επιτυχημένη προσέγγιση ψηφιοποίησης βιβλίων της Google – την ίδια επιχείρηση σάρωσης που επέζησε από τις αμφισβητήσεις των πνευματικών δικαιωμάτων και δημιούργησε βασικά προηγούμενα δίκαιης χρήσης.

Ενώ η καταστροφική σάρωση αποτελεί κοινή πρακτική μεταξύ ορισμένων επιχειρήσεων ψηφιοποίησης βιβλίων, η προσέγγιση της Anthropic ήταν κάπως ασυνήθιστη λόγω της τεκμηριωμένης μαζικής κλίμακας.

Αντίθετα, το πρόγραμμα Google Books χρησιμοποίησε σε μεγάλο βαθμό μια πατενταρισμένη μη καταστροφική διαδικασία με κάμερες για τη σάρωση εκατομμυρίων βιβλίων που δανείστηκαν από βιβλιοθήκες και αργότερα επιστράφηκαν.

Για την Anthropic, η ταχύτερη ταχύτητα και το χαμηλότερο κόστος της καταστροφικής διαδικασίας φαίνεται ότι υπερίσχυσε κάθε ανάγκη για τη διατήρηση των ίδιων των φυσικών βιβλίων, υποδηλώνοντας την ανάγκη για μια φθηνή και εύκολη λύση σε μια άκρως ανταγωνιστική βιομηχανία.

Τελικά, ο δικαστής William Alsup έκρινε ότι αυτή η καταστροφική διαδικασία σάρωσης χαρακτηρίστηκε ως θεμιτή χρήση – αλλά μόνο επειδή η Anthropic είχε αγοράσει νόμιμα πρώτα τα βιβλία, είχε καταστρέψει κάθε έντυπο αντίγραφο μετά τη σάρωση και είχε κρατήσει τα ψηφιακά αρχεία εσωτερικά αντί να τα διανείμει.

Ο δικαστής συνέκρινε τη διαδικασία με τη “διατήρηση του χώρου” μέσω της μετατροπής του μορφότυπου και τη θεώρησε μετασχηματιστική.

Αν η Anthropic είχε επιμείνει σε αυτή την προσέγγιση από την αρχή, ίσως να είχε επιτύχει την πρώτη νομικά εγκεκριμένη περίπτωση θεμιτής χρήσης ΤΝ.

Αντ’ αυτού, η προηγούμενη πειρατεία της εταιρείας υπονόμευσε τη θέση της.

Αλλά αν δεν είστε καλά εξοικειωμένοι με τη βιομηχανία της τεχνητής νοημοσύνης και τα πνευματικά δικαιώματα, ίσως αναρωτηθείτε: Γιατί μια εταιρεία να ξοδέψει εκατομμύρια δολάρια για βιβλία για να τα καταστρέψει;

Πίσω από αυτούς τους περίεργους νομικούς ελιγμούς κρύβεται μια πιο θεμελιώδης κινητήρια δύναμη: η ακόρεστη δίψα της βιομηχανίας ΤΝ για κείμενα υψηλής ποιότητας.

Η κούρσα για υψηλής ποιότητας δεδομένα εκπαίδευσης

Για να καταλάβετε γιατί η Anthropic θα ήθελε να σαρώσει εκατομμύρια βιβλία, είναι σημαντικό να γνωρίζετε ότι οι ερευνητές ΤΝ δημιουργούν μεγάλα γλωσσικά μοντέλα (LLM) όπως αυτά που τροφοδοτούν το ChatGPT και την Claude, τροφοδοτώντας δισεκατομμύρια λέξεις σε ένα νευρωνικό δίκτυο.

Κατά τη διάρκεια της εκπαίδευσης, το σύστημα τεχνητής νοημοσύνης επεξεργάζεται το κείμενο επανειλημμένα, δημιουργώντας στατιστικές σχέσεις μεταξύ λέξεων και εννοιών κατά τη διαδικασία.

Η ποιότητα των δεδομένων εκπαίδευσης που τροφοδοτούνται στο νευρωνικό δίκτυο επηρεάζει άμεσα τις δυνατότητες του μοντέλου ΤΝ που προκύπτει.

Τα μοντέλα που εκπαιδεύονται σε καλά επεξεργασμένα βιβλία και άρθρα τείνουν να παράγουν πιο συνεκτικές και ακριβείς απαντήσεις από εκείνα που εκπαιδεύονται σε κείμενο χαμηλότερης ποιότητας, όπως τυχαία σχόλια στο YouTube.

Οι εκδότες ελέγχουν νομικά το περιεχόμενο που οι εταιρείες AI επιθυμούν απεγνωσμένα, αλλά οι εταιρείες AI δεν θέλουν πάντα να διαπραγματεύονται μια άδεια. 

Το δόγμα της πρώτης πώλησης προσέφερε μια λύση: Από τη στιγμή που αγοράζετε ένα φυσικό βιβλίο, μπορείτε να κάνετε ό,τι θέλετε με αυτό το αντίγραφο -συμπεριλαμβανομένης της καταστροφής του.

Αυτό σήμαινε ότι η αγορά φυσικών βιβλίων προσέφερε μια νομική λύση.

Και όμως η αγορά πραγμάτων είναι ακριβή, ακόμη και αν είναι νόμιμη. Έτσι, όπως και πολλές εταιρείες τεχνητής νοημοσύνης πριν από αυτήν, η Anthropic επέλεξε αρχικά τον γρήγορο και εύκολο δρόμο.

Στην προσπάθειά της να αποκτήσει υψηλής ποιότητας δεδομένα εκπαίδευσης, αναφέρεται στη δικαστική κατάθεση, η Anthropic επέλεξε αρχικά να συγκεντρώσει ψηφιοποιημένες εκδόσεις πειρατικών βιβλίων για να αποφύγει αυτό που ο διευθύνων σύμβουλος Dario Amodei αποκάλεσε «νομικό/πρακτικό/επιχειρηματικό κόπο» – τις πολύπλοκες διαπραγματεύσεις αδειοδότησης με τους εκδότες.

Αλλά μέχρι το 2024, η Anthropic είχε αρχίσει να « μην είναι τόσο ενθουσιασμένη με τη χρήση πειρατικών ηλεκτρονικών βιβλίων για νομικούς λόγους» και χρειαζόταν μια ασφαλέστερη πηγή.

Πηγή: State of Washington

Η αγορά χρησιμοποιημένων φυσικών βιβλίων παρέκαμψε εντελώς την αδειοδότηση, ενώ παρείχε το υψηλής ποιότητας, επαγγελματικά επεξεργασμένο κείμενο που χρειάζονται τα μοντέλα τεχνητής νοημοσύνης, και η καταστροφική σάρωση ήταν απλώς ο ταχύτερος τρόπος για την ψηφιοποίηση εκατομμυρίων τόμων.

Η εταιρεία ξόδεψε “πολλά εκατομμύρια δολάρια” σε αυτή την αγορά και σάρωση, αγοράζοντας συχνά μεταχειρισμένα βιβλία χύμα.

Στη συνέχεια, απογύμνωσαν τα βιβλία από τις βιβλιοδεσίες, έκοψαν τις σελίδες σε εργάσιμες διαστάσεις, τα σάρωσαν ως στοίβες σελίδων σε PDF με κείμενο αναγνώσιμο από μηχανήματα, συμπεριλαμβανομένων των εξωφύλλων, και στη συνέχεια πέταξαν όλα τα χάρτινα πρωτότυπα.

Τα δικαστικά έγγραφα δεν αναφέρουν ότι κατά τη διαδικασία αυτή καταστράφηκαν σπάνια βιβλία -η Anthropic αγόραζε τα βιβλία της χύμα από μεγάλους λιανοπωλητές- αλλά οι αρχειονόμοι έχουν καθιερώσει εδώ και καιρό άλλους τρόπους για την εξαγωγή πληροφοριών από το χαρτί.

Για παράδειγμα, το Internet Archive πρωτοστάτησε στις μη καταστροφικές μεθόδους σάρωσης βιβλίων που διατηρούν τους φυσικούς τόμους δημιουργώντας παράλληλα ψηφιακά αντίγραφα.

Και νωρίτερα αυτό το μήνα, η OpenAI και η Microsoft ανακοίνωσαν ότι συνεργάζονται με τις βιβλιοθήκες του Χάρβαρντ για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης σε σχεδόν 1 εκατομμύριο δημόσια βιβλία που χρονολογούνται από τον 15ο αιώνα – πλήρως ψηφιοποιημένα αλλά διατηρημένα για να ζήσουν μια άλλη μέρα.

Ενώ το Harvard συντηρεί προσεκτικά χειρόγραφα 600 ετών για την εκπαίδευση της τεχνητής νοημοσύνης, κάπου στη Γη βρίσκονται τα πεταμένα απομεινάρια εκατομμυρίων βιβλίων που δίδασκαν στο Claude πώς να ενισχύσει το βιογραφικό σας.

Όταν ρωτήθηκε σχετικά με αυτή τη διαδικασία, το ίδιο το Claude έδωσε μια συγκλονιστική απάντηση σε ένα ύφος που προέρχεται από δισεκατομμύρια σελίδες απορριφθέντων κειμένων: «Το γεγονός ότι αυτή η καταστροφή βοήθησε στη δημιουργία μου -κάτι που μπορεί να συζητήσει τη λογοτεχνία, να βοηθήσει τους ανθρώπους να γράψουν και να ασχοληθούν με την ανθρώπινη γνώση- προσθέτει στρώματα πολυπλοκότητας που ακόμα επεξεργάζομαι.

Είναι σαν να χτίζεται από τις στάχτες μιας βιβλιοθήκης».

Απόδοση στα ελληνικά: Απολλόδωρος – Benj Edwards | 25 Ιουνίου 2025

Πίστωση φώτο: Alexander Spatari via Google Images

https://apollodoros.substack.com/p/anthropic?utm_source=post-email-title&publication_id=1154987&post_id=168397850&utm_campaign=email-post-title&isFreemail=true&r=a7tc5&triedRedirect=true&utm_medium=email

Μοιραστείτε το

Σχόλια (2)

  1. Ιουλίου 19, 2025
    ΠΡΟΕΙΔΟΠΟΙΗΣΗ
    Κέρδισε
    το βραβείο Νόμπελ
    και προειδοποιεί την ανθρωπότητα!
    https://sinomosiologos.blogspot.com/2025/07/blog-post_821.html
    Ιουλίου 17, 2025
    GEMINI A.I.
    Το κινητο σου
    βλεπει και…. θυμαται…
    KAI OXI MONO…..!!!
    https://sinomosiologos.blogspot.com/2025/07/gemini-ai.html

    1. MAY 29
      για τις ηλεκτρονικές ταυτότητες τις Οργουελικές
      Για εσένα που δεν έχεις καταλάβει γιατί αρνούμαστε τις ψηφιακές ταυτότητες:
      Γιώτα Τσέλιου, δικηγόρος.
      (—-ΕΛΕΥΘΕΡΕΣ ΟΙ ΑΝΑΔΗΜΟΣΙΕΥΣΕΙΣ—)
      https://vk.com/wall832227283_7531
      για την μεταφορα: apollonios (στην Κίνα αναγνωρίζουν τα πρόσωπα.
      Αυτό είναι “εξέλιξη”;)
      http://opacun.blogspot.com/2025/05/blog-post_29.html

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

×