Chatboti AI potřebují více knih, z nichž se mohou učit, takže více knihoven otevírá své hromádky
Všechno, co kdy bylo na internetu, bylo jen začátkem výuky umělé inteligence o lidskosti. Technické společnosti nyní využívají starší úložiště znalostí: knihovny.
Téměř milion knih publikovaných již v 15. století – a ve 254 jazycích – je součástí sbírky Harvard University, která byla ve čtvrtek propuštěna vědcům AI. Brzy se také blíží Troves starých novin a vládních dokumentů, které drží Bostonská veřejná knihovna.
Praskání otevření trezorů na staleté tomes by mohla být data Bonanza pro technologické společnosti bojující proti soudními spory od živých romanopisců, vizuálních umělců a dalších, jejichž tvůrčí práce byla nashromážděna bez jejich souhlasu s trénováním AI chatbotů.
„Je obezřetným rozhodnutím začít s údaji o veřejné doméně, protože je to teď méně kontroverzní než obsah, který je stále pod autorským právem,“ řekl Burton Davis, zástupce generálního poradce společnosti Microsoft.
Davis uvedl, že knihovny mají také „značné množství zajímavých kulturních, historických a jazykových dat“, která z posledních několika desetiletí online komentáře chybí, ze kterého se chatboti AI většinou poučili.
Harvardova institucionální datová iniciativa, podporovaná „neomezenými dary“ od společnosti Microsoft a Chatgpt Maker Openiai, spolupracuje s knihovnami po celém světě o tom, jak připravit své historické sbírky připraveným způsobem, který také prospívá knihovnám a komunitám, kterým slouží.
„Snažíme se přesunout část této síly z tohoto současného okamžiku AI zpět do těchto institucí,“ řekla Aristana Scouras, která řídí výzkum v knihovní knihovní laboratoři Harvard Law School. „Knihovníci byli vždy správci dat a správci informací.“
Harvardův nově vydaný datový soubor, Institucionální knihy 1.0, obsahuje více než 394 milionů naskenovaných stránek papíru. Jedno z dřívějších děl je ze 14. století – korejské malířské myšlenky na pěstování květin a stromů. Největší koncentrace děl je z 19. století, na předměty, jako je literatura, filozofie, právo a zemědělství, vše pečlivě zachováno a organizované generacemi knihovníků.

Slibuje, že bude přínosem pro vývojáře AI, kteří se snaží zlepšit přesnost a spolehlivost svých systémů.
„Mnoho údajů, které byly použity při školení AI, nepocházela z původních zdrojů,“ uvedl výkonný ředitel údajů Greg Leppert, který je také hlavním technologem v Harvardově Berkmanově Kleinově centru pro internet a společnost. Tato sbírka knih jde „až do fyzické kopie, která byla naskenována institucemi, které tyto položky skutečně shromažďovaly,“ řekl.
Než Chatgpt vyvolal komerční šílenství AI, většina vědců AI moc nemyslela na provenience pasáží textu, které vytáhli z Wikipedie, z fór sociálních médií, jako je Reddit a někdy z hlubokých repozitářů pirátských knih. Potřebovali jen spoustu toho, co počítačoví vědci nazývají tokeny – jednotky dat, z nichž každá může představovat kus slova.
Nová sbírka AI Harvardu má odhadem 242 miliard tokenů, což je pro lidi těžké pochopit, ale stále je to jen kapka toho, co se přivádí do nejpokročilejších systémů AI. Například mateřská společnost Facebook Meta Meta uvedla, že nejnovější verze svého modelu velkého jazyka AI byla vyškolena na více než 30 bilionů tokenů vytažených z textu, obrázků a videí.
Meta také bojuje s žalobou komika Sarah Silverman a dalších publikovaných autorů, kteří obviňují společnost z krádeže svých knih z „stínových knihoven“ pirátských děl.
Nyní, s některými výhradami, skutečné knihovny vstávají.
OpenAI, který také bojuje s řadou soudních sporů o autorských právech, letos věnoval 50 milionů dolarů skupině výzkumných institucí včetně 400leté knihovny Bodleian Oxford University, která je digitalizací vzácných textů a pomocí AI, aby je pomohla přepsat.
Když společnost poprvé oslovila Bostonskou veřejnou knihovnu, jednu z největších v USA, knihovna objasnila, že jakékoli informace, které digitalizované budou pro každého, řekla Jessica Chapel, její vedoucí digitálních a online služeb.
„OpenAI měl tento zájem o obrovské množství školení. Máme zájem o obrovské množství digitálních objektů. Jedná se tedy o to, že se věci vyrovnávají,“ řekla Chapel.
Digitalizace je drahá. Bostonská knihovna byla například pečlivá práce na skenování a kurátorství desítek novin v Nové Anglii, které byly na konci 19. a začátkem 20. století široce čteny kanadské přistěhovalecké komunity z Quebecu. Nyní, když se takový text používá jako údaje o školení, pomáhá bankoll projektům, které knihovníci stejně chtějí dělat.
„Bylo nám jasné,“ hej, jsme veřejná knihovna, „řekla Chapel. „Naše sbírky se konají pro veřejné použití a vše, co jsme v rámci tohoto projektu digitalizovali, bude zveřejněno.“
Harvardova sbírka byla již digitalizována od roku 2006 pro dalšího technologického gigantu, Google, ve svém kontroverzním projektu na vytvoření prohledávatelné online knihovny s více než 20 miliony knih.
Google strávil roky tím, že porazil právní výzvy od autorů do své knihovny online knih, která zahrnovala mnoho novějších a autorských práv. Nakonec bylo urovnáno v roce 2016, kdy Nejvyšší soud USA propustil rozhodnutí nižších soudů, které odmítly nároky na porušení autorských práv.
Nyní, poprvé, Google spolupracoval s Harvardem na získání svazků veřejné domény z knih Google a vymazat cestu pro jejich vydání vývojářům AI. Ochrana autorských práv v USA obvykle trvá 95 let a delší pro zvukové nahrávky.
Jak užitečné to vše bude pro příští generaci nástrojů AI, je třeba vnímat, když se data sdílejí ve čtvrtek na objímající plošině, která hostí datové sady a modely AI s otevřeným zdrojovým kódem, které si může kdokoli stáhnout.
Sbírka knih je lingvisticky rozmanitější než typické zdroje dat AI. Méně než polovina svazků je v angličtině, i když evropské jazyky stále dominují, zejména německé, francouzské, italské, španělské a latinské.
Sbírka knih ponořená v 19. století by mohla být také „nesmírně kritická“ pro úsilí technického průmyslu vybudovat agenty AI, které mohou naplánovat a rozumět i lidi, řekl Leppert.
„Na univerzitě máte hodně pedagogiky kolem toho, co to znamená uvažovat,“ řekl Leppert. „Máte mnoho vědeckých informací o tom, jak provádět procesy a jak provádět analýzy.“
Současně existuje také spousta zastaralých údajů, od odhalených vědeckých a lékařských teorií až po rasistické příběhy.
„Když se zabýváte tak velkým souborem dat, existuje několik složitých problémů týkajících se škodlivého obsahu a jazyka,“ řekl Kristi Mukk, koordinátorka Harvardovy knihovnické inovační laboratoře, která uvedla, že se tato iniciativa snaží poskytnout pokyny o zmírnění rizik při používání dat, aby „pomohla jim přijímat své vlastní informované rozhodnutí a používat AI odpovědně“.
Publikováno – 13. června 2025 10:04