Information om information

— från kuvert av lera till metataggar på webben

[Avsnitten markerade med röd färg ströks av utrymmesskäl i den tryckta versionen.]

Det talas mycket om metainformation i dessa dagar, dvs. information om information. Traditionellt har bibliotekarier och bibliografer alltid varit metainformationens proffs. Med dagens datorteknik och information i nätverk håller begreppet på att förändras. I framtiden blir kanske nästan all information också metainformation.

När man börjar leta efter metainformation, hittar man den till sist nästan överallt. Information om information är ju i dag t.ex. metataggar i webbsidors html-kod, informationen i bibliografiska databaser, innehållsförteckningar i böcker, abstracts och nyckelord i avhandlingar, en föredragshållares inledande "jag tänkte tala lite om ...", tionde siffran i våra personnummer, osv.

Tidiga bokkataloger var t.ex. Alexander Aetolus förteckningar över tragedier i Alexandrias bibliotek eller Tyrannions klassificering av Ciceros privata bibliotek. Ibland var kataloger rent fysiska beskrivningar av bokhyllornas innehåll. Ibland bestod de av en enkel uppdelning i grekiska och latinska böcker eller efter ämnen som hörde till trivium eller qvadrivium. I Kina under Han-dynastin, cirka 200 f.Kr., hade man en indelning i sju stora grupper: Konfucianska klassiker, filosofi, rimmade verk, militära skrifter, vetenskapliga och metafysiska skrifter, sammanfattningar samt medicin. Först långt in på 1800-talet kom en systematik som liknar dagens bokstavs- eller decimalklasser.

Efter den stora bokbränning som kejsar Shi Huangdi iscensatte år 213 f.Kr. tvingades den kinesiska intelligentian att under århundraden försöka återupprätta vad som gått förlorat. Papperet introducerades tidigt i Kina (105 e.kr), och tyvärr har också mängder av handskrifter gjorda på detta ömtåliga material försvunnit. En rik flora av textkritiska verk, kommentarer och antologier blev följden av denna förstörelse. Sinologen Bernhard Karlgren berättar i en artikel från 1924 att "fast man inte kan gå till originaldokumenten kan man ur de otaliga editörernas och kommentatorernas, kompilatörernas och saxande encyklopedisternas verk oftast genom en sorgfällig jämförelse fastställa hur de för dem alla gemensamma, nu försvunna förlagorna sågo ut".[1]

Generalencyklopedin Tai ping yu lan från 983 innehöll t.ex. utdrag ur 1 690 olika verk, av vilka 80 procent inte längre finns kvar i original. Karlgren berättar också om det största encyklopediska företaget i historien, Yong le da dian, kejsar Yung-los thesaurus, från 1400-talet, som sysselsatte 2 160 personer i tre år med bara utdragen, vilket resulterade i ett verk omfattande 23 000 böcker. Den existerade i tre exemplar, alla nu tyvärr försvunna. På 1700-talet trycktes den stora Gu jin tushu jicheng (Fullständig samling av forntida och nutida tavlor och skrifter), som omfattar 800 000 sidor, med omsorgsfullt valda utdrag med värderingar och minutiöst redovisade bibliografiska metadata. [2]

Människan tycks ha en viss förkärlek för det självspeglande, för ett "metaplan" i tillvaron. Inte nog med att vi lär vara de enda djuren som är medvetna om att vi är medvetna, vi kan drömma att vi drömmer, vi har vetenskaper om vetenskaper, bibliografier över bibliografier, vi tycker om ordlekar som pekar på språkets egna inneboende mekanismer, och vi finner inte sällan nöje i metalitterära experiment som t.ex. författaren John Barths skriverier - eller varför inte Don Quijote, en bok som ju delvis handlar om sig själv.[3] I det japanska dockspelet Bunraku syns dockskötarna, spelet är medvetet om att det är spel.

Metainformation finns rent av inbyggd i våra språkliga konventioner. Man brukar säga att språket har hög redundans, dvs. det innehåller mängder av överskottsinformation som hjälper oss att förstå, även om delar av budskapet faller bort eller förvanskas. Det kan vara fråga om en rent retorisk utförlighet utöver det nödvändiga, som gör att man ändå kan förstå t.ex. på en dålig telefonlinje där vart femte ord försvinner. Redundans finns även nere på teckennivå, t.ex. i våra bokstäver som ibland är "onödigt" utförliga med upp- och nerstaplar som inte alltid behövs för att man ska kunna särskilja dem.

Många språkliga fasta uttryck signalerar redundans och metainformation: upprepningar i ordpar som "buller och bång", "tjock och fet", "helt och fullt" eller förtydliganden som ofta följer efter fraser som "det vill säga".

Språkets redundans kan ses som metainformation, men den blir det bara i de situationer där den behövs. Behovet av förtydliganden blir dock olika hos olika personer och beroende på situationen. Redundansen blir metainformation i förhållande till den information som av någon anledning faller bort. Detta behöver inte bero på överföringsproblem i mediet, det kan också orsakas av mottagarens brist på förkunskaper om det som meddelandet gäller.

Det matematiska "metabeviset" är en ganska intressant kringgående rörelse. När man inte kunde lösa problemet med cirkelns kvadratur, försökte man istället bevisa att problemet saknar lösning. 1882 lyckades tysken Ferdinand von Lindemann bevisa att det inte är möjligt att med endast passare och linjal konstruera en kvadrat med samma yta som en given cirkel. Efter detta kunde alltså mängder av förhoppningsfulla problemlösare världen över lägga ned sina ritinstrument.

Hur länge har det då funnits metainformation? Ser man det så här strängt, att även redundans och den enklaste precisering utgör metainformation i en viss situation, så torde metainformationen vara lika gammal som informationen. Frågan är alltså: hur länge har det funnits information? Det är en knivig fråga. Kan information finnas oberoende av ett mänskligt subjekt? Kan den finnas i växter, i vårt immunförsvar, i DNA? Informationsteoretikerna har olika svar på det. Borgmann skiljer t.ex. på information i naturen respektive i kulturen, men att det är fråga om information är nog de flesta ändå överens om idag. DNA-molekylen är ju en dubbelspiral där informationen upprepas för säkerhets skull. Här finns alltså både redundans och vid behov - metainformation.[4]

Information definieras ju högst olika. Shannon sysslade mest med överföringssäkerhet och brusfaktorer och bortsåg från det semantiska innehållet, medan Carnap och Bar-Hillel försökte hitta ett sätt att mäta även informationens meningsfullhet. Om vi hoppar över till metainformationen, så måste den rimligtvis ha mening, åtminstone i en så rudimentär bemärkelse som att den kan visa att den hänför sig till ett annat stycke information. Här anar man att redan en länk i ett hypertextsystem skulle kunna vara nog för att skapa en sorts metarelation.

Ett exempel (där vi lite i Shannons anda struntar i meningen): tänk er ett dokument A som bara består av hundratals siffror i olika obegripliga kombinationer. Ett annat dokument B är identiskt, sånär som på en av siffrorna. Om nu dokument B har titeln "Rätt version av A", så innehåller det metainformation om dokument A, som implicit säger att "den där siffran som skiljer dokument A och B åt är felaktig i dokument A". Det där är en sorts metainformationens nollpunkt. Sedan finns alla vidlyftighetsgrader av metainformation: den kan vara hur omfattande och explicit som helst. Jag återkommer till det (se där en mening med metainformation!).

Man skulle kunna dela in metainformationen i kategorier. Olika discipliner betonar olika sidor. Systemvetare och databaskonstruktörer ser kanske gärna att metainformationen har dels en kontrollfunktion, dels en strukturerande funktion. Textkritiker kanske är mera intresserade av om metainformation kan ersätta den information den refererar till (den blir substitutionell, vilket gäller t.ex. sammanfattningar), om den ger oundgängliga förtydliganden (komplementär metainformation) eller talar om vad som fallit bort i ett stycke information (supplementär). En nätverksbyggare kanske intresserar sig särskilt för om metainformationen är integrerad (inbäddad/embedded) i dokumentet med grundinformationen eller om den är externt lagrad. Inbäddad metainformation gör för det mesta informationen självrefererande. Kontrollerande information behöver oftast feedback, vilket också är en funktion med hög grad av självreferens.

Jag tänkte göra några nedslag i historien och hoppar då över blodkroppar, årsringar etc. och går direkt på uppkomsten av det mänskliga språket. Det anses ha uppstått någon gång för kanske 40 000 år sedan, men kanske kunde redan neandertalmänniskan utsända enkla ljudmeddelanden. I så fall talar vi troligen om en tid för ungefär 200 000 år sedan. När det nu än skedde att tidiga människor började grymta och hojta olika ljudkombinationer till varandra, så är det troligt att man rätt snart blev tvungen att förtydliga sina fåtaliga betydelsebärande stavelser med gester, pekanden och miner.

Så länge dessa förtydliganden är ad hoc, så kan de nog betraktas som metainformation. Men när de blir en integrerad del av det språkliga audiovisuella tecknet är det kanske mera tveksamt. Hur ska man t.ex. se på kinesiskans sätt att bilda kombinationstecken för nya begrepp genom att ta en av de 214 grundläggande s.k. radikalerna och kombinera med ett annat tecken som visar hur det nya tecknet ska uttalas?

Det kinesiska tecknet för 'resultat' bildas t.ex. av radikalen för 'kraft', som ensam uttalas li, till vilken man lägger tecknet för 'arbete', som uttalas gong. Det tillagda tecknet kallas fonetikum, dvs. det visar hur hela kombinationen ska uttalas. Tecknet för 'slå till' uttalas sui, men kombinerat med samma fonetikum, 'arbete/gong' betyder resultanttecknet 'attackera' - och uttalas alltså också gong. Det hela förvirrar inte bara oss västerlänningar, även kineser måste ibland skriva ned likaljudande ord för att få en samtalspartner att förstå. Också i svenskan har vi ju ibland behov av att precisera oss. När vi säger att något är 'lustigt', menar vi 'skojigt' eller 'underligt'? Engelskspråkiga frågar ibland "funny-peculiar or funny-haha?".

Skriftspråket i vår del av världen uppstod bland sumererna runt 3500 f.Kr. Men deras kilskrift uppstod i sin tur ur ett system med små lersymboler som börjat användas nära 5 000 år tidigare. Dessa s.k. tokens förekom i hundratals olika former, koner, kulor, skivor, cylindrar. tetraedrar, ovaler, fyrkanter osv., och de användes för att räkna och hålla ordning på t.ex. djur och lantbruksprodukter. Skulle man räkna sju får lade man fram sju tokens - t.ex. ovaler - som symboliserade får. Snart fick man behov av att hålla samman dem och skapade därför en sorts "kuvert" av lera, en rund behållare som kunde förseglas. Men när den var stängd kunde man ju inte se hur många som fanns inuti. Alltså ristade man på utsidan av lerkuvertet lika många symboler som det fanns tokens inuti, i mitt exempel alltså sju ovaler. Snart tyckte man sig inte behöva några tokens längre, det räckte med symbolerna ristade i leran. Skriftspråket föddes alltså som metainformation - skriften utanpå kuvertet var ju information om informationen inuti.[5]

Under antiken skrevs oftast språk som hade tecken för vokaler i en följd utan ordmellanrum, s.k. scriptura continua. De som inte hade vokaltecken, t.ex fenicier och palestinier, skrev med ordmellanrum ofta markerade med upphöjda punkter. När grekerna tog över de feniciska skrivtecknen och anpassade dem genom att lägga till vokaler, slutade de också att använda ordmellanrum. Romarna byggde sina tecken på de grekiska formerna men behöll rätt länge ordmellanrum. På 100-talet övergav även de ordmellanrummen. Det verkar som om äldre tiders människor såg det som naturligast att det muntliga flödet också skulle återges oavbrutet. På 600-talet försökte irländska munkar att återställa bruket av ordmellanrum, både i latinska och grekiska texter. När deras verk nådde kontinenten brukade dock skrivarna där åter kopiera böckerna utan ordmellanrum, så omställningen gick inte särskilt snabbt.[6]

I tusen år ungefär skrev skrivkunniga människor i Europa ihop orden, och när de väl började skriva isär, blev det inte alltid rätt. Benediktinermunken Abbon de Fleury varnade på 900-talet för felaktig uppdelning av ord, det fick inte bli "veni trex" istället för "venit rex" t.ex. Det är svårt att höra var gränserna mellan orden går, det vet alla som försökt lära sig ett främmande språk. Många minns nog också hur man missuppfattade fraser som barn. "Trygga räkan" brukar svenska barn tro att det heter i den kända psalmen - en motsvarande felhörning bland engelska barn är "gladly the cross-eyed bear". Ett av de svåraste problemen i dagens skola är att få eleverna att lära sig korrekt sär- och sammanskrivning av ord. Fonetikern Sven Öhman konstaterar också att många människor blir förvånade över hur svårt det är att urskilja ordgränserna när man ser tal representerat som en ljudkurva på en datorskärm eller i ett oscilloskop.[7]

Scriptura continua nödvändiggör högläsning. Raderna av bokstäver blir helt enkelt inte möjliga att förstå förrän man läser upp dem högt. De medeltida klostren genljöd också av ett evigt mumlande från bedjande munkar.

Ordmellanrummet var en förutsättning för att människor i allt högre grad skulle lära sig att läsa tyst. Många forskare anser att den tysta läsningen var villkoret för att en författare av modern typ skulle kunna uppstå: det skapande geniet. Ensamheten, kontemplationen, att kunna skriva av utan en person som dikterar, bättre överblick över det man just skrivit. På 1100-talet kom en våg av mera erotiska skriverier, vilket kanske inte var så förvånande med tanke på den nya, mera intima skrivmiljön.

Ordmellanrummen utgör metainformation om språkets struktur. På 700-800-talen introducerades en rad nya tecken både i England och på kontinenten för pauser och frasslut, t.ex. punctus versus, som såg ut som dagens semikolon men snarare hade den funktion vår punkt har. Bland de intressantaste nymodigheterna var uppfinningen av frågetecknet, punctus interrogativus, som lär ha skapats antingen av skrivare vid klostret Corbie i Picardy (där för övrigt Ansgar var verksam) eller möjligen av någon vid Karl den Stores bibliotek. Det pilspetsliknande tecknet diple (>) började Cisterciensermunkar på 1100-talet använda, inte bara som förut i marginalen utan även inne i texten som markering för citat. På 1400-talet tillkom parentesen, för intratextuellt placerade sidospår, som också tillät en mer komplicerad meningsbyggnad på ett sätt som bara fungerade vid tyst läsning. Den kom dock att användas huvudsakligen i de tryckta böcker som nu började spridas alltmer.

Erasmus (cirka 1467-1536) skrev om detta: "[...] det är nästan otroligt hur mycket gott interpunktionen bidrar med när det gäller förståelsen av en passus; så mycket att en viss lärd ganska skarpsinnigt sade att interpunktionen var en sorts kommentar till texten."[8]

För logisk avsnittsmarkering - det som så småningom skulle utvecklas till vår styckeindelning i texter - användes många olika tecken men sällan på ett konsekvent sätt. Isidor av Sevilla talar på 600-talet om paragraphus, ett tecken som ser ut som en bakvänd sjua, och ofta användes det neumliknande trepunktstecknet trigon eller dubbla snedstreck (//). I allmänhet markerades dock inte avsnitten med ny rad. Alineatecknet (eng. pilcrow eller paraph) står liksom de andra markörerna för det mesta inne på raden. Flera av de här nämnda tecknen lever faktiskt kvar än idag på våra datorer. I ordbehandlingsprogram kan man ofta välja kommandot "visa osynliga tecken", och då syns mellanslagen som upphöjda punkter och styckeslut markeras med alinea.

Såväl medeltida glosseringar som senare tiders korrekturtecken är också metatextuella informationselement. I själva verket utgör all explicit versionshantering metainformation.

Gregorius IX:s dekretaler (påvlig lag) i handskrift av Henrici Lescot från slutet av 1200-talet (detalj). Avsnitt markeras här både med anfanger och alineatecken, ett stunget c, som senare utvecklades till ett "bakvänt p". Här finns även en pekande hand, en annan av de många metatextuella markörer som användes under denna tid.

Roger Chartier berättar i boken "Böckernas ordning" om hur uppbragt John Locke var över att Bibeln trycktes med texten uppdelad i kapitel och verser:

"Han [anhängaren av en speciell kyrka] behöver bara rusta sig med verser ur den heliga skrift vilka innehåller ord och uttryck som enbart är böjliga och smidiga [...], och hans system, som införlivar dem med den ortodoxa doktrinen i hans speciella kyrka, kommer genast att göra dem till mäktiga och ovederläggliga argument för hans åsikt. Där har vi fördelarna med lösa meningar och med Bibeln söndersmulad till verser, vilka snabbt förvandlas till Självständiga tänkespråk."[9]

Ett oralt drag levde länge kvar (och lever än) i böckerna, både handskrivna och tryckta. Man apostroferar läsaren, kapitel inleds ofta med en översikt över vad det ska handla om, och berättelserna är - åtminstone före 1800-talets mitt - främst episodiska och utnyttjar inte riktigt mediets möjlighet att skriva långa fortspinnande berättelser. I artikulationen på den tryckta sidan ingick nu visserligen att man arbetade med vita utrymmen för att lätta upp för ögat, men det var långt kvar till den logiskt motiverade artikulation vi idag är vana vid. Titelbladet till Thomas Elyots berömda bok "The Governour" från 1531 (i Berthelets utgåva från 1534) visar t.ex. hur bestämda artikeln "THE" trycks med störst grad, som om den var viktigast (se bild).

Titelbladet till Thomas Elyots bok "The Governour" från 1531 (i Berthelets utgåva från 1534) visar andra konventioner för artikulation än de vi är vana vid. Bestämda artikeln "THE" trycks störst, som om den var viktigast. Här finns också ett metadrag: boken talar om att den är en bok: "The boke named the Governour, devysed by syr Thomas Elyot knight".

När den moderna tidningen kom, uppstod en hypertextuellt färgad collageeffekt av de ofta mycket olikartade texter som plötsligt samsades på sidan. "When we juxtapose news items from Tokyo, London, New York, Chile, Africa and New Zealand we are not just manipulating space. The events so brought together belong to cultures widely separated in time", skrev Marshall McLuhan 1953.[10] Som sagt har texter som bara existerar tillsammans också en benägenhet att spegla varandra och ingå i en metainformationsrelation.

Problemet med begreppet metainformation är att det är om möjligt ännu mera nebulöst än begreppet information. Om något blir metainformation eller inte beror helt på vilken referenspunkt man väljer. Informationsbäraren A:s innehåll kan vara metainformation till informationsbäraren B:s innehåll, samtidigt som delar av B:s innehåll kan utgöra metainformation i förhållande till A. Hur förhåller det sig t.ex. med information som har en noteringsfunktion? Är föredragsbeteckningar i musikaliska noter metainformation i förhållande till vissa avsnitt av noteringen? Är sedan hela noteringen metainformation i förhållande till uppförandet? Men uppförandet kan ju också vara information om noteringen, eftersom den är en tolkning. Två handskrivna exemplar av en medeltida skrift som skiljer sig åt i vissa enskildheter - vilken av dem kan sägas innehålla metainformation om den andra? Eller om ett tänkt tredje exemplar - ett original? Varje avskrift med sina idiosynkrasier blir ju en tolkning, och alltså metainformation.

Det där visste redan 1500-talsboktryckaren Henry Estienne I, som utnyttjade inte mindre än tolv olika handskrifter som förlaga för en tryckt bok. Samma idé ligger bakom en del av dagens system som kollar av och jämför identiteten hos parallellt lagrade elektroniska dokument på olika servrar (det amerikanska LOCKSS-projektet t.ex.).

I den värld av hyperinformation vi idag bygger upp åt oss, där disparat information samsas på ett ännu mera spektakulärt sätt än på tidningssidan, uppstår ständigt nya hypertextuella relationer, genom sökmotorer, data mining och andra tekniker. I arbetet med att försöka förädla informationen, bedöma dess autenticitet och integritet, relevans m.m. behövs metainformation, vilket det ju finns mängder av projekt för idag - Dublin Core t.ex. för att bara nämna ett.

Samtidigt finns ganska mycket av den information man behöver redan ute på nätet - och i en framtid när ännu mera digitaliserats, kommer en utopisk tidpunkt där allt vi behöver av metainformation redan finns i informationsrymden. Men hur ska man nå den? Man skulle teoretisk sett kunna tänka sig en programmeringslösning, där lingvistisk parsing, artificiell intelligens och liknande tekniker som vi ännu inte uppfunnit, i ögonblicket, on demand, skulle kunna skapa de metarelationer vi just behöver för bedömning, kontroll m.m. Ett sådant program blir i viss mening också metainformation om hela det system det ska verka i, och den informationsmängd människor tvingas bygga in i programmet kanske blir lika stor som den man skulle lägga in i mera "manuella" metadatasystem av typen metataggar.

Shannon var inne på att i ett system kommer informationen med tiden att urarta - ordning bli oordning. Frågan är vad som händer i ett (tänkt) obegränsat allomfattande informationssystem, som just genom sin oändlighet är slutet (inget nytt kan ju komma in som inte redan finns där). Med tiden blir även ett så stort system allt mer självrefererande. Kanske uppstår så småningom ett nytt kunskapsteoretiskt problem. Människan har ju i filosofisk bemärkelse länge känt begränsningen i att vara "alltings mått", att inte kunna gå utanför den egna referensramen. På ett liknande sätt kanske vi blir mer och mer instängda i självreferens - som en analysand på psykoanalytikerns soffa, som efter många år till sist inte har något liv att berätta om förutom det liv han lever på soffan.

Noter:.

1. Bernhard Karlgren, "Från Kinas bokvärld", Biblioteksbladet, nr 9, 1924, s. 1-9. [Tillbaka]

2. Bernhard Karlgren, "En kinesisk 'Nordisk Familjebok'", Ord & Bild nr 27, 1919, s. 483-492.[Tillbaka]

3. Historiografin fick rätt tidigt denna metakaraktär. James Shotwell skriver i sin "History of history" från 1922 om dubbelheten i själva ordet historia, att det både betecknar den skrivna "storyn" och de historiska händelserna i sig själva. Historikern Hayden White använder ordet metahistory om denna "storlyline", den lingvistiska och poetiska struktur som ligger till grund för och styr våra förväntningar på hur historieskrivning bör se ut. [Tillbaka]

4. Ungefär så fungerar det också med backupkopior eller vilken kopia som helst. Nya reviderade upplagor av kartor eller böcker ger metainformation i förhållande till tidigare upplagor. [Tillbaka]

5. Läs mera om tokens i Denise Schmandt-Besserat: "How writing came about", 1992. [Tillbaka]

6. Se vidare Paul Saenger, "Space between words: The origins of silent reading", 1997. [Tillbaka]

7. Sven Öhman, "The case of speech processing", Keynote Speech at the 6th International Conference on Spoken Language Processing, Beijing 16-20 October, 2000. [Tillbaka]

8. Citerat efter Saenger, P. and Heinlein, M. (1991) Incunable Description and Its Implication for the Analysis of Fifteenth-Century Reading Habits. In: S. L. Hindman (ed.), Printing the Written Word. The Social History of Books, circa 1450-1520, s. 225-258. Övers. av artikelförf. [Tillbaka]

9. Chartier citerar i sin tur från D. E McKenzie, "Bibliography and the Sociology of Texts", The Panizzi Lectures 1985, s. 46-47. [Tillbaka]

10. Marshall McLuhan, "Culture Without Literacy", Explorations 1, december 1953. [Tillbaka]

[Tillbaka till Artikelindex]
[Tillbaka till Karl-Erik Tallmos startsida]