eBøger

fredag 06. januar, 2012

Hvad pokker stiller man op?

Nu skal man til at passe på, hvordan man formulerer sig om piratkopiering. I Sverige er det nemlig blevet en religion. Og det der før var moralsk forkasteligt, er nu et helligt sakramente. Det er nu stadig ulovligt, men man kan formentlig konvertere på deres hjemmeside, så snart den er oppe igen, efter at være blevet slashdotted.

Det kan man grine af, men man bør nok lade være. Kritik af piratkopiering har i hvert fald en tilbøjelighed til at udløse ret heftige følelser. Det har Ronnie Fridthjof fundet ud af efter sin kronik i Politiken forleden, hvor han sammenligner piratkopiering med butikstyveri. Det gør han, fordi hans film "Alle for en" bliver piratkopieret. Fire gange så meget som den bliver downloadet lovligt, skønner han.
Han skriver faktisk ikke direkte at han mener piratkopiering er tyveri. Det er det teknisk set heller ikke. Men det er blot en af de forargede reaktioner han har fået i kommentarerne til kronikken. Han har nemlig helt misforstået det. Det er ikke tyveri. Det er i øvrigt hans egen skyld, hans film er alt for dyr, hvis bare den kun kostede 50 kr. at downloade lovligt, ville den ikke blive piratkopieret. Han burde også som kunstner bare være glad for at nogen vil piratkopiere hans film. Det er i øvrigt en skodfilm som ikke er pengene værd.
Nu har jeg ikke set filmen. Men jeg har læst anmeldelserne, og jeg tror faktisk ikke at det er en film jeg ville betale for at se. Jeg ville endda ikke bruge kræfter på at piratkopiere den. Det er bare ikke et argument for at foretage sig noget ulovligt.
Med risiko for at fornærme nogen: Årsagen til at alle de argumenter fremføres er, at man godt ved at piratkopiering er ulovligt, og ikke helt fint i kanten. Man bryder sig bare ikke om at der er nogen der har den frækhed at gøre opmærksom på det. Det minder temmelig meget om (nogle) cyklisters reaktion på fodgængere, der gør opmærksom på forskellen mellem cykelstier og fortove.

Når det er sagt: Ronnie Fridthjof har en pointe omkring problemerne med at en ulovlig praksis der risikerer at udslette store dele af den kommercielle kulturproduktion, er blevet så socialt acceptabel, at ingen tager sig af det. Men hans løsningsforslag holder næppe i praksis. Der skal nemlig sendes bøder til ejeren af de internetforbindelser hvor der bliver piratkopieret. Hvis ikke ejeren selv har piratkopieret, kan han sende den videre til børnene, naboen, vennerne eller konen, afhængig af hvem der har lånt netforbindelsen til piratkopiering. Og min arbejdsplads kan fyre mig når de har fået tilstrækkeligt mange bøder for den piratkopiering jeg har foretaget via deres netforbindelse.

Der er bare et par problemer ved den ide. Min netudbyder vil nemlig være nødt til at holde øje med om jeg piratkopierer, ellers kan de jo ikke sende mig en bøde. Og hvordan i himlens (fildelingens?) navn skulle de kunne finde ud af det? Er al download af videofiler fra en hjemmeside piratkopiering? Jeg vil i hvert fald være ked af at få en bøde for at downloade denne fantastiske film om kaniner. Det er nemlig producenterne, der selv opfordrer mig til det.
Eller er al download fra torrentfiler fundet på piratebay.org? Det kan ikke skelnes fra download via torrentsystemet generelt. Og det populære spil World of Warcraft distribueres ved hjælp af det system.
Den eneste måde at praktisere det på er at lave "Deep packet inspection på al trafikken, og vedligeholde lister over hvad der er piratkopier, og hvad der ikke er. Bortset fra at det ville svare til at teleselskaberne skulle bånde alle vores telefonsamtaler, med hvad det medfører af demokratiske problemer, er det fuldstændig urealistisk.

Hvad gør man så? Kaster sig over noget Spotify-lignende for film og bøger? Det er nok heller ikke løsningen. Berlingeren kan nemlig berette, at Lady Gaga i 2011 fik 920 kr. for streaming af hittet "Poker Face". Det er muligt, at det er hvad piratkopisterne ville være villige til at betale, men det dækker nok ikke produktionsomkostningerne.

Jeg aner ikke hvad løsningen på problemerne er. Vidste jeg det, ville jeg ikke arbejde her, men have solgt løsningen, og tilbragt resten af mine dage på en varm strand i nærheden af en god bar. Men jeg er sikker på at løsningen hverken skal findes i legalisering af piratkopiering, eller afskaffelse af internettet som vi kender det i dag.

tirsdag 03. januar, 2012

Cory Doctorow om DRM, malware og censur

Efter gårsdagens udbrud om copyright, er det nok på sin plads at grave et spadestik dybere. Eller i hvert fald citere en klog mand for noget der er en tand mere sofistikeret.

Cory Doctorow er interessant at læse, fordi han (bl.a.) lever af at skrive bøger som han markedsfører ved at give dem væk gratis, fordi har er en varm fortaler for open source og andet godt. Og ikke mindst fordi hans bøger hører til genren "future present", hvor han skruer tiden ti år frem, og udforsker hvad konsekvenserne af en tendens der allerede i dag er synlig, vil blive hvis vi skruer helt op for den. Hvad sker der eksempelvis når 3D printere bliver så gode, at antipiraternes motto om at "du ville ikke stjæle en bil", virkelig kan besvares med "nej, men jeg vil downloade den". Hele novellen kan læses her, ganske gratis.

Og hvad er det så han siger? Foredraget kan ses her, en transkription på denne side. Emnet er den logiske følge af DRM (*), og det er altsammen meget interessant, men de første par sider er det der har relevans for piratkopieringen, nemlig en kort gennemgang af vejen frem mod DRM som vi kender det i dag. Og hvorfor det er en krig som rettighedshaverne taber/har tabt, med mindre de vil censurere internettet, og installere spyware på min computer.

(*) Digitial Rights Management. For de fleste praktiske formål kan vi kalde det kopibeskyttelse.

Sidste uges nyheder

Piratkopiering er et populært emne, også her. comon.dk skrev for en lille uges tid siden om hvordan de danske bog-pirater er sejlet håbløst agterud. Bogpirateri er simpelthen ikke specielt udbredt på dansk, og det illustreres ved, at Demonoid kun tracker fem danske bøger.
Det er nok korrekt at der ikke piratkopieres mange danske bøger, og det skyldes sikkert, at der ikke er megen faglitteratur på dansk. Og fem bøger er virkelig heller ikke mange, sammenlignet med de 51.366 engelske bog-torrents der findes på Demonoid.

Men en lille præcisering er det nok nødvendigt med. Den uopmærksomme læser kan nemlig forledes til at tro, at der faktisk er fem piratkopierede, danske bøger på Demonoid (*). Det er der bare ikke. Den ene er godt nok lidt på dansk, og det er fordi det er et danskkursus af amerikansk oprindelse. Og de fire andre er ganske gamle (1800 og noget), og enten oversat eller hånddigitaliseret af den person der har oprettet torrentfilen. Og derfor næppe i nogen juridisk forstand udtryk for piratkopiering...
Udbredelsen af piratkopiering af danske ebøger lader med andre ord til at være ikke-eksisterende.
Til gengæld så en af dem ret interessant ud. Den er et oversat kapitel fra en bog fra 1841, og jeg tror jeg skal have downloadet kilden: Extraordinary Popular Delusions and the Madness of Crowds af Charles Mackay.
Det kan gøres fra projekt Gutenberg, og er ikke noget der bare kommer i nærheden af piratkopiering.

(*) Det kan der dog sagtens være. Man finder seks titler når man søger efter bøger på dansk. Men den ene af dem er i den grad på engelsk, selvom den er registreret som værende dansk. Og det illustrerer smukt at der sagtens kan være masser af danske piratkopierede bøger på Demonid, der bare ikke er registrerede som værende på dansk.

mandag 02. januar, 2012

Hvad copyright har af konsekvenser

Godt nytår!

Copyright handler om at beskytte skabere af ting der er meget lette at kopiere mod misbrug. Hvis jeg havde en ambition om at leve af mine litterære evner, ville jeg have et problem, hvis alle bare kunne kopiere min geniale og banebrydende samtidsroman om livet for specialkonsulenter i en postmodernistisk biblioteksverden. Ideen ville jo være at mine beundrende læsere skulle betale for at læse teksten, så jeg kunne supplere min beskedne løn, indtil jeg fik nobelprisen i litteratur.
Det fungerer ikke hvis min nabo begyndte at distribuere guldkornene uden at betale mig for det. Er der ikke en eller anden beskyttelse mod den slags, ville jeg næppe sætte mig til tasterne. Og samfundet har en interesse i at der produceres kultur til menneskehedens berigelse og oplysning. Derfor har vi ophavsretslovgivning og copyright og alt det andet fra immaterielrettens kerneland. Også selvom mine litterære evner nok er af en kvalitet der gør at samfundet i dette konkrete tilfælde, nok mest har en interesse i at jeg ikke bliver udgivet.

Det er en ydelse jeg får fra samfundet. Det beskytter mine rettigheder, og straffer min nabo. Men der er ikke noget der hedder en gratis frokost, som amerikanerne siger, og prisen for beskyttelsen, betaler jeg ved at mine rettigheder har en begrænset levetid. Efter et passende antal år får verden lov til at kopiere og benytte mit værk uden at skulle betale mig for det. Det er altsammen udemærket, pirater og andre hverdagskriminelle synes det er meget uretfærdigt, men jeg synes også det er urimeligt at jeg skal betale for varerne i supermarkedet.

Der hvor det bliver urimeligt er, når levetiden af ophavsretten udvides ud over det rimelige. Man kan overveje hvor længe rimeligt egentlig er, men visse steder (læs: USA) arbejder man ret aktivt på at udvide grænserne for rimelighed.
Det amerikanske Duke University har en afdeling for studiet af "public domain", altså immaterielle varer, der er blevet fælleseje. Ting som tidligere var omfattet af ophavsretten, og som nu er blevet så gamle, at de er en del af det fælles arvegods, som man må gøre med hvad man vil (sådan da). De udgiver hvert år en oversigt over et udvalg af de værker, hvor ophavsretten kunne være udløbet, hvis ikke det var fordi beskyttelsesperioden i 1998 var blevet udvidet (i USA).
Listen er blot et udvalg. Men i år ville copyrighten på "Kongen Vender Tilbage" af Tolkien og vladimir Nabokovs "Lolita" være udløbet. Blot to litterære hovedværker, som kunne have været en del af menneskehedens fælleseje fra i år.

Se oversigten her, og læs mere om baggrunden for udvidelsen af beskyttelsesperioden på Wikipedia.

fredag 23. december, 2011

Så er det næsten jul - opskrifter og oksefrøer

I denne søde juletid tager vi lige et par lette sager, og så går bloggen på ferie.

Vi bryder os egentlig ikke om reklamer her, og da slet ikke for æbler, som ikke hører hjemme i computere, men derimod i juleænder. Men alligevel: Et lille tip til alle dem, der skal stå i køkkenet i julen. Gyldendal har frigivet Frk. Jensens Kogebog som en iPhone/iPad/iPod/iKøkken applikation. 200 gratis opskrifter, om andesteg er med ved jeg ikke. Den kan downloades fra iTunes via dette link.

Og så en lille video der illustrerer hvor gode de touchscreens vi (også) læser bøger på er blevet. Og hvorfor man skal passe på med at drille sine kæledyr.

God jul og godt nytår.

tirsdag 20. december, 2011

Forfatterne kan tømme bibliotekernes kasser

Det mener Jan Kjær ihvertfald i dagens Politiken. Og det har han da sikkert ret i. Som den nuværende biblioteksafgift er skruet sammen, og som de fleste biblioteker håndterer bøger der er voldsomt udlånt, er der nu ikke noget nyt i det.

Jan Kjær harcelerer over den aftale der er indgået mellem bibliotekerne og Publizon, om "udlån" af ebøger. Det er min fornemmelse at han gør det med en vis ret, for forfatterne er ikke specielt godt stillet økonomisk i den. Basalt set kommer de ikke i nærheden af at få noget det ligner de penge de normalt får fra biblioteksafgiften i denne model. Der er en del detaljer, og dem gennemgår han aldeles fremragende, så dem vil jeg overlade til den interesserede læser.

Pointen om at tømme bibliotekernes kasser: Han mener at hvis forfattere selvudgiver en ebog, og dernæst organiserer lån af ebøger blandt venner og bekendte, kan man generere en pæn indtægt i denne model. Og den er god nok. Det er nu ikke så forskelligt fra hvad man kan med papirbøgerne. De fleste biblioteker vil anskaffe ekstra eksemplarer hvis der er stor efterspørgsel efter en bog. Det giver forfatteren fortjenesten ved salget, men bogen vil nu også stå i flere eksemplarer på bibliotekerne, og det genererer en automatisk indtægt lang tid fremover. Det er lidt mere vanskeligt at få organiseret, men det kræver ikke en løbende indsats.

Og så brokket over at forlagene regner udlånet af ebogen som et salg, og dermed snyder forfatteren. Det ligner det vi brokker os over her på bloggen, blot med andet fortegn. Biblioteket køber nemlig ikke bogen. Der er ikke tale om et salg. Der er tale om et lejemål. Og det begreb beskriver forholdene meget mere præcist end Jan Kjærs beskrivelse af at ebøgerne bliver solgt. Det er en semantisk strid, problemerne ændrer sig ikke specielt meget af den grund. Blot er vi her på bloggen ikke begejstrede for at kalde det for et køb, når vi i virkeligheden lejer ebogen. Specielt ikke når det nu netop er et køb vi har lyst til at foretage.

Endelig problemet om biblioteksafgiften. Det er ikke en ting vi tager specielt tungt her, men det er også kun fordi bloggen bor på Københavns Universitetsbibliotek, hvor vi primært har udenlandske, videnskabelige monografier, og ikke ret mange tegneserier eller romaner. Her er der virkelig en pointe. Den måde biblioteksafgiften er skruet sammen på, tager virkelig ikke højde for ebogens eksistens. Det er noget der er lovreguleret, så Jan Kjær har ret i at ministeriet må på banen. Jeg håber så ikke at de spørger mig hvordan det skal skrues sammen, for det er ikke let, men noget må gøres.

mandag 12. december, 2011

Det er det de unge vil ha'!

Politiken kan berette at yngre svenskere strømmer til bibliotekerne i øjeblikket. Zlatans selvbiografi er populær, og set herfra, er det særligt interessant, at de især går efter ebog udgaven af den.

torsdag 01. december, 2011

Hvad er forskellen på en hjemmeside og en ebog - i praksis

Jeg skulle have studeret filosofi i stedet for kemi. Det havde i hvert fald gjort livet lettere i disse dage, hvor jeg funderer over hvad forskellen egentlig er på forskellige informationsbærende medier.
Jeg bliver mere og mere overbevist om, at en trykt bog blot er en instans, eller en manifestation af et mere bredt fænomen, som vi kalder for bøger. Og at ebogen måske er tættere på det fænomen end den trykte bog er. Og yderligere, at ebogen blot er en underkategori af noget endnu bredere, der helt eller delvist dækkes af fænomenet "hjemmeside".
Og jo mere jeg tænker over det, jo mere sikker bliver jeg også på, at det muligvis er en nyttig måde at beskrive tingene på, men alligevel fuldstændigt forkert. Det er sjældent et kønt syn når ingeniører forsøger sig med filosofi...

Ovenstående filosofiske fuldemandssnak, skyldes nogle helt konkrete erfaringer. Lad mig berette:
Vi har fået fingrene i et par Kindle Fire (nej, man kan ikke købe dem direkte fra Amazon...), og pludselig er jeg blevet meget mere begejstret for at læse ebøger. Normalt fylder ebøger så meget i arbejdet, at jeg ikke orker noget som helst med ebøger når jeg kommer hjem. Bogen til metroturen er på papir, det er den der læses i sofaen mens kæresten spiller World of Warcraft også, og bøgerne på ønskelisten til jul er også af papir. Men Kindle Fire har fanget mig på en helt anden måde end iPadden kunne. Hvorfor ved jeg ikke, måske kommer vi tættere på svaret, når vores vidende ebogstester Lasse har testet færdigt.
Jeg er faldet over nogle interessante, ret lange, tekster om (e)bøger, og dem ville jeg gerne læse på Kindlen. Den har bare ikke mobil net indbygget, så enten skal teksterne lægges på den, eller også skal den på nettet via mobiltelefonen. Det sidste er lidt dyrt, så øvelsen var at få dem på Kindlen. Det er et projekt der kræver lidt arbejde, for Amazon mener de skal have deres eget format. Det klarer Calibre, vi skal bare have det i et andet format. ePub for eksempel. Der googles - og vupti, så finder vi en lille funktion, der automatisk kan tage en hjemmeside, og gemme den som ePub. Vi vender tilbage til den, og et par andre, i en senere blogpost. Skal den absolut på Kindlen, konverteres den af Calibre, men som udgangspunkt kan jeg klikke på en knap, og få gemt en hjemmeside i noget der til forveksling ligner en ebog. Måske ikke nogen særligt lang ebog, men netop den side jeg var interesseret i, er lang nok til at den kvalificerer som bog.

Det var langt. Men den korte version er, at forskellen på om teksten er en hjemmeside eller en ebog, er et tryk på en knap.

tirsdag 29. november, 2011

Børnebøger - som e eller p

Blot ganske kort mens Eric pusler med at finde ud af hvorfor kommentarfunktionen opfører sig underligt. New York Times rapporterer, at selv folk der læser ebøger på iPad, iPhones (og andre ting der begynder med i) og/eller Kindle, foretrækker trykte bøger til deres børn.
Artiklen har mange forskellige forklaringer. Dog synes jeg at den mangler en ikke uvæsentligt pointe. Når man bruger en banan som bogmærke i en børnebog til 150 kr. er katastrofen, økonomisk set, mindre end hvis man taber en kop kakaomælk i en iPad.

Kommentarer på bloggen

Det lader til at det ikke er muligt at kommentere på denne blog. Fejlen er meldt til vores IT-afdeling (i går), og jeg håber at der sker noget forholdsvist hurtigt.
Vi beklager ulejligheden.

Update: Det lader til at tingene fungerer igen. Mysteriet er ikke helt løst, men bare det virker.

mandag 28. november, 2011

Dagens nyheder

To små nyheder fra aviserne.

Berlingeren skrev (for en uge siden) om fremtidens ebog. Det er "The Fantastic Flying Books of Mr. Morris Lessmore", der vel i en eller anden forstand ikke er en bog, men en app. Eller hvordan det nu er vi skelner. Under alle omstændigheder er der tale om en lille fortælling om en mand der virkelig godt kan lide bøger. Og selvom det er en børnebog, og selvom jeg skal have det private kreditkort frem for at købe den, har jeg en fornemmelse af at det er værd at kigge nærmere på. Jeg er i hvert fald vældig betaget af videoen.
App'en er endnu et eksempel på at skellet mellem bogen og spillet(/hjemmesiden/programmet/whatever) bliver mere og mere flydende. Med mindre vi er parate til at opfinde en helt ny kategori af ting der ikke længere er bøger.

I en ganske anden boldgade er nyheden fra Politiken, om at de første boghandlere har taget anstød af ereolen.dk. ereolen.dk er den nye bibloteksløsning for ebøger fra Pubhub - Publizons ebogsdistributionsplatform. Den giver basalt set adgang til at låne ebøger. Det er der ikke noget synderligt kontroversielt i, problemet opstår fordi hver bog er udstyret med tre, i stedet for to knapper. De to første er helt uproblematiske. "Prøv" giver mulighed for at tage et smugkig i bogen, "Lån" låner bogen (man skal logge på med sine brugeroplysninger fra ens lokale bibliotek). Så langt så godt. Den tredie knap hedder "Køb". Den virker godt nok ikke endnu, i hvert fald ikke på min computer, men den stiller videre til det relevante forlags egen salgsside. Bibliotekerne får halvdelen af fortjenesten ved salget. Her ryger kæden af, for det gør jo bibliotekerne til boghandlere, sådan indirekte. Og det er de kommercielle boghandlere selvfølgelig ikke specielt begejstrede over.

mandag 21. november, 2011

Fire walk with me

Eller noget i den retning. Det korte af det lange er at i morgen får vi et par eksemplarer af Kindle Fire fra Amazon i hånden. De første meldinger fra vores sædvanlige ebogslæsertester er positive. Og så må vi se om den virkelig er "god nok" til prisen, som Slate.com mener, eller om det giver for meget bøvl at man ikke har adgang til Googles standard applikationer, som gribbene hos The Register klager over.

torsdag 17. november, 2011

Kopibeskyttelse

Forleden kiggede vi på hvad der gemte sig inden i en ePub-fil, for at forsøge at forstå hvad forskellen egentlig er på en ebog og en hjemmeside. Hvor forståeligt det egentlig var for andre end forfatteren er et åbent spørgsmål men jeg blev i hvert fald lidt klogere på emnet.
Men det var jo blot indholdet i en generisk ePub-fil. Hvad med de kopibeskyttede?

Forlagene og distributørerne benytter sig af to fundamentalt forskellige tilgange; blød og hård DRM.
DRM er forkortelsen for Digital Rights Management, eller Digital Restrictions Management, som man fristes til at kalde det så snart man er stødt på problemer med det. Fænomenet dækker over teknikker der skal forhindre piratkopiering af digitalt materiale, i dette tilfælde ebøger. Den hårde vej er at forhindre folk i rent faktisk at kopiere bogen. Det er vanskeligt, for bogen skal jo fysisk befinde sig på læserens computer eller ebogslæser. Er den først endt der, kan den mageligt kopieres. Tricket er at benytte sig af særlige formater, der kun kan læses af bestemte programmer, hvis virkemåde distributøren kontrollerer. Den mest udbredte er fra Adobe, og hedder Adobe Content Server. Systemet krypterer basalt set en PDF-fil så den kun kan åbnes af programmet Adobe Digital Editions. Og kun under bestemte forudsætninger - eksempelvis at der ikke kan kopieres eller printes fra filen, eller at man kun kan åbne filen i otte dage, hvorefter filen "låses" og ikke kan benyttes igen. Samme princip kan benyttes med ePub-filer.

Det er et lidt kompliceret emne, så i første omgang tager vi et kig på den bløde DRM.
Da jeg skrev speciale på DTU i sin tid, havde en af de ph.d.-studerende en kaffekop, der tydeligvis var en souvenier fra et større amerikansk universitet han havde været på. Der stod "denne kaffekop er stjålet på universitetsbiblioteket". Altså bare på engelsk, og hvilket universitet det var, kan jeg ikke huske.
Det er, når vi skærer helt ind til benet, princippet bag den bløde DRM. Et eller andet sted i ebogen står der hvem der har købt eller lånt bogen. Der kunne i princippet øverst på hver side, stå navn og adresse på køberen. Ender ebogen efterfølgende på Piratebay, kan forlaget hente deres egen piratkopi, og få deres advokat til at sende en regning til køberen.
Man kan også gøre det lidt mere elegant, og gemme oplysningerne lidt væk. Så er det ikke så tydeligt for køberen af ebogen, hvad der skal fjernes for at man ikke bliver retsforfulgt for at dele sin bog med andre.

Fordelen ved den bløde DRM er, at man som ebogsforhandler, ikke får lagt for mange teknisk besværlige hindringer i vejen for sine kunder - det er nemlig dårligt for forretningen. Samtidig sikrer man sig en lukrativ indtægt, skulle kunderne alligevel piratkopiere.

Men hvor gemmer de så de oplysninger? Hvor i ePub-filen er det, at forhandleren af ebogen har noteret mit navn, adresse, skostørrelse og dankortoplysninger? Og er der andre forskelle på den vandmærkede bog, og en helt almindelig bare-bone ePub-fil?

Den systematiske måde er at opstille en hypotese, og derefter teste den. ePub-filer har to typer af indhold. Tekstfiler i xml- eller xhtml-format, og billedfiler (i princippet kan der også ligge lyd- og videofiler. Mere generelt ligger der mediefiler). Tekstfilerne er - ja, tekstfiler, og kan læses direkte. Billedfilerne er det langt lettere at gemme ting i. Hvis jeg skulle gemme brugeroplysninger i en ePub-fil, ville det være i mediefilerne. Og eftersom jeg ville skulle gøre det automatisk og i stor stil, ville jeg have brug for et billede jeg kunne være sikker på er i alle mine udgivelser. Jeg kan ikke være sikker på at der er illustrationer i dem alle, men jeg kan beslutte mig for at de alle har et forsidebillede. Så er jeg sikker på at der er et billede et bestemt sted i alle udgivelserne. Og så kan jeg automatisere processen.
Det var hypotesen, så skal vi se om den er korrekt.

Det er der kun en måde at finde ud af på, anskaf en vandmærket ePub-bog, og skil den ad. Så det har jeg gjort. Nu er der ingen grund til at tro at alle forhandlere af ebøger gør det på samme måde, og der er heller ingen grund til at afsløre hvordan bestemte forhandlere gør det. Så det her er et eksempel på hvordan i hvert fald én, anonym, ebogs-forhandler gør det.
Første trin er at finde en ebogsforhandler der sælger vandmærkede ePub-bøger. Til en fornuftig pris, for biblioteket har ikke et budget til det her, og derfor er det mit eget kreditkort der skal holde for. Det er ikke så svært, og jeg fik ret hurtigt to eksemplarer af samme ebog, købt med forskellige oplysninger - næsten samme navn (godt man har et mellemnavn), næsten samme adresse, forskellige kreditkort, forskellige mailadresser. Pointen er at de oplysninger, der gemmes i filen kan bruges til at identificere personen - så de skal helst være forskellige hvis det skal give mening at sammenligne.

Som det måske huskes, er ePub-filer blot zip-filer, der har fået ændret deres efternavn. Så filerne døbes om til zip, og pakkes ud. Inden det gøres, nærlæses forretningsbetingelserne. Der står intet om at man ikke må pakke filerne ud og kigge i dem, så det gør vi med god samvittighed.
Indholdet er som forventet. Et META-INF-katalog, dog ikke ngoet OEBPS-katalog, men når man kigger i filerne med metadata, peger de bare på en enkelt "index.xhtml" fil. Bogen er interessant nok lavet i Calibre, jeg havde forventet mere professionelle værktøjer. Der er de sædvanlinge content.opf og toc.ncx filer, og et, ret stort, stylesheet.css. Endelig er der vores hovedmistænkte, et forsidebillede, gemt i jpg-formatet.

Begge bøger pakkes ud, og filerne sammenlignes. Pointen er jo, at eftersom brugeroplysningerne gerne skulle være forskellige, er der mindst en fil i ebøgerne, der afspejler dette. Det kan være en hvilken som helst af filerne, så de skal kontrolleres allesammen. Teksten i bogen fylder mere end 10.000 linier, og derfor er det ikke sjovt at gøre det manuelt. Så det får vi computeren til - der beregner en MD5-hash-værdi på hver fil i de to bøger. Så er det bare at sammenligne, og se hvor forskellen ligger.

Eneste fil der er forskellig i de to ebøger er forsidebilledet. Og jf. hypotensen ovenfor, så er billedmaterialet det eneste rigtigt gode sted at gemme den slags oplysninger. Man kan ikke direkte læse dem med mindre man ved hvordan man gør, og med mindre man ved hvordan man gør, kan man heller ikke ændre på oplysningerne.
Det hedder steganografi, og det kan man læse mere om her. Det er ikke helt enkelt at finde ud af hvad det så helt konkret er, der er gemt i billedet. At der er forskel på de to billeder er dog givet efter at have leget lidt med dem i GIMP. Hint: Det afsløres i farvepaletten. Det fine ved at gemme oplysningerne i et billede, er at det er alt andet end let at finde dem. Man skal basalt set vide hvordan oplysningerne er gemt, og selv da skal man ofte bruge et kodeord. Det er let nok at finde ud af at der er noget gemt - det er langt sværere at finde ud af hvad.
Og man skal tænke sig lidt om inden man kan føle sig sikker på at oplysningerne er fjernet så meget at de ikke kan graves frem igen. Det er der så ikke nogen grund til at skrive noget om her - denne blog går ikke ind for piratkopiering, så hvis man har den slags tilbøjeligheder, må man selv regne ud hvordan man undgår at blive sagsøgt.

Det var de vandmærkede ePub-filer. Og det var virkelig ikke nogen stor overraskelse, at de personlige oplysninger lå hvor de lå. Hvilke oplysninger der egentlig bliver gemt er et mysterium, og hvordan de er gemt kræver en detaljeret steganografisk analyse, der kræver et større kendskab til digital billedbehandling og -analyse, end jeg nogensinde får. Næste gang tager vi et kig på DRM'ede ePub-filer. Det bliver nok knap så eksperimentelt.

onsdag 16. november, 2011

Endelig!

Seneste nyt fra rygtebørsen ang. skærmteknologier. Qualcomm skulle være lige på trapperne med masseproduktion af deres Mirasolskærm, som tidligere er blevet nævnt i forbifarten her på bloggen. Den gang for ca. to år siden ventede vi os meget af denne skærmtype. Nu er de begyndt at fremvise demo-modeller, og skulle angiveligt have sat gang i byggeriet af en fabrik. De forventer selv at det bliver til noget til næste år, mere kølige hoveder på Slashdot mener det tidligst bliver i 2013.

Hvad er forskellen på en hjemmeside og en ebog?

Hvis vi for et øjeblik glemmer indholdet, længden og vægten, men kun kigger på teknikken, hvad er så forskellen?

Vi ser også bort fra PDF'er. Det her er kompliceret nok i forvejen, så lad os nøjes med hjemmesider og ePub-formatet. Og ja, det bliver langt, og det bliver nørdet, på trods af at jeg springer over hvor gærdet er lavest et par gange. Beklager.

ePub er et container-format. Det er basalt set en zip-fil med et bestemt indhold. I en standard epub-fil er der følgende indhold:
To kataloger, META-INF og OEBPS og en fil, "mimetype".

Mimetype filen er "bare" en tekstfil, med en enkelt linie: "application/epub+zip". Det fortæller styresystemet og andre programmer, hvilken slags indhold der er i filen, i dette tilfælde, at det er en zippet epub-fil.

Kataloget META-INF indeholder i det simpleste tilfælde blot filen "container.xml". Det er her det program der skal vise ebogen, finder ud af hvor indholdet ligger. Det er for så vidt blot en henvisning til OEBPS-kataloget. Der er også lidt oplysninger om hvilken version af epub-standarden der bruges.

Kataloget OEBPS er der hvor det interessante sker. OEBPS er en forkortelse for "Open eBook Publication Structure". Kataloget indeholder følgende:
Et katalog til billeder (det kaldes meget opfindsomt for "images")
en fil "content.opf"
en fil "toc.ncx"
Et variabelt antal filer af typen xhtml. De har som regel navne af typen chap01.xhtml, chap02.xhtml etc.
En fil ved navn "stylesheet.css"
og en der hedder "page-template.xpgt".

Content.opf er en xml-fil. Den indeholder en del oplysninger om versionen af epub, og en del metadata om bogen. Det skulle være relativt kendt stof for bibliotekarer - det baserer sig nemlig på "Dublin Core" standarden for beskrivelse af bibliografisk information, og typisk er der oplysninger om udgiver, sprog, titel og forfatterens navn.
Filen toc.ncx er indholdsfortegnelsen. Den lister naturligvis kapitlerne i rækkefølge, men er der mest for at give læseprogrammet oplysninger om navigationen i bogen. For denne diskussion, betyder forskellene på de to indholdsfortegnelsesfiler intet

Endelig er der filen "stylesheet.css". Den styrer hvordan tingene skal se ud. I stedet for at skrive direkte i kapitel 1 at overskriften skal være med fed skrift, og en bestemt størrelse, skriver man at overskriften skal formatteres som overskrift, og så skriver man i "stylesheet.css", at overskrifter skal være med fed skrift og en bestemt størrelse. Det gør det langt lettere at ændre på ting.
Og så er der "page-template.xpgt", der ikke er strengt nødvendig, og primært eksisterer, for at få bogen til at se pæn ud i programmet "Adobe Digital Editions", der er et forholdsvist udbredt program til at læse ebøger.

Så indholdet af en ePub ebog er: xhtml-filer der indeholder teksten, fordelt på de enkelte kapitler. Eventuelle billeder er gemt et særligt sted, og refereres i filerne. Og så et mindre antal xml-filer, der fortæller hvor læseprogrammet finder de andre filer, hvad der er i dem, hvem forfatteren er, og hvilken rækkefølge kapitlerne skal læses i. Samt en særlig fil, der fortæller hvordan teksten skal se ud.

En hjemmeside er lidt enklere. Når man besøger www.kb.dk, åbner ens browser automatisk index.html filen. Det er der teksten på siden er, og der er referencer til billeder, som browseren typisk henter et andet sted på webserveren. Kataloget hedder ofte "images".
I index.html filen er der links til andre html-filer på serveren, når man klikker på dem, åbner browseren disse filer, og viser dem. Strukturen af sitet ligger direkte i html-filerne. Er websiden konstrueret fornuftigt, er der en stylesheet.css fil et sted, som browseren også automatisk åbner. Den bruges på samme måde som beskrevet ovenfor - til at angive hvordan eksempelvis overskrifter skal se ud, så man kun skal lave ændringer et sted, hvis man finder ud af at alle overskrifter skulle være kursiverede i stedet for med fed skrift.

Så indholdet af en hjemmeside er: HTML-filer, der indholder teksten, fordelt på de enkelte sider. Eventuelle billeder er gemt et særligt sted, og refereres i filerne. Og så en særlig fil, der fortæller hvordan teksten skal se ud.

Vi bemærker tre forskelle:
1. filerne i ebogen er puttet ned i en særlig fil, på hjemmesiden ligger de på en server.
2. strukturen i ebogen er defineret i et par separate filer. På hjemmesiden er de bygget ind ved hjælp af links.
3. filerne i ebogen er enten xml eller xhtml. På hjemmesiden er det html.

Den sidste forskel er strengt taget ikke en stor forskel. Alle tre filtyper er såkaldte markup languages, og den primære forskel er at der er flere muligheder i xhtml end i html. Og ja, jeg ved godt at der er store forskelle - så længe man kan lave hjemmesider i xhtml er de bare ikke specielt store i denne sammenhæng.

Den helt store forskel på en hjemmeside og en ePub-ebog er derfor at (dele af) navigationen og strukturen er flyttet fra indholdet til særlige filer, og at det hele er pakket ned i en enkelt fil. Der er for så vidt ikke nogen særligt overbevisende grund til at en hjemmeside ikke skulle kunne pakkes ned i en ePub-fil...
Lidt polemisk fristes man til at konkludere at den primære forskel på ebøger og hjemmesider er at vi kun kalder den ene slags for en bog.

Weblogkalender


« januar 2012
mationtofr
      
1
4
5
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
     
I dag

Søg i denne weblog

 

Nyeste indlæg i alle KB blogs