Testplattformen (Webbarkivering) 16 september 2009 KB Hamid Rofoogaran LDB-centrum Liten insats – stor nytta Testplattformen Koncept och projekt Koncept - LDB-centrum avser att bygga en testplattform för digital arkivering (bevarande & tillgängliggörande). - Pågående process - Från ord till handling - Från teori till praktik Liten insats – stor nytta Testplattformen koncept Liten insats – stor nytta Testplattformen Koncept och projekt Projekt - Treårigt projekt Finansierad med hjälp av Tillväxtverket (Nutek) Projekttid: 1:a januari 2008 – 31 december 2010 Fokus på webbarkivering Liten insats – stor nytta Arbetssätt , strategi • Inte uppfinna hjulet igen • Mappa behov mot lösning • Bottom-up • Integrera Liten insats – stor nytta Vad är webbarkivering ? Liten insats – stor nytta Liten insats – stor nytta Projektplan ID Aktivitet Beskrivning Kommentarer Förstudie webbarkivering Se rapporterna LTU-webb och LDBWebb Lena tillsammans med Ltu Iterativ kravspecifikation Växer fram under projektets gång Slutversion när projektet är klart Verktyg för insamling av webben Crawling verktyget Heritrix Installation, konfiguration , testkörningar Verktyg för indexering Nutch Wax Installation, konfiguration , testkörningar Liten insats – stor nytta Projektplan Verktyg för indexering Nutch Wax Installation, konfiguration , testkörningar Verktyg för visning Way Back Machine Installation, konfiguration , testkörningar WARC-Format Utvärdering, analys av WARC med avseende på långtidsbevarande WARC-tools Inlärning, utvärdering och vidareutveckling av befintlig C-bibliotek för läsning/skrivning av WARC container . Droid Verktyg för filidentifiering Användargränssnitt Webbgränssnitt för plattformen. Användning av repository (Fedora?) Baseras på senare beslut Egenutvecklade program För att binda ihop verktygen till en sammanhängande process INGEST Skapa arkivpaket Hantering av arkivpaketet i repository Migrering Konvertering av WARC Tillgängliggörande Presentation av migrerat WARC Liten insats – stor nytta Tidplan 1:a januari 2008 Projektet startar Mars – Juni Förstudie April 2008 Rekrytering Augusti – December 2008 Webbarkivering – Verktyg – Installation, insamling av LTU’s och RA,s gamla webb….webb siter Januari 2009- Juni 2009 Utveckling av programvara för WARC Utveckla webbservices Bygga användargränssnitt Integrera Crawlingsverktyg + program för hantering av WARC + användargränssnitt till en enhet. Testa och färdigställa fas 1 , Augusti 2009 – december 2009 Förarbete & analys : Hur bygger man ett AIP av WARC? Är RA:S paketstruktur applicerbart för WARC? Har KB / IIPC utgivna riktlinjer i denna fråga ? Januari 2009 – April 2010 Bygga AIP för WARC Maj 2010 - oktober 2010 Migrera WARC Tillgängliggörande av migrerad WARC-fil November 2010 – December 2010 Integrera , Testa , Färdigställa plattformen Liten insats – stor nytta Arkitektur & Implementation Göran Lindqvist Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Liten insats – stor nytta Arkitektur Liten insats – stor nytta e6e72634-7160-4274-a754-e9af0fc59d73 43694f98-4c1a-4601-9648-e561c0d85945 43694f98-4c1a-4601-9648-e561c0d85946 WARC WARC fb0430ec-4d5e-4ef0-ad62-99a31ece886a fb0430ec-4d5e-4ef0-ad62-99a31ece886b fb0430ec-4d5e-4ef0-ad62-99a31ece886c fb0430ec-4d5e-4ef0-ad62-99a31ece886d fb0430ec-4d5e-4ef0-ad62-99a31ece886f Liten insats – stor nytta e6e72634-7160-4274-a754-e9af0fc59d73 43694f98-4c1a-4601-9648-e561c0d85945 43694f98-4c1a-4601-9648-e561c0d85946 WARC WARC fb0430ec-4d5e-4ef0-ad62-99a31ece886a fb0430ec-4d5e-4ef0-ad62-99a31ece886b fb0430ec-4d5e-4ef0-ad62-99a31ece886c fb0430ec-4d5e-4ef0-ad62-99a31ece886d fb0430ec-4d5e-4ef0-ad62-99a31ece886f <filename>LDB-20081203141713-00000-Server2.warc</filename> 43694f98-4c1a-4601-9648-e561c0d85946</identifier> <identifier> <date>2008-12-03T14:17:13Z</date> e6e72634-7160-4274-a754-e9af0fc59d73 <relation> </relation> <rights/> <migrated_records/> <FileCollection> <DROIDVersion>3.0</DROIDVersion <SignatureFileVersion>16</SignatureFileVersion> <DateCreated>2009-05-08T14:40:20</DateCreated> <IdentificationFile IdentQuality="Positive"> <FilePath>/home/goran/warctools_temp/dump/fb0430ec-4d5e-4ef0-ad62-99a31ece886c</FilePath> <FileFormatHit> <Status>Positive (Specific Format)</Status> <Name>Hypertext Markup Language</Name> <Version>4.01</Version> <PUID>fmt/100</PUID> <MimeType>text/html</MimeType> <IdentificationWarning>Possible file extension mismatch</IdentificationWarning> </FileFormatHit> </IdentificationFile> Liten insats – stor nytta Teknisk miljö • GUI / insamling och tillgängliggörande Heritrix 2.02, wayback machine 1.4.2, mySQL, Aphache 2, Tomcat 5.5 format (omslutande) WARC Skrivet GUI i PHP samt Java och JSP (java server pages) Körs på Linux (ubuntu 9.0.4) • Extrahering och identifiering Droid 3, modifierat Warc extract, DC-light xmlstruktur Skrivet (obj) C, samt java (10 klasser) Körs på Linux (ubuntu 9.0.4) • Analys SQL server 2008 (stored procedures), Java applikation server (glassfish 2) Skrivet GUI Java och JSP (java server pages) Körs på MS server 2003 Liten insats – stor nytta Frågor ? Liten insats – stor nytta Kommande aktiviteter Möjliga samarbetsområden (resurssamordning) 1. Skapa arkivpaket AIP (RA’s paketstruktur) Trusted Digital Repository 2. Migrering av innehåll i WARC (KB, RA) Ny WARC eller förändring i den gamla Har IIPC hanterat/funderat över detta ? Lagliga / juridiska aspekter 3. Tillgängliggörande av migrerat WARC (KB, RA) Har Wayback stöd för migrerat WARC ? Har IIPC hanterat/funderat över detta ? 4. Hanteringen av WARC i Fedoras repository (KB) Hör hemma i konceptet inte (absolut) nödvändigt för projektet Liten insats – stor nytta Vad är AIP I webbarkiveringssammanhang ? SIP(AIP) METS Package level Technical metadata Authority records Archival description PREMIS EAC EAD Archival structure level ERMS Economical systems Data bases Other systems MoReq2 SIE-XML ADDML To be defined System structure level Context metadata Digital data object Digital data object Digital object TIFF XML PDF/A Manual Object level Liten insats – stor nytta Vad är AIP I webbarkiveringssammanhang ? SIP(AIP) METS Package level Technical metadata Authority records Archival description PREMIS EAC EAD Archival structure level ERMS Economical systems Data bases MoReq2 SIE-XML ADDML WARC ? System structure level Context metadata Digital data object Digital data object Digital object Digital object TIFF XML PDF/A HTML Manual Object level Liten insats – stor nytta Trusted Digital Repository De verktyg som vi skapar i Testplattformen ska upplevas som så trovärdiga som möjligt • TRAC ( hjälpmedel för självutvärdering av organisationer som håller digitala arkiv.) • TRAC definierar tre olika områden A.Organisationens infrastruktur B. Hantering av digitala objekt C.Teknologier, teknisk infrastruktur och säkerhet Några punkter där vi redan arbetar enligt TRAC eller där vi inom kort kommer att göra det : Liten insats – stor nytta B1.4 ”Repository´s ingest process verifies each submitted object (i.e., SIP) for completeness and correctness as specified in B1.2.” B1.8 ”Repository has contemporaneous records of actions and administration processes that are relevant to preservation (Ingest: content acquisition).” B2.1 ”Repository has an identifiable, written definition for each AIP or class of information preserved by the repository.” B2.5 ”Repository has and uses a naming convention that generates visible, persistent, unique identifiers for all archived objects (i.e., AIPs).” Liten insats – stor nytta B2.7 ”Repository demonstrates that it has access to necessary tools and resources to establish authorative semantic or technical context of the digital objects it contains.” B2.9 ”Repository acquires preservation metadata (i.e., PDI) for its associated Content Information.” B2.11 ”Repository verifies each AIP for completeness and correctness at the point it is generated.” B4.4 ”Repository actively monitors integrity of archival objects.” Liten insats – stor nytta Tack för uppmärksamheten ! Besök oss på: www.ldb-centrum.se [email protected] Liten insats – stor nytta