(Microsoft PowerPoint - Projektm\366te_20090916.ppt [Skrivskyddad])

Testplattformen
(Webbarkivering)
16 september 2009
KB
Hamid Rofoogaran
LDB-centrum
Liten insats – stor nytta
Testplattformen
Koncept och projekt
Koncept
- LDB-centrum avser att bygga en testplattform för
digital arkivering (bevarande & tillgängliggörande).
- Pågående process
- Från ord till handling
- Från teori till praktik
Liten insats – stor nytta
Testplattformen
koncept
Liten insats – stor nytta
Testplattformen
Koncept och projekt
Projekt
-
Treårigt projekt
Finansierad med hjälp av Tillväxtverket (Nutek)
Projekttid: 1:a januari 2008 – 31 december 2010
Fokus på webbarkivering
Liten insats – stor nytta
Arbetssätt , strategi
• Inte uppfinna hjulet igen
• Mappa behov mot lösning
• Bottom-up
• Integrera
Liten insats – stor nytta
Vad är webbarkivering ?
Liten insats – stor nytta
Liten insats – stor nytta
Projektplan
ID
Aktivitet
Beskrivning
Kommentarer
Förstudie webbarkivering
Se rapporterna LTU-webb och LDBWebb
Lena tillsammans med Ltu
Iterativ kravspecifikation
Växer fram under projektets gång
Slutversion när projektet är klart
Verktyg för insamling av
webben
Crawling verktyget Heritrix
Installation, konfiguration , testkörningar
Verktyg för indexering
Nutch Wax
Installation, konfiguration , testkörningar
Liten insats – stor nytta
Projektplan
Verktyg för indexering
Nutch Wax
Installation, konfiguration , testkörningar
Verktyg för visning
Way Back Machine
Installation, konfiguration , testkörningar
WARC-Format
Utvärdering, analys av WARC med
avseende på långtidsbevarande
WARC-tools
Inlärning, utvärdering och vidareutveckling
av befintlig C-bibliotek för läsning/skrivning
av WARC container .
Droid
Verktyg för filidentifiering
Användargränssnitt
Webbgränssnitt för plattformen.
Användning av repository
(Fedora?)
Baseras på senare beslut
Egenutvecklade program
För att binda ihop verktygen till en
sammanhängande process
INGEST
Skapa arkivpaket
Hantering av arkivpaketet i repository
Migrering
Konvertering av WARC
Tillgängliggörande
Presentation av migrerat WARC
Liten insats – stor nytta
Tidplan
1:a januari 2008
Projektet startar
Mars – Juni
Förstudie
April 2008
Rekrytering
Augusti – December 2008
Webbarkivering – Verktyg – Installation, insamling av LTU’s
och RA,s gamla webb….webb siter
Januari 2009- Juni 2009
Utveckling av programvara för WARC
Utveckla webbservices
Bygga användargränssnitt
Integrera Crawlingsverktyg + program för hantering av WARC
+ användargränssnitt till en enhet.
Testa och färdigställa fas 1 ,
Augusti 2009 – december 2009
Förarbete & analys : Hur bygger man ett AIP av WARC? Är
RA:S paketstruktur applicerbart för WARC? Har KB /
IIPC utgivna riktlinjer i denna fråga ?
Januari 2009 – April 2010
Bygga AIP för WARC
Maj 2010 - oktober 2010
Migrera WARC
Tillgängliggörande av migrerad WARC-fil
November 2010 – December 2010
Integrera , Testa , Färdigställa plattformen
Liten insats – stor nytta
Arkitektur
&
Implementation
Göran Lindqvist
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Liten insats – stor nytta
Arkitektur
Liten insats – stor nytta
e6e72634-7160-4274-a754-e9af0fc59d73
43694f98-4c1a-4601-9648-e561c0d85945
43694f98-4c1a-4601-9648-e561c0d85946
WARC
WARC
fb0430ec-4d5e-4ef0-ad62-99a31ece886a
fb0430ec-4d5e-4ef0-ad62-99a31ece886b
fb0430ec-4d5e-4ef0-ad62-99a31ece886c
fb0430ec-4d5e-4ef0-ad62-99a31ece886d
fb0430ec-4d5e-4ef0-ad62-99a31ece886f
Liten insats – stor nytta
e6e72634-7160-4274-a754-e9af0fc59d73
43694f98-4c1a-4601-9648-e561c0d85945
43694f98-4c1a-4601-9648-e561c0d85946
WARC
WARC
fb0430ec-4d5e-4ef0-ad62-99a31ece886a
fb0430ec-4d5e-4ef0-ad62-99a31ece886b
fb0430ec-4d5e-4ef0-ad62-99a31ece886c
fb0430ec-4d5e-4ef0-ad62-99a31ece886d
fb0430ec-4d5e-4ef0-ad62-99a31ece886f
<filename>LDB-20081203141713-00000-Server2.warc</filename>
43694f98-4c1a-4601-9648-e561c0d85946</identifier>
<identifier>
<date>2008-12-03T14:17:13Z</date>
e6e72634-7160-4274-a754-e9af0fc59d73
<relation>
</relation>
<rights/>
<migrated_records/>
<FileCollection>
<DROIDVersion>3.0</DROIDVersion
<SignatureFileVersion>16</SignatureFileVersion>
<DateCreated>2009-05-08T14:40:20</DateCreated>
<IdentificationFile IdentQuality="Positive">
<FilePath>/home/goran/warctools_temp/dump/fb0430ec-4d5e-4ef0-ad62-99a31ece886c</FilePath>
<FileFormatHit>
<Status>Positive (Specific Format)</Status>
<Name>Hypertext Markup Language</Name>
<Version>4.01</Version>
<PUID>fmt/100</PUID>
<MimeType>text/html</MimeType>
<IdentificationWarning>Possible file extension mismatch</IdentificationWarning>
</FileFormatHit>
</IdentificationFile>
Liten insats – stor nytta
Teknisk miljö
• GUI / insamling och tillgängliggörande
Heritrix 2.02, wayback machine 1.4.2, mySQL, Aphache 2, Tomcat 5.5
format (omslutande) WARC
Skrivet GUI i PHP samt Java och JSP (java server pages)
Körs på Linux (ubuntu 9.0.4)
• Extrahering och identifiering
Droid 3, modifierat Warc extract, DC-light xmlstruktur
Skrivet (obj) C, samt java (10 klasser)
Körs på Linux (ubuntu 9.0.4)
• Analys
SQL server 2008 (stored procedures), Java applikation server (glassfish 2)
Skrivet GUI Java och JSP (java server pages)
Körs på MS server 2003
Liten insats – stor nytta
Frågor ?
Liten insats – stor nytta
Kommande aktiviteter
Möjliga samarbetsområden
(resurssamordning)
1. Skapa arkivpaket AIP (RA’s paketstruktur)
Trusted Digital Repository
2. Migrering av innehåll i WARC (KB, RA)
Ny WARC eller förändring i den gamla
Har IIPC hanterat/funderat över detta ?
Lagliga / juridiska aspekter
3. Tillgängliggörande av migrerat WARC (KB, RA)
Har Wayback stöd för migrerat WARC ?
Har IIPC hanterat/funderat över detta ?
4. Hanteringen av WARC i Fedoras repository (KB)
Hör hemma i konceptet inte (absolut) nödvändigt för projektet
Liten insats – stor nytta
Vad är AIP I webbarkiveringssammanhang ?
SIP(AIP)
METS
Package level
Technical metadata
Authority records
Archival description
PREMIS
EAC
EAD
Archival structure level
ERMS
Economical systems
Data bases
Other systems
MoReq2
SIE-XML
ADDML
To be defined
System structure level
Context
metadata
Digital data object
Digital data object
Digital object
TIFF
XML
PDF/A
Manual
Object level
Liten insats – stor nytta
Vad är AIP I webbarkiveringssammanhang ?
SIP(AIP)
METS
Package level
Technical metadata
Authority records
Archival description
PREMIS
EAC
EAD
Archival structure level
ERMS
Economical systems
Data bases
MoReq2
SIE-XML
ADDML
WARC ?
System structure level
Context
metadata
Digital data object
Digital data object
Digital object
Digital object
TIFF
XML
PDF/A
HTML
Manual
Object level
Liten insats – stor nytta
Trusted Digital Repository
De verktyg som vi skapar i Testplattformen ska upplevas som så trovärdiga som möjligt
• TRAC ( hjälpmedel för självutvärdering av organisationer som håller digitala arkiv.)
• TRAC definierar tre olika områden
A.Organisationens infrastruktur
B. Hantering av digitala objekt
C.Teknologier, teknisk infrastruktur och säkerhet
Några punkter där vi redan arbetar enligt TRAC eller
där vi inom kort kommer att göra det :
Liten insats – stor nytta
B1.4 ”Repository´s ingest process verifies each submitted
object (i.e., SIP) for completeness and correctness as
specified in B1.2.”
B1.8 ”Repository has contemporaneous records of actions
and administration processes that are relevant to
preservation (Ingest: content acquisition).”
B2.1 ”Repository has an identifiable, written definition for
each AIP or class of information preserved by the
repository.”
B2.5 ”Repository has and uses a naming convention that
generates visible, persistent, unique identifiers for all
archived objects (i.e., AIPs).”
Liten insats – stor nytta
B2.7 ”Repository demonstrates that it has access to
necessary tools and resources to establish authorative
semantic or technical context of the digital objects it
contains.”
B2.9 ”Repository acquires preservation metadata (i.e., PDI)
for its associated Content Information.”
B2.11 ”Repository verifies each AIP for completeness and
correctness at the point it is generated.”
B4.4 ”Repository actively monitors integrity of archival
objects.”
Liten insats – stor nytta
Tack för uppmärksamheten !
Besök oss på:
www.ldb-centrum.se
[email protected]
Liten insats – stor nytta