Formátová analýza sklizených dat v rámci projektu WebArchiv NK ČR

Title: Formátová analýza sklizených dat v rámci projektu WebArchiv NK ČR
Variant title:
  • File format recognition of data harvested by Web Archiving Project of National Library of the Czech Republic
Source document: ProInflow. 2013, vol. 5, iss. 2, pp. 168-177
Extent
168-177
  • ISSN
    1804-2406
Type: Article
Language
License: Not specified license
 

Notice: These citations are automatically created and might not follow citation rules properly.

Abstract(s)
V současné době Národní knihovna České republiky začala ukládat shromážděná data z archivu českého webu do úložiště dlouhodobé ochrany digitálních dokumentů. Článek se věnuje výstupu projektu Institucionální vědy a výzkumu, který má za cíl vytvořit plán pro retrospektivní analýzu souborových formátů nad celým webovým archivem a zmapovat nástroje, které tuto identifikaci provádějí. Podrobná znalost archivovaných dat umožní jejich kontrolu, která poskytne možnost vytvořit budoucí strategii jejich dlouhodobé ochrany. V neposlední řadě výstupy analýzy mohou vést ke zlepšení podmínek zpřístupnění archivovaných dat koncovému uživateli.
National Library of the Czech Republic just begun to ingest harvested data from web archiving project into Long-term Preservation System. This article is output of Institutional Science and Research project aiming to implement retrospective file format recognition framework for harvested data and map tools related to file format recognition. Precise knowledge of archived data is cornerstone for building Long-term Preservation Strategy. Such analysis may also improve conditions of end-user access.
References
[1] ARC_IA: Internet Archive ARC file format. Sustainability of Digital Formats: Planning for Library of Congress Collections [online]. 2008-02-14, 04-Apr-2013 [cit. 2013-06-25]. Dostupné z: http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml

[2] BLEKINGE, Asger Askov. Identification tools, an evaluation: The Scape Characterisation Tool Testing Suite. OPEN PLANETS FOUNDATION. Open Planets Foundation: A community hub for digital preservation[online]. 23 February §2012 [cit. 2013-06-25]. Dostupné z:http://www.openplanetsfoundation.org/blogs/2012-02-23-identification-tools-evaluation

[3] Co je WebArchiv?. WebArchiv: archiv českého webu [online]. [cit. 2013-06-21]. Dostupné z: http://www.webarchiv.cz/

[4] CUBR, Ladislav. Dlouhodobá ochrana digitálních dokumentů. 1. vyd. Praha: Národní knihovna České republiky, 2010, 154 s. ISBN 978-80-7050-588-5.

[5] DAY, Michal. The Long-Term Preservation of Web Content. MASANÈS, Julien. Web archiving. Online-Ausg. New York: Springer, c2006, s. 177-199. ISBN 3540233385-.

[6] HAAS, Juergen. Linux / Unix Command: file. About.com: Linux [online]. 2013 [cit. 2013-06-25]. Dostupné z: http://linux.about.com/library/cmd/blcmdl1_file.htm

[7] HUTAŘ, Jan, Marek MELICHAR a Bohdana STOKLASOVÁ. Národní digitální knihovna. Knihovna. 2009, roč. 20, č. 1, s. 6-21.

[8] HUTAŘ, Jan. Podrobnější popis projektu NDK a jeho kontext. NÁRODNÍ KNIHOVNA ČR. Národní digitální knihovna [online]. 13. 12. 2011. Praha [cit. 2013-06-21]. Dostupné z: http://ndk.cz/narodni-dk/podrobnejsi-popis-projektu

[9] ROSENTHAL, Colin, Asger BLEKINGE-RASMUSSEN a Jan HUTAŘ. Průvodce plánem důvěryhodného digitálního repozitáře (PLATTER). 1. vyd. Praha: Národní knihovna České republiky, 2009, 51 s. ISBN 978-807-0505-694.

[10] The technical registry Pronom: about. THE NATIONAL ARCHIVES. The National Archives [online]. 2013 [cit. 2013-06-25]. Dostupné z: http://www.nationalarchives.gov.uk/aboutapps/PRONOM/default.htm

[11] WARC: Web ARChive file format. Sustainability of Digital Formats: Planning for Library of Congress Collections [online]. 2009-08-31, 04-Apr-2013 [cit. 2013-06-25]. Dostupné z: http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml

[12] ZBIEJCZUK, Adam. Long Tail (dlouhý chvost). WEB 2.0: charakteristiky a služby [online]. červen 2007 [cit. 2013-06-25]. Dostupné z: http://zbiejczuk.com/web20/03-5-long-tail-dlouhy-chvost.html