Title: Pomocný software na tvorbu obrazových datových sad v digitální knihovně s využitím strojového učení
Variant title:
- Assistive software for the creation of image dataset in a digital library using machine learning
Source document: ProInflow. 2023, vol. 15, iss. 2, pp. [155]-175
Extent
[155]-175
-
ISSN1804-2406 (online)
Persistent identifier (DOI): https://doi.org/10.5817/ProIn2023-36869
Stable URL (handle): https://hdl.handle.net/11222.digilib/digilib.79620
Type: Article
Language
License: CC BY 4.0 International
Rights access
open access
Notice: These citations are automatically created and might not follow citation rules properly.
Abstract(s)
Účel – Tento odborný článek popisuje možnosti využití pomocného softwaru za účelem efektivní tvorby obrazových datových sad z dokumentů digitální knihovny. Popisovaný software, kromě běžných způsobů práce s daty, využívá prvky strojového učení, které mají potenciál jak práci anotátorů usnadnit, tak také změnit anotační praktiky. Zároveň je kladen důraz na jednoduchost a otevřenost celého procesu. Cílem je na tyto prvky upozornit pomocí praktických ukázek.
Design / metodologie / přístup – Po úvodní části jsou představeny možnosti výběru a separace dat z dokumentů digitální knihovny. Zároveň je poukázáno na limity těchto přístupů. Na základě těchto poznatků jsou poté zkoumány možné přístupy a využití pomocného softwaru za účelem tyto limity překonat. Metody jsou popisovány na základě praktického využití softwaru při anotačním procesu. Validace prvků strojového učení je provedena mimo jiné vizualizační technikou Class Activation Mapping a pomocí metriky F-score.
Výsledky – Popisované přístupy a využití pomocného softwaru s prvky strojového učení se ukázalo jako velmi přínosné. Software nejen práci anotátorů ulehčuje, ale zároveň značným způsobem urychluje a zpřesňuje. Za velké pozitivum lze považovat univerzálnost testovaného modelu strojového učení, která umožňuje rozšířit anotační procesy za zprvu předpokládané využití, a dává tedy prostor pro další výzkum v této oblasti.
Originalita / hodnota – Odborný článek poukazuje na možné přístupy využití pomocného softwaru, usnadňující tvorbu obrazových datových sad u dokumentů s omezeným množstvím identifikátorů, jako je například digitální knihovna, a to bez potřeby komerčních nástrojů. Dále ukazuje praktické příklady, jak lze pomocí strojového učení tyto procesy zefektivnit. Podstatné jsou také příklady možností univerzálního využití těchto procesů.
Design / metodologie / přístup – Po úvodní části jsou představeny možnosti výběru a separace dat z dokumentů digitální knihovny. Zároveň je poukázáno na limity těchto přístupů. Na základě těchto poznatků jsou poté zkoumány možné přístupy a využití pomocného softwaru za účelem tyto limity překonat. Metody jsou popisovány na základě praktického využití softwaru při anotačním procesu. Validace prvků strojového učení je provedena mimo jiné vizualizační technikou Class Activation Mapping a pomocí metriky F-score.
Výsledky – Popisované přístupy a využití pomocného softwaru s prvky strojového učení se ukázalo jako velmi přínosné. Software nejen práci anotátorů ulehčuje, ale zároveň značným způsobem urychluje a zpřesňuje. Za velké pozitivum lze považovat univerzálnost testovaného modelu strojového učení, která umožňuje rozšířit anotační procesy za zprvu předpokládané využití, a dává tedy prostor pro další výzkum v této oblasti.
Originalita / hodnota – Odborný článek poukazuje na možné přístupy využití pomocného softwaru, usnadňující tvorbu obrazových datových sad u dokumentů s omezeným množstvím identifikátorů, jako je například digitální knihovna, a to bez potřeby komerčních nástrojů. Dále ukazuje praktické příklady, jak lze pomocí strojového učení tyto procesy zefektivnit. Podstatné jsou také příklady možností univerzálního využití těchto procesů.
Purpose – This paper describes the possibilities of using assistive software to efficiently create image datasets from digital library documents. The software described, in addition to the usual ways of working with data, uses machine learning features that have the potential to both make the work of annotators easier and to change annotation practices. At the same time, the emphasis is on simplicity and openness of the whole process. The aim is to highlight these elements through practical examples.
Design / methodology / approach – After an introductory section, the possibilities for selecting and separating data from digital library documents are presented. At the same time, the limitations of these approaches are pointed out. Based on these insights, possible approaches and the use of assistive software are then explored in order to overcome these limits. The methods are described based on the practical use of the software in the annotation process. The validation of the machine learning features is performed using, among others, the visualization technique Class Activation Mapping and the F-score metric.
Results – The described approaches and the use of assistive software with machine learning features proved to be very beneficial. The software not only makes the work of the annotators easier but also considerably faster and more accurate. The versatility of the tested machine learning model also proved to be a great positive, allowing to extend the annotation processes beyond the initially assumed use and thus giving room for further research in this area.
Originality / value – The technical paper highlights possible approaches to use assistive software to facilitate the creation of datasets for documents with a limited number of identifiers, such as a digital library, without the need for commercial tools. It also shows practical examples of how machine learning can be used to make these processes more efficient. Examples of how these processes can be used universally are also provided.
Design / methodology / approach – After an introductory section, the possibilities for selecting and separating data from digital library documents are presented. At the same time, the limitations of these approaches are pointed out. Based on these insights, possible approaches and the use of assistive software are then explored in order to overcome these limits. The methods are described based on the practical use of the software in the annotation process. The validation of the machine learning features is performed using, among others, the visualization technique Class Activation Mapping and the F-score metric.
Results – The described approaches and the use of assistive software with machine learning features proved to be very beneficial. The software not only makes the work of the annotators easier but also considerably faster and more accurate. The versatility of the tested machine learning model also proved to be a great positive, allowing to extend the annotation processes beyond the initially assumed use and thus giving room for further research in this area.
Originality / value – The technical paper highlights possible approaches to use assistive software to facilitate the creation of datasets for documents with a limited number of identifiers, such as a digital library, without the need for commercial tools. It also shows practical examples of how machine learning can be used to make these processes more efficient. Examples of how these processes can be used universally are also provided.
Note
Studie byla publikována v rámci Institucionální podpory na dlouhodobý koncepční rozvoj výzkumné organizace (DKRVO) – Moravská zemská knihovna v Brně.
References
[1] API Specifications—International Image Interoperability FrameworkTM. (b.r.). Získáno 20. červenec 2023, z https://iiif.io/api/
[2] API v7 · ceskaexpedice/kramerius Wiki. (b.r.). Získáno 20. červenec 2023, z https://github.com/ceskaexpedice/kramerius/wiki/API-v7
[3] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. The MIT Press.
[4] Meier, B., Stadelmann, T., Stampfli, J., Arnold, M., & Cieliebak, M. (2017). Fully Convolutional Neural Networks for Newspaper Article Segmentation. 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 414–419. https://doi.org/10.1109/ICDAR.2017.75 | DOI 10.1109/icdar.2017.75
[5] Northcutt, C. G., Athalye, A., & Mueller, J. (2021). Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks (arXiv:2103.14749). arXiv. http://arxiv.org/abs/2103.14749
[6] Ratner, A., Bach, S. H., Ehrenberg, H., Fries, J., Wu, S., & Ré, C. (2017). Snorkel: Rapid Training Data Creation with Weak Supervision. Proceedings of the VLDB Endowment. International Conference on Very Large Data Bases, 11(3), 269–282. https://doi.org/10.14778/3157794.3157797 | DOI 10.14778/3157794.3157797
[7] Ratner, A., De Sa, C., Wu, S., Selsam, D., & Ré, C. (2017). Data Programming: Creating Large Training Sets, Quickly (arXiv:1605.07723). arXiv. http://arxiv.org/abs/1605.07723
[8] Registr Krameriů. (b.r.). Získáno 19. červenec 2023, z https://registr.digitalniknihovna.cz/
[9] Ying, X. (2019). An Overview of Overfitting and its Solutions. Journal of Physics: Conference Series, 1168(2), 022022. https://doi.org/10.1088/1742-6596/1168/2/022022
[10] Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2017). Understanding deep learning requires rethinking generalization (arXiv:1611.03530). arXiv. http://arxiv.org/abs/1611.03530
[2] API v7 · ceskaexpedice/kramerius Wiki. (b.r.). Získáno 20. červenec 2023, z https://github.com/ceskaexpedice/kramerius/wiki/API-v7
[3] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. The MIT Press.
[4] Meier, B., Stadelmann, T., Stampfli, J., Arnold, M., & Cieliebak, M. (2017). Fully Convolutional Neural Networks for Newspaper Article Segmentation. 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 414–419. https://doi.org/10.1109/ICDAR.2017.75 | DOI 10.1109/icdar.2017.75
[5] Northcutt, C. G., Athalye, A., & Mueller, J. (2021). Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks (arXiv:2103.14749). arXiv. http://arxiv.org/abs/2103.14749
[6] Ratner, A., Bach, S. H., Ehrenberg, H., Fries, J., Wu, S., & Ré, C. (2017). Snorkel: Rapid Training Data Creation with Weak Supervision. Proceedings of the VLDB Endowment. International Conference on Very Large Data Bases, 11(3), 269–282. https://doi.org/10.14778/3157794.3157797 | DOI 10.14778/3157794.3157797
[7] Ratner, A., De Sa, C., Wu, S., Selsam, D., & Ré, C. (2017). Data Programming: Creating Large Training Sets, Quickly (arXiv:1605.07723). arXiv. http://arxiv.org/abs/1605.07723
[8] Registr Krameriů. (b.r.). Získáno 19. červenec 2023, z https://registr.digitalniknihovna.cz/
[9] Ying, X. (2019). An Overview of Overfitting and its Solutions. Journal of Physics: Conference Series, 1168(2), 022022. https://doi.org/10.1088/1742-6596/1168/2/022022
[10] Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2017). Understanding deep learning requires rethinking generalization (arXiv:1611.03530). arXiv. http://arxiv.org/abs/1611.03530