Knihovnická revue

KATUŠČÁK, Dušan et al. Kompendium knihovnictví . 1. První vydání. Ostrava: Moravskoslezská vědecká knihovna v Ostravě, 2022. 302 stran. ISBN 978-80-7054-306-1.

Pavol Rankov — 2020-12-30T22:00:00Z

KATUŠČÁK, Dušan, Libuše FOBEROVÁ, Richard PAPÍK, Marek TIMKO a Lucie VALJENTOVÁ. Kompendium knihovnictví 1. Ostrava: Moravskoslezská vědecká knihovna, 2022. 302 stran. ISBN 978-80-7054-306-1.

Pracovníci Ústavu bohemistiky a knihovnictví Filozoficko-přírodovědecké fakulty Slezské univerzity v Opavě prichádzajú so zaujímavou iniciatívou – vydali Kompendium knihovnictví s poradovým číslom 1, čo naznačuje, že chystajú aj pokračovanie. Pojem kompendium spravidla označuje zhrnutie základných poznatkov nejakého odboru či príručku s funkciou úvodu do štúdia odboru. Recenzované kompendium navyše aj otvára v knihe najrozsiahlejší text D. Katuščáka s názvom Propedeutika knihovníctva, čo len potvrdzuje, že zámerom autorského kolektívu bolo skutočne pripraviť úvod do odboru obsahujúci „základní poznatky, které si odborníci, a především studenti, mají osvojit“ (s. 5).

D. Katuščák predstavuje knihovníctvo ako prastarú profesiu, ktorej korene siahajú až do Ašurbanipalovej knižnice v Ninive, tá mala aj obdivuhodný počet tabuliek – autor uvádza 20 000 (s. 7), ale aj 30 000 (s. 16). V tomto texte sú aj niektoré ďalšie nepresnosti a nejasnosti, napr. významným európskym knihovníkom nebol Gabriel Audé (s. 8), ale Naudé, ako to autor aj píše na inom mieste (s. 37). V kontexte islamských knižníc 9. storočia sa uvádza, že stále v prevádzke „je Ústredná knižnica Astan Quds Razavi v iránskom Mašhade, ktorá pôsobí viac ako šesť storočí“ (s. 17), čo ale znamená, že začala pôsobiť o pol tisícročia neskôr, ako predtým menované knižnice z 9. storočia.

Obzvlášť s ohľadom na to, že ide o propedeutický text, môže na čitateľa pôsobiť mätúco samotné pomenovanie odboru a jeho disciplín. „Knihoveda označuje bibliológiu a biblistiku“ (s. 18), lenže už na nasledujúcej strane sa trochu tautologicky uvádza, že „synonymom pojmu knihoveda (bibliológia) je pojem bibliografia, ktorá sa zaoberá výskumom, získavaním, spracovaním a sprístupňovaním bibliografických informácií a súpismi kníh pre potreby knihovedy“ (s. 19). Až takmer o 20 strán sa čitateľ dozvie spresnenie, že (iba) „v anglo-saských krajinách sa napr. používa termín bibliografia (bibliography) na označenie celej knihovedy, teda bibliológie“ (s. 37). Medzitým sú ako jadro knihovníckej profesie podľa IFLA uvádzané okrem iných aj disciplíny zamerané na „vývoj informačných zdrojov a nosičov (dokumentológia, bibliografia, bibliológia, mediológia)“ (s. 23). Pojem dokumentológia „sa však nie vždy považuje za identický s pojmom informačná veda. V praxi má dokumentológia aj povahu teoretickej disciplíny informačnej vedy, aj oblasť praktickej činnosti“ (s. 31). Z tejto formulácie nie je jasné, či dokumentológia sa „nie vždy“ považuje za identickú s celou knižničnou a informačnou vedou, alebo iba s jej časťou, teda informačnou vedou. Bibliografia je „disciplína knižničnej a informačnej vedy“ (s. 38), no zároveň „považujeme pojmy bibliografia a dokumentácia za príbuzné do takej miery, že môže ísť o synonymá“ (s. 42). Pomôckou na zorientovanie sa v takejto záplave súvisiacich pojmov by pre čitateľa nepochybne bola pojmová mapa. Napokon, autor si všeobecný rozptyl výkladov pojmov označujúcich jednotlivé disciplíny uvedomuje a chce ho dokumentovať definíciami informačnej vedy v anglickej, českej a slovenskej Wikipédii (s. 20–21). No práve toto nebol šťastný príklad, pretože uvádzaná česká a slovenská verzia definícií informačnej vedy sú si veľmi podobné a nepochybne je jedna iba prekladom druhej. Podobne nejednoznačne sa v texte narába aj s ďalšími pojmami, napr. dokument a zdroj. Najskôr je tieto „pojmy možné považovať za synonymá“ (s. 33), no na Recenze 97 nasledujúcej strane už „pojem dokument má v kontexte knižničnej a informačnej vedy širší význam ako pojem zdroj“ (s. 34).

Otázne je, či kompendium je vhodný žáner a typ publikácie, aby v ňom okrem ustálených poznatkov odboru boli prezentované aj novátorské tézy autora. D. Katuščák prináša a pomerne podrobne rozvíja svoju koncepciu „postmodernej bibliografie“. Vychádza pritom z literárnovedných koncepcií postmoderny ako prekonania modernistických prúdov, obzvlášť však futurizmu, ktorý „nepovažuje len za výlučne literárny alebo umelecký smer“ (s. 45). Opiera sa aj o M. Gracha a v súlade s ním tvrdí, že začiatok tretieho milénia je stále epochou futurizmu, „neofuturizmu, no rozhodne nie postfuturizmu“ (s. 46). A „neofuturistický životný štýl súčasníka sa prenáša aj do vzťahov k bibliografii“ (s. 47). Lenže prečo potom hovoriť o postmodernej bibliografii, ak je ideovo a kultúrne dôsledkom vrcholne modernistického (a nie postmodernistického) futurizmu? D. Katuščák uvádza aj niekoľko znakov postmodernizmu v bibliografii, no len okrajovo zmieňuje význam toho asi najdôležitejšieho, čo elektronická komunikácia priniesla, a to stieranie hraníc a skrátenie cesty od „sekundárneho“ bibliografického záznamu priamo k „primárnemu“ plnotextovému dokumentu, čo dokonca eliminuje tradičnú substitučnú funkcií bibliografie (s. 64). Každopádne, najdôležitejšia pre D. Katuščáka je opakovaná téza, že bibliografia je „veda o bibliografickej komunikácii“ (s. 66, 67, 75). Žiaľ, z tohto textu sa úplne stratila práve „bibliografia“, teda zoznam použitých prameňov.

Zaujímavé je v takomto kolektívnom diele aj porovnanie autorských prístupov. Zatiaľ čo D. Katuščák má tendenciu k zjednocovaniu na báze pojmu dokument, keď tvrdí, že „jedinečnou podstatou odboru LIS sú v dokumentoch zaznamenané informácie a poznatky“ (s. 21), resp. „knižničná a informačná veda sa zaoberá dokumentom ako entitou, ktorá predstavuje zaznamenanú informáciu“ (s. 29), M. Timko by už takúto objektovú paradigmu považoval za nedostatočnú, keďže „vychází v rámci teorie poznání z pozice naivního realismu, to znamená z přesvědčení, že svět poznáváme přesně tak, jak se nám empiricky (smyslově) jeví“ (s. 114). V kapitole s názvom K teoretickým a praktickým problémům informační vědy smeruje M. Timko k pluralizácii a problematizácii objektu informačnej vedy. Predovšetkým považuje informačnú vedu za multidisciplinárnu, zahrňuje a rozvíja poznatky a metódy iných disciplín, zahŕňa v sebe „i své praktické aplikace, a to zejména v teorii knihovnictví, tedy knihovědy (library science), ale také v bibliografii, archivnictví, muzeologii, v informačních centrech“ (s. 109). V tomto chápaní je teda bibliografia „iba“ praktická aplikácia, nie veda (ako u D. Katuščáka). M. Timko buduje vlastnú filozofiu informácie, ktorá je poučená a ovplyvnená predovšetkým J. Cejpkom, ale tiež J. Šmajsom, M. J. Batesovou, L. Floridim a R. Capurrom. Vyvrcholením kapitoly je argumentácia o „nevyhnutnosti informační etiky pro praxi“ (s. 147). Ak je regulácia ľudského správania nevyhnutná biosociálne i sociokultúrne a je antropologickou konštantou s univerzálnou platnosťou, potom „život (a práce) ve společnosti informační či v infosféře si vyžaduje soubor specifických etických pravidel, zásad a norem“ (s. 147). V závere svojej kapitoly M. Timko analyzuje aj niektoré etické kódexy.

Kapitolu Selekční jazyky a klasifikace využitelné v rešeršních procesech – příklad MeSH napísali R. Papík a L. Valjentová, pričom vychádzajú z diplomovej práce uvedenej spoluautorky (a spoluautor bol školiteľom). Je dobré, že v ére prechodu od kvalifikovaných služieb rešeršérov k samoobslužnému intuitívnemu browsingu používateľa sa objavuje príspevok, ktorý zdôrazňuje význam expertného a profesionálneho prístupu na báze riadených slovníkov. Kapitola naozaj spĺňa kritéria kladené na kompendium, prehľadne zhŕňa poznatky o selekčných jazykoch (systematické, predmetové, prekoordinované, postkoordinované) a postupe pri rešeršovaní (analýza informačnej požiadavky, výber zdroja, rešeršná stratégia, výstupná rešerš). Autori v závere podrobnejšie predstavujú tezaurus Medical Subject Headings (MeSH) a databázu MEDLINE. V prípadovej štúdii skúmajú riešenie konkrétnej rešeršnej požiadavky.

Záverečnou kapitolou kompendia je Management knihoven, autorkou je L. Foberová. Vychádza z toho, že „v neziskovém sektoru (kam patří knihovny) nejde o vydělávání peněz, ale o nabízení veřejně prospěšných služeb, které přinášejí užitek jedincům a potažmo celé společnosti“ (s. 223). Napriek tomu viaceré uvádzané princípy a nástroje managementu fungujú podobne, ako v komerčných organizáciách. L. Foberová tvrdí, že aj v knižniciach „nositelem vize je manažer“. Popisuje postup od poslania, ako definície úžitku, cez vytváranie hodnoty, analýzy vonkajšieho a vnútorného prostredia, voľbu stratégie až po strategické riadenie. Potenciálnym manažérom predstavuje zásady efektívneho riadenia ľudí a podrobne upozorňuje aj na nové manažérske funkcie – motivovanie zamestnancov, delegovanie právomocí, podpora priaznivej atmosféry a komunikácia o stanovených cieľoch. Z nich osobitný priestor venuje najmä motivovaniu zamestnancov knižnice, kde uvádza motivačné faktory, pravidlá motivácie, nástroje motivácie, zároveň však uvádza aj konkrétne situácie, „jak spolehlivě demotivovat“ (s. 245). V časti o budovaní značky knižnice L. Foberová uvádza teoretické zásady aj praktické rady a príklady. V súčasných podmienkach je osobitne cenná rozsiahlejšia časť o fundraisingových technikách a marketingovej komunikácii. V celej kapitole vidno, že autorka má nielen naštudované teoretické vedomosti, ale predovšetkým bohaté skúsenosti, o svojich témach píše so zanietením, ale aj s nadhľadom.

Kompendium knihovnictví 1 prináša prehľadné a zovšeobecňujúce poznanie (zatiaľ len) z niekoľkých tematických oblastí knižničnej a informačnej vedy. Pre študentov odboru, ale aj pracovníkov z praxe, ktorí nemajú ukončené odborné vzdelanie, nepochybne bude užitočnou pomôckou nahrádzajúcou nedostatok učebníc v našom odbore. Teraz ide o to, či máme v rukách prvé alebo jediné Kompendium knihovnictví. Ak autorský kolektív dokáže publikovať nadväzujúce kompendiá dostatočne rýchlo a v rovnakej kvalite, edícia sa stane významnou oporou vzdelávania v odbore knižnično-informačné štúdiá.

doc. PhDr. Pavol Rankov, Ph.D.

RANKOV, Pavol. KATUŠČÁK, Dušan, Libuše FOBEROVÁ, Richard PAPÍK, Marek TIMKO a Lucie VALJENTOVÁ. Kompendium knihovnictví 1. Ostrava: Moravskoslezská vědecká knihovna, 2022. 302 stran. ISBN 978-80-7054-306-1. Knihovna: knihovnická revue. 2023, 34(1), 96–98. ISSN 1802-3252.

Editorial 2026/1

Renáta Krejčí Salátová — 2020-12-30T22:00:00Z

Vážení přátelé,

dovolujeme si vám nabídnout ke čtení letní číslo časopisu Knihovna: knihovnická revue. V recenzované části tohoto čísla nabízíme dva články. Přinášíme studii kalendářů, ročenek, almanachů, která na ně nahlíží z méně obvyklé perspektivy – jejich fyzického stavu. Analýza papíru a jeho kyselosti, provedená na exemplářích především z fondů Moravské zemské knihovny v Brně a doplněná srovnáním s dalšími sbírkami, ukazuje, že tyto tiskoviny nijak nevybočovaly z dobových standardů. Přesto zjištění o obecně nízkém pH, a to i u ručního papíru z počátku 19. století, přináší podněty k dalším úvahám o jejich dlouhodobé ochraně.

Historii knihoven se věnuje druhý příspěvek popisující počátky knihovny Vysoké školy ekonomické v Praze a jejího staršího fondu. Popisuje cestu od meziválečné knihovny Ministerstva sociální péče přes poválečné transformace až po vznik Ústřední ekonomické knihovny. Na základě autorčina pečlivého studia historických pramenů máme možnost sledovat proměny této zajímavé instituce, která odráží širší společenské i odborné změny.

První článek nerecenzované části přináší informaci o aktuálních výzvách knihovnické praxe: výsledky dotazníkového šetření Pracovní skupiny pro elektronické informační zdroje Asociace knihoven vysokých škol zaměřeného na průzkum možných následků ukončení služby Demand-Driven Acquisition na platformě ProQuest. K tomu má dojít v červnu 2026 a je hodnoceno jako významný zásah do akvizičních strategií, zejména ve vysokoškolském prostředí. Autorky se zaměřují nejen na dopady tohoto kroku, ale i na možné způsoby řešení, včetně příkladů ze zahraničí.

Další důležitou oblastí je inkluze a podpora čtenářství u dětí. Jeden z příspěvků této části časopisu se věnuje problematice mentálních a fyzických poruch ovlivňujících schopnost hlasitého čtení. Přináší přehled přístupů z různých evropských zemí a ukazuje, že cílené programy a vhodně zvolené metody mohou významně přispět k rozvoji čtenářských dovedností.

Na začátku roku oslavil významné životní jubileum člen naší redakční rady prof. Dušan Katuščák. Rádi bychom mu i prostřednictvím malého medailonku poděkovali za jeho dlouholetou spolupráci a přínos našemu časopisu a popřáli mu mnoho zdraví, spokojenosti a elánu do dalších let.

Jsme velmi potěšeni, že můžeme připomenout významné životní jubileum další velké osobnosti českého knihovnictví, a to doc. Rudolfa Vlasáka. Ve svém požehnaném věku ještě pracuje pro náš obor. I jemu přejeme hodně sil a zdraví do dalších let a za vše děkujeme.

Letos se poprvé v historii konala v České republice konference EBLIDA (European Bureau of Library, Information and Documentation Associations). Krátké ohlédnutí za touto událostí naleznete v druhé části čísla a věříme, že vám přiblíží atmosféru i hlavní témata tohoto významného setkání evropské knihovnické komunity.

Rubrika Tipy z Knihovny knihovnické literatury tentokrát obrací pozornost k zajímavým starším přírůstkům fondu, které se dosud do výběru nedostaly. Věříme, že i tyto publikace Vás zaujmou.

Novinky zahraniční knihovnické literatury tentokrát přinášejí výběr z časopisu JASIST a slovenské Knižnice.

Přejeme Vám krásné léto, v září se můžete těšit na náš e-časopis Knihovna plus. Termíny uzavírek obou časopisů najdete na našich webových stránkách.

Za redakci Renáta Krejčí Salátová

Umelá inteligencia pomáha sprístupňovať písomné dedičstvo

Dušan Katuščák — 2020-12-30T22:00:00Z

Resumé: Témou prípadovej štúdie je vedecký a metodologický kontext európskeho projektu základného výskumu READ a aplikácia výsledkov tohto výskumu na Slovensku a v Česku. Autor upozorňuje na pokračovanie projektu READ a pokrok vo výskumoch, aplikáciách a experimentoch, ktorým sa venuje medzinárodná komunita digital humanities v rámci združenia READ‑COOP od roku 2019. Súčasťou týchto aktivít je aj slovenský projekt aplikovaného výskumu a grantu s akronymom SKRIPTOR, rozplánovaný na roky 2020–2024. Na základe informačného prieskumu a výberu najnovšej literatúry ukazuje pokrok vo výskume a aplikáciách v oblasti optického rozlišovania písma OCR. Jadro štúdie je zamerané na používateľský a nie informatický prístup k využitiu platformy Transkribus na automatické rozpoznávanie textov historických dokumentov. Popisuje skúsenosti a poznatky získané pri osvojovaní si platformy Transkribus, ktorá využíva umelú inteligenciu stroja OCR a metódu HTR+. V štúdii sú vysvetlené a ilustrované jednotlivé hlavné kroky experimentov, proces učenia stroja až po vytvorenie nových modelov transkripcie a výsledkov automatickej transkripcie tlačenej fraktúry a rukopisných listov Andreja Kmeťa. Štúdia predstavuje aj prvý nový efektívny model transkripcie historického tlačeného písma slovenskej fraktúry (švabachu). Najprv vysvetľuje unikátny experiment s transkripciou tlačených slovenských a českých textov fraktúry. Nasleduje popis pokročilej experimentálnej transkripcie rukopisných listov Andreja Kmeťa. Predstavuje možnosti sprístupnenia transkribovaných zbierok a dokumentov v lokálnych sieťach a na internete.

Klíčová slova: digital humanities, OCR, READ‑COOP, umelá inteligencia, platforma Transkribus, HTR+, projekt SKRIPTOR, Andrej Kmeť, švabach, fraktúra, antikva, read & search

Summary: The topic of the study is the scientific and methodological context of the European project of basic research READ and application of the results of this research in Slovakia and the Czech Republic. The study is part of the ongoing applications of the READ project. It shows the progress of research, applications and experiments undertaken by the digital humanities international community involved in the READ‑COOP association since 2019. Part of these activities is also a Slovak project of applied research with the acronym of SKRIPTOR, planned for 2020-2024. Based on information survey and selection of the latest information sources, there has been some progress in research and applications in the field of OCR. The core of the study is focused on the user‑centred rather than IT‑based approach to the use of the Transkribus platform for automatic text recognition of historical documents. It describes the experience and knowledge gained in adopting the Transkribus platform that uses artificial intelligence of the OCR machine and the HTR+ method. The study explains and illustrates the main steps of the experiments, the process of training of the machine, the creation of new models of transcription, and the results of automatic transcription of printed Fraktura texts and manuscripts by Andrej Kmeť. The study also presents the first new efficient transcription model for printed historical type of Slovak Fraktur (Gothic) script in the Transkribus platform. First, it explains a unique experiment with the transcription of printed Slovak and Czech Fraktur texts. This is followed by a description of the advanced experimental transcription of Andrej Kmeť’s handwritten letters. It presents the possibilities of making transcribed collections and documents available on local networks and on the Internet.

Keywords: digital humanities, OCR, READ‑COOP, artificial intelligence, Transkribus platform, HTR+, SKRIPTOR project, Andrej Kmeť, schwabacher, fraktur, antiqua, read & search

Prof. PhDr. Dušan Katuščák, PhD. / Ústav bohemistiky a knihovnictví, Filozoficko-přírodovědecká fakulta v Opavě, Slezská univerzita (Department of Czech Studies and Librarianship, Faculty of Arts and Sciences in Opava, Silesian University), Masarykova třída 343/34, 746 01 Opava. Štátna vedecká knižnica v Banskej Bystrici (State Scientific Library in Banská Bystrica), Lazovná 240/9, 975 58 Banská Bystrica, Slovensko 1,2

Úvod

Najvýznamnejší pokrok vo výskume, vývoji a aplikáciách v digitalizácii v spoločenských a humanitných odboroch, čiže v digital humanities, nastal najmä v posledných desiatich rokoch. Predmetom odborného záujmu je automatické optické rozlišovanie písma (OCR)3. Kým OCR bežných tlačených dokumentov je už dávnejšie dostatočne zvládnuté pomocou kvalitných nástrojov OCR, tak náročnejšej problematike transkripcie historických rukopisov a tlačí s využitím umelej inteligencie sa venujú desiatky výskumníkov a experimentátorov len v posledných rokoch. Pokrok nastal realizáciou projektu READ 4, ktorý ako vedecký projekt základného výskumu podliehal priamo Európskej komisii a bol ročne hodnotený nezávislými hodnotiteľmi5. Rozvíjajú sa aj iné platformy, aplikácie a nástroje transkripcie. Hlavným výstupom projektu READ je použiteľná platforma a nástroj Transkribus6, ktoré predstavujú svetovú inováciu zameranú na transkripciu historických rukopisov a dokumentov. V strednej a východnej Európe je Slovensko zatiaľ jedinou krajinou, ktorá sa usiluje rozpracovať podnety Európskeho základného výskumu READ v projekte aplikovaného výskumu SKRIPTOR7.

Digital humanities a projekt READ

Digital humanities považujeme za spoločné pomenovanie a prierezovú metodológiu pre všetky aplikácie informačných a komunikačných technológií v spoločenských a humanitných vedách, odboroch a disciplínach a im zodpovedajúcej praxi. Táto metodológia sa komplexne uplatnila v projekte READ, ktorý sa realizoval v rámci programu Horizon 20208. Autorom a koordinátorom projektu bol prof. G. Mühlberger z Univerzity v Insbrucku. Projekt READ bol financovaný Európskou úniou sumou približne 8,2 milióna EUR. Financovanie sa skončilo 30. 6. 2019. Univerzita v Innsbrucku od roku 2016 skúma základné technológie segmentácie textu, rozpoznávania rukopisu, vyhľadávanie kľúčových slov pre historické dokumenty a nástroje sprístupnenia výsledkov. Na všetkých oblastiach výskumu sa podieľali tímy univerzít vo Valencii, Rostocku, Technickej univerzity vo Viedni a ďalšie výskumné inštitúcie. Rozvinula sa spolupráca s ďalšími partnermi z 27 krajín. Výskum a vývoj naďalej prebieha. Tisíce používateľov platformy Transkribus tvoria nové modely transkripcie na základe historických rukopisných a tlačených zbierok národných inštitúcií, najmä knižníc a archívov. Spolupráca s komunitou výskumníkov sústredených okolo platformy Transkribus môže byť užitočná pre české a slovenské prostredie odborníkov z digital humanities. Spoločnou víziou vedcov, expertov a iných používateľov je, aby sa verejne dostupné modely transkripcie postupne stali užitočným spoločným nástrojom pre automatickú transkripciu historických dokumentov. Je potrebné dosiahnuť takú úroveň, aby už nebolo potrebné tvoriť pre každú zbierku rukopisov a tlačí samostatné modely. Pre používateľov by malo ísť o akúsi „čiernu skrinku“ (black box), v ktorej umelá inteligencia sama vyberie z integrovaných modelov najvhodnejší model transkripcie historických tlačí, rukopisov, strojopisov a iných dokumentov, ktoré používateľ chce študovať alebo sprístupniť. K tomuto cieľu však vedie dlhá cesta a nevyhnutnosť tvorby množstva parciálnych modelov. Považujem za dôležité, aby súčasťou spoločného medzinárodného úsilia boli aj slovenskí a českí odborníci a aby budúca „čierna skrinka“ bola pripravená poskytnúť pomoc všetkým pri transkripcii historických zbierok a dokumentov. V súčasnej fáze vývoja je dôležité zamerať pozornosť na prípravu parciálnych modelov transkripcie rukopisov a historických tlačí, a to na základe väčších zbierok, ktoré obsahujú stovky a tisíce strán9. Odporúčame zamerať sa na dokumenty v západoslovanských jazykoch, češtine, slovenčine, hornolužickej a dolnolužickej srbčine a poľštine. Charakter zbierok si vyžaduje aj pozornosť latinčine, nemčine a maďarčine. Mali by sme na základe vlastných modelov vytvárať jeden integrovaný model pre rukopisné dokumenty a jeden pre staré a vzácne tlače. To je úloha, ktorú za nás nikto neurobí.

Súčasný stav výskumu a aplikácií

Existujúce informačné zdroje k téme OCR sa, na jednej strane, týkajú pokračujúcich teoretických výskumov zameraných na samotnú umelú inteligenciu. Autormi teoretických diel sú najmä informatici a matematici. Na druhej strane sú diela, ktorých autori sú z prostredia spoločenských a humanitných vied a odborov, teda digital humanities. Tí sa venujú téme OCR a HTR10 z používateľského hľadiska, tj. z hľadiska praktickej použiteľnosti existujúcich nástrojov a platforiem OCR. Okrem toho sa teoretické alebo používateľské príspevky dajú rozdeliť do dvoch skupín podľa toho, či sa venujú OCR tlačených alebo rukopisných diel (HTR). Komplexný prehľad projektu READ obsahuje projektová štúdia (Mühlberger 2016) a kolektívna štúdia výskumníkov READ (Mühlberger et al. 2019), ktorá je prvým publikovaným prehľadom o tom, ako je softvér HTR+11 využívaný širokou komunitou odborníkov a ktorá ukazuje súčasnú aplikáciu technológie rozpoznávania rukopisov v sektore kultúrneho dedičstva. Táto štúdia popisuje aj vývoj metód rozpoznávania znakov. Od polovice 20. storočia sa rozpoznávanie znakov tlačených a rukopisných dokumentov rozvíjalo spoločne s OCR. Najprv sa naskenované obrázky tlačeného textu konvertovali na strojový kód a porovnávali sa s hotovými šablónami písma. Tlačené dokumenty obsahujú znaky z vopred definovanými, hotovými znakovými súbormi, a preto je porovnávanie jednoduchšie. Avšak, aj softvéry OCR pre tlačené znaky sú schopné ďalšieho „doučovania“. V porovnaní s tlačenými textami však rukopisné texty predstavujú odlišný problém kvôli množstvu odlišností rukopisov, rúk, zmien rukopisov v čase, množstvu glyfov, tokenov, osobných a jazykových štýlov ap. Rukopisy sa stali novou výzvou pre informatikov. Najprv, v 80. rokoch 20. storočia, sa výskum a vývoj rozpoznávania rukopisov rozvíjal s používaním štatistických metód. V 90. rokoch nasledoval výskum a vývoj rozpoznávania vzorov v kombinácii s umelou inteligenciou a vývoj hlbokých neurónových sietí v rokoch 2000 a 2010. Išlo aj o obdobie významného rozvoja a zvyšovania kapacít informačných a komunikačných technológií. Vo viacerých vyspelých krajinách sa realizovali projekty masovej digitalizácie a vznikli mohutné digitálne repozitáre a archívy tlačených a rukopisných dokumentov12. Po masovej digitalizácii nastal čas aj na využívanie digitálneho obsahu získaného digitalizáciou rukopisov. Ak sa má z naskenovaných obrazov rukopisných dokumentov získať použitel'ný editovateľný text, je možné použiť pokročilú technológiu rozpoznávania Transkribus – stroje HTR+ a PyLaia13. Projekt má všetky atribúty metodológie digital humanities. K týmto atribútom patrí najmä: a) kooperácia bádateľov; b) scientizácia v spoločenských a humanitných odboroch; c) interdisciplinarita; d) tímovosť (medziinštitučná, medzištátna, univerzity, knižnice, archívy, galérie, múzeá); e) výrazné zapojenie informatikov do výskumu, vzdelávania a sprístupňovania poznatkov; f) umelá inteligencia (umelé neurónové siete, Hidden Markov Model – HMM).

Pokrok vo výskume

O pokroku v rozpoznávaní tlačeného textu založenom na optickom rozpoznávaní tlačeného písma píše (Hodel et al 2021). Hodel sa venuje aj najdôležitejšiemu praktickému aspektu transkripcie, totiž otázke, čo je presnosť či chybovosť transkripcie. Hodel na základe empirických údajov z výskumu READ a opierajúc sa o poznatky Güntera Mühlbergera (2019) uvádza tri triedy chybovosti. Hodel považuje za potvrdené a overené konštatovanie, že: a) ak je hodnota chybovosti znakov CER14 nižšia ako 10 %, čo je 10 a menej chýb na sto znakov, tak výsledok transkripcie je dobrý, čitateľný a, ak je to účelné, je možné ďalšie editovanie výstupu; b) ak je chybovosť znakov CER ≤ 5 %, tak výsledok transkripcie je veľmi dobrý; c) ak je chybovosť znakov CER pod 3 %, potom je možné považovať výsledky transkripcie za výborné a chybovosť znakov CER pod 2,5 % za excelentné. Hodelovi ide o cieľ, transkripcia bez tréningu. Konštatuje, že na tvorbu optimálneho univerzálneho modelu transkripcie rukopisov rôznych rúk, štýlov, typov písma, období ap., ktorý by si už zakaždým nevyžadoval prípravu samostatných modelov, je nevyhnutné mať čo najväčšie množstvo excelentných modelov. Usudzuje, že tieto modely transkripcie by mali byť pravdepodobne vyvíjané pre rôzne podobné triedy rukopisov, napríklad kurrentské písmo 19. storočia, ktorý je práve predmetom jeho pozornosti. Ku pokroku v oblasti optického rozpoznávania znakov (OCR) prispieva (Strobel et.al 2020). Na základe analýzy efektívnosti niektorých systémov OCR tlačených nemeckých historických novín (fraktúry) autori dospeli k záveru, že dostatočná tréningová vzorka (ground truth) je 50 novinových strán. Svoje zistenia opierajú o porovnania piatich systémov OCR: 1. ABBYY FineReader XIX10 (FRXIX) z roku 2005, 2. ABBYY FineReader Server 11 (FRS11) vložený v minulých verziách do systému 3. Transkribus a Transkribus HTR+, 4. Kraken, 5. Tesseract. Drobac (2020) poskytuje pohľad na efektivitu OCR v historických novinách a časopisoch vydávaných vo Fínsku. Fínska národná knižnica vytvorila pomocou programu ABBYY FineReader pre historický text korpus OCR s viac ako 11 miliónmi strán. Odhadovaná presnosť textu OCR bola medzi 87 % – 92 % na úrovni znakov, čo je na vedecký výskum dosť málo. Martinek et al. (2020) predstavuje vo svojej teoretickej experimentálnej štúdii systém segmentácie tlačeného textu a OCR. Zaoberá sa súborom metód, ktoré umožňujú vykonávať OCR historických tlačí v nemčine na základe malého množstva cvičných údajov. Popisuje svoj OCR systém, ktorý využíva rekurentné neurálne siete. Sústreďuje sa na parciálne procesy systému OCR, a to hlavne na analýzu rozloženia stránky, vrátane segmentácie textového bloku a riadkov, a na samotné OCR. Popísané experimenty sú zamerané na určenie najlepšieho spôsobu dosiahnutia dobrých výsledkov OCR pre historické nemecké tlačené dokumenty. Na experiment použili digitalizovaný archívny materiál z projektu Porta fontium z česko‑bavorského pohraničia. Konkrétne išlo o 10 strán z novín Ascher Zeitung z druhej polovice 19. storočia tlačených fraktúrou. Na tréning použili sedem strán, na validáciu jednu stranu a na hodnotenie efektívnosti dve strany. Ďalších 15 strán použili na tréning identifikácie a segmentácie šablóny strany. Získané výsledky považujú autori za porovnateľné alebo dokonca lepšie ako výsledky niekoľkých najnovších systémov, napríklad Transkribus. Pri fraktúre z nemeckých novín dosiahli v porovnaní s inými systémami tieto hodnoty CER: Porta fontium CER 0,024 %; Tesseract (deu_frak) CER 0,053 %; Tesseract (Fraktur) CER 0,045 %; Transkribus CER 0,027 %. Téme rozpoznávania novovekých tlačených textov písaných fraktúrou sa venuje Martin Kišš (2018) vo svojej diplomovej práci. Svoj výskum založil na nástroji TensorFlow, ktorý pôvodne vyvinula spoločnosť Google a je k dispozícii ako open source platforma pre strojové učenie. Súčasťou jeho prístupu je vstavaný generátor umelých historických textov. Pomocou tohto generátora vytvoril umelú dátovú sadu, na ktorej trénoval neurónovú sieť na rozpoznávanie riadkov. Túto neurónovú sieť otestoval na reálnych historických riadkoch textu a dosiahol po natrénovaní úspešnosť 89,0 % presnosti znakov.

Význam a vlastnosti platformy Transkribus

Vytvorenie výskumnej platformy Transkribus bolo okrem základného výskumu jedným z hlavných cieľov projektu READ. Približne 2,5 milióna EUR z 8,2 milióna EUR sa investovalo do rozvoja tejto výskumnej infraštruktúry. Teraz vznikajú nadväzujúce projekty, v ktorých pokračuje základný aj aplikovaný výskum. Osvojovanie si platformy Transkribus môže mať aj významné ekonomické efekty. Podľa údajov z internej dokumentácie projektu READ sa trhové ceny manuálneho prepisu historických rukopisov pohybujú od 10 € až do 30 € alebo aj viac za jednoduchú angličtinu, nemčinu, latinčinu za konkrétny rukopis. Ak predpokladáme 15 € za stranu ako priemerné náklady, tak v projekte READ výskumníci generovali peňažnú hodnotu 4–6 miliónov EUR. Tieto údaje sú pridanou hodnotou a potenciálnym zdrojom rozvoja novozaloženého združenia READ‑COOP15 a presvedčivým potvrdením základnej koncepcie výskumu smerujúcej k novým poznatkom a súčasne ku komerčnému využitiu nástrojov, ktoré sú výsledkami aplikácie nových poznatkov. Orientačné náklady na transkripciu vrátane DPH sú v nasledujúcej tabuľke16 č. 1.

Suma / kredity[1] Suma /kredity[1]	Stroj PyLaia	Stroj PyLaia 2	Stroj HTR+	Stroj HTR+3
	Počet strán rukopis/cena €	Počet strán tlač/cena €	Počet strán rukopis/cena €	Počet strán rukopis/cena €
648 €/3000	3 000/0,216	18 000/0,036	2 400/0,27	15 000/0,043
1944 €/10000	10 000/0,194	60 000/0,0324	8 000/0,24	50 000/0,038

Predstavitelia digital humanities na Slovensku majú k tejto iniciatíve rozličné postoje.Od nadšených prejavov súhlasu a obdivu až po veľmi rezervované až odmietavé postoje (typu „to nie je nič pre nás“, „máme iné starosti“, „umelá inteligencia nenahradí nás expertov“). Často ide o reakcie, ktoré na jednej strane síce verbálne deklarujú záujemo „digitalizáciu“ a „umelú inteligenciu“, no na druhej strane svedčia o nepochopenía nedostatočných vedomostiach o problematike a možnostiach digitalizácie a využitiaumelej inteligencie. Postoje svedčia skôr o uprednostnení tradičných paradigiem prácea výskumu než o reálnej snahe hľadať inovatívne nástroje sprístupnenia a interpretácienášho obrovského historického písomného dedičstva ako súčasti európskeho kultúrneho dedičstva.Pokiaľ ide o transkripciu slovenčiny, tá sa ocitla v zozname jazykov v záverečnej správeo projekte READ vďaka našej iniciatívnej práci, a to bez akejkoľvek podpory a v podstate bez záujmu národných inštitúcií, archívov, knižníc, múzeí a akademického sektora.Išlo o prácu, ktorej sme venovali od roku 2017 najmenej 3000 hodín a ktorú autor tohtopríspevku financoval do roku 2020 len z vlastných zdrojov. Dosiahnuté výsledky, know‑howa skúsenosti nás viedli k úsiliu zaviesť revolučnú a inovatívnu platformu Transkribus17 na Slovensku a v Česku18, najmä do systému vzdelávania, ako aj do praxe pamäťovýcha fondových inštitúcií prostredníctvom projektov výskumu a vývoja. Samozrejme,rešpektujeme pritom aj iné nástroje transkripcie.Platforma Transkribus je slobodný softvér (open source) s garanciou bezpečného používaniapre registrovaných klientov platformy. Svoj účet si môže vytvoriť každý a potomsi môže zadarmo stiahnuť Transkribus Expert Client alebo môže používať jednoduchšínástroj Transkibus Lite. Na pripojenie počítačov alebo mobilných zariadení klientovk platforme je k dispozícii rozhranie API. Väčšinu softvérových nástrojov tvoria slobodnésoftvéry, ktoré je možné získať z GitHubu.

Alternatívy platformy Transkribus

V štúdii sa venujeme výlučne platforme Transkribus a transkripcii rukopisných zbieroka okrajovo aj transkripcii tlačí. Existuje však celý rad iných nástrojov transkripcie. NapríkladOCR4all, ktorý bol vyvinutý na digitalizáciu starých tlačí. Ďalej aplikácia eScript,ktorá slúži na transkripciu rukopisov a tlačí. Nástroj Rescribe je určený pre stolné počítačena OCR na obrazových súboroch, súboroch PDF a Knihách Google. Jednýmz použiteľných nástrojov transkripcie je aj Pero.cz. Systém ABBYY Cloud OCR SDK jeveľmi kvalitná aplikácia v cloude prostredníctvom webového rozhrania API. Aj ku ABBYYCloud OCR SDK existuje viac ako 10 alternatív. Najlepšou alternatívou je Online OCR, ktoré je zadarmo. Ďalšie skvelé stránky a aplikácie podobné ABBYY Cloud OCR SDKsú aj Kofax Omnipage, Geekersoft OCR Word Recognition a i2OCR. K dispozícii je ajkomerčný Quartex (Adam Matthew Digital 2018). Pred výskumníkmi v budúcnosti stojíúloha vypracovať metaanalýzu s kritériami hodnotenia funkcionality a kvality nástrojov, aplikácií a platforiem transkripcie. Predmetom tejto štúdie však nie je hodnotenie iných systémov transkripcie.

READ‑COOP

Projekt READ skončil 30. 6. 2019. Následne vzniklo medzinárodné združenieREAD‑COOPSCE (Societas Cooperativa Europeae – SCE), a to 1. 7. 2019. Jeho cieľomje udržať a ďalej rozvíjať platformu Transkribus. Odborníci a inštitúcie majú záujemo pokračovanie a vývoj služby Transkribus. V súčasnosti, v októbri roku 2022, je 27 členova viac ako 90 000 používateľov Transkribus, ktorí pracujú s touto platformou.

Obr. 1 Rozšírenie platformy Transkribus v Európe (Zdroj: readcoop.eu, podľa stavu v septembri 2022. Aktuálne august 2022: Members of READ‑COOPSCE – READ‑COOP(readcoop.eu))

Projekt SKRIPTOR 19

Slovenskí odborníci reagujú na nové trendy OCR a výskumu historických dokumentovprojektom SKRIPTOR (Katuščák a Nagy et al., 2019). Projekt má európsky aj národnýrozmer.Projekt SKRIPTOR priamo nadväzuje na európsky projekt READ. Technologickéa vedecké inovácie projektu READ sú založené na využívaní umelej inteligencie a metodológiedigitálnych humanitných vied. Úlohou výskumníkov projektu SKRIPTOR je implementáciaa rozšírenie najnovších technologických inovácií a poznatkov o efektívnom prístupeodbornej a laickej verejnosti k slovenskému i zahraničnému písomnému dedičstvu.Strategickým cieľom projektu SKRIPTOR je vytvárať podmienky na vnútroštátnejúrovni pre kompetentné partnerstvo slovenských výskumných pracovníkov s poprednýmeurópskym výskumom, nadviazať a potom sa aktívne zapojiť do mnohostrannej vedeckejeurópskej spolupráce. Projekt SKRIPTOR sa realizuje v oblasti histórie a archívnictva.Presahuje tiež do knižničnej a informačnej vedy.Projekt SKRIPTOR je zameraný na dokumenty novoveku. Zbierky, ktoré sú predmetompreskúmania a sprístupnenia, môžu však zahŕňať aj významné texty novších dokumentova inkunábul, tlačené materiály zo 16. storočia, historické časopisy, noviny, akoaj cenné materiály z 18. až 20. storočia.Cieľom tvorby nových modelov s použitím platformy Transkribus je potvrdiť jej efektívnosťa dosiahnuť pri našich zbierkach zníženie ceny transkripcie z 30 € za manuálnutranskripciu strany na menej ako 1 €/strana za automatickú transkripciu textov.V projekte SKRIPTOR sme predbežne zvolili na výskum a experimentálnu transkripciutieto zbierky: 1. Slovenská a česká fraktúra (švabach i antikva); 2. Andrej Kmeť –osobná rukopisná korešpondencia; 3. Martin Lauček – Collectanea; 4. Postila IzákaAbrahamidesa Hrochotského z rokov 1600–1601; 5. Postila Juraja Schmidelia‑Kováčikaz rokov 1598–1607; 6. Kanonické vizitácie Banskobystrickej diecézy z 18.–19. storočia;7. Hurban, J. M., rukopisné dokumenty; 8. rímskokatolícke matriky; 9. urbáre tereziánskejurbárskej regulácie; 10. parcelačné protokoly stabilného katastra; 11. kongregačnézápisnice, sedriálne protokoly; 12. ďalšie zbierky písomností identifikované počas archívnehovýskumu.Zatiaľ, v roku 2022, sú v projekte SKRIPTOR dostupné niektoré výstupy a súvisiaceaktivity: Publikácie: NAGY, I. (2021), TOMEČEK, O. (2021), BÔBOVÁ, M. (2021), KATRENIAK,M. (2022), KATUŠČÁK, D. (2020, 2021), KOVÁČOVÁ, K. (2022). Ďalej návrhprojektu HITEXT v Česku TAČR (2020) a NAKI III (2022): KATUŠČÁK, D. (2020 a 2022).Účasť na študentskej vedeckej konferencii v Opave, aktivity v študentskej grantovej súťažiSGS/5/2022 (SGS SU Opava). Dôležité je osvojenie si funkcionality platformy Transkribusa prenos poznatkov do procesu vzdelávania na Slovensku a v Česku.

Obr. 2 Rukopis Martina Laučeka. Od krasopisu k voľnejšiemu rukopisu

Pracovný postup transkripcie

Na základe vlastných skúseností chápeme transkripciu ako komplexný proces, ktorýpredpokladá najmä odhodlanie, dostupnosť finančných zdrojov a infraštruktúry. Hlavnéprocesy sú:

Príprava. Najmä: Informačný archívny prieskum (heuristika), identifikácia možnýchzbierok a dokumentov, vyriešenie podmienok dostupnosti zbierok a dokumentov, kvantifikáciaa výber dokumentov na transkripciu (počet strán a homogénnosť rukopisov), dohoda s vlastníkom alebo správcom zbierky o mieste a spôsobe snímania a o právach.

Snímanie. Najmä: skenovanie, fotografovanie dokumentov, pomenovania a organizáciaadresárov a súborov v počítači, archivovanie zdrojových súborov (TIFF, RAW)a zálohovanie derivovaných súborov (JPG, PDF, PNG ai.).

Inštalácia Transkribus Expert Client a práca s platformou Transkribus. Najmä: zoznámeniesa s dokumentáciou Transkribus, voľba formátu obrázkov pre Transkribus, kontrolakvality a príprava obrázkov na nahrávanie do Transkribusu, voľba spôsobu nahrávania súborov, vytvorenie vlastnej zbierky, nahrávanie zvolených súborov do platformyTranskribus do zbierky.

Manuálna transkripcia. Najmä: výber vzoriek strán na manuálnu transkripciu podľašpecifík rukopisu, rozhodnutie o zdieľaní zbierky so spolupracovníkmi a o ich úlohe, manuálnatranskripcia vzorky pre cvičný súbor.

Obr. 3 Študentka knihovníctva Slezskej univerzity sníma v archíve v Jeseníku so ScanTent a DocScan rukopisný text pre svoju záverečnú prácu

Segmentácia strán a metadáta v Transkribus Expert Client. Najmä: segmentácia stránalebo celých súborov, kontrola kvality a oprava manuálnej transkripcie a segmentácie,metadáta dokumentu, metadáta stránky, štrukturálne metadáta, komentáre, KWS20.Tvorba modelu transkripcie v Transkribus Expert Client. Najmä: učenie stroja pre modeltranskripcie, kontrola kvality a efektívnosti modelu a korekcie cvičného súboru, opätovnéspustenie tvorby modelu a kontrola kvality modelu, voľba stránok v kvalite groundtruth, použitie modelu na transkripciu všetkých segmentovaných strán v zbierke. Sprístupnenie a použitie výsledkov transkripcie. Najmä: export výsledkov rôznymispôsobmi a v rôznych formátoch, editovanie a korekcie výsledkov transkripcie v TranskribusLite, použitie modelu transkripcie, sprístupnenie výsledkov transkripcie v lokálnejsieti alebo zverejnenie výsledkov transkripcie online na využívanie na internete cezread & search (viď ďalej).

Experiment so zbierkou listov Andreja Kmeťa

O automatickej transkripcii rukopisných textov už desiatky rokov snívajú historici, lingvisti,archivári, knihovníci, dokumentaristi a všetci ďalší, ktorí prichádzajú do styku s rukopisnýmitextami.21 Postupne sa automatický prepis rukopisov stáva skutočnosťou. Je a tým mohutný medzinárodný základný výskum v oblasti umelej inteligencie a tisícehodín práce.Transkribus, pochopiteľne, nenahrádza odbornú a vedeckú erudíciu historikov a archivárov.Preto je pochopiteľný aj ich rezervovaný postoj. Umelá inteligencia nesúťaží s odborníkmi.Pomáha im. Automatická transkripcia môže byť len jedným z krokov vedeckejpráce odborníkov. Ďalej nasleduje historický výskum textu a kontextu transkribovaných textov a informácií, editovanie textov získaných transkripciou, identifikácia entít, tvorbakľúčových slov, metadát, ktoré sú v texte objavené (dátumy, mená osôb, názvy geografickýchjednotiek, korporácií a pod.).Zmyslom rozsiahlejšej transkripcie s použitím špičkovej platformy Transkribus je uľahčenie čítania a sprístupnenie unikátnych zbierok, dokumentov, archívnych jednotiek, ktorésa nachádzajú v archívoch spravidla len v jednom exemplári. V tom je rozdiel medzivýskytom jednotiek v knižniciach a archívoch. V archívoch sú jedinečné, autentické originálne dokumenty, zbierky, archívne jednotky, kým v knižniciach sú tituly dokumentov, ktoré majú často stovky až tisíce exemplárov. Unikátne archiválie je potrebné sprístupniť. Cesta ku sprístupneniu vedie cez ich transkripciu. Po transkripcii historických textov a rukopisov je možné digitálny obsah editovať, interpretovať, použiť a sprístupniť na využitie v širšom meradle aj vo verejných informačných systémoch a službách. Navyše, transkribovaný originálny text, napríklad v latinčine, maďarčine, nemčine alebo v inom jazyku, je možné aspoň približne ďalej automaticky preložiť do iného jazyka. Tým sa dosť podstatne mení charakter práce archivárov a historikov. Výsledkom mojej práce sú modely transkripcie rôznej kvality. Prehľad modelov obsahuje tabuľka.

Tab. 2 Prehľad experimentov s modelmi transkripcie rukopisnej korešpondencie Andreja Kmeťa

Vysvetlivky k tabuľke:

Dátum: Dátum vytvorenia modelu (RRRRMMDD).Metóda: Zvolená metóda transkripcie rukopisu (HTR+).ID: Identifikačné číslo modelu v našich zbierkach a medzi všetkými modelmi Transkribusna vzdialenom serveri.

Tréningový súbor: Počet strán a počet riadkov, ktoré boli manuálne prepísané a použiténa učenie (tréning) stroja v platforme Transkribus. Spolu sme na cvičenie postupneprepísali 211 strán. Z nich 185 slúži na tréning a 26 na validáciu (overenie). Základnýprepis obsahoval 50 strán. S ním sme urobili prvý model. Z výsledkov transkripcie smepridávali do tréningového modelu editované ďalšie strany a tvorili sme ďalšie modely.

Validačný súbor: Počet strán a riadkov, ktoré sme zvolili z celkového počtu prepísanýchstrán na overenie presnosti učenia.

Presnosť CER: Percentuálne vyjadrenie chybovosti znakov vo vstupnom súbore a vovalidačnom súbore. Pri rukopisoch je prakticky vylúčené, aby manuálny prepis bol 0,0 %.

Počet cyklov: Počet cyklov, tzv. epoch, ktoré stroj použil na učenie (tréning).CER/WER: Hodnoty vyjadrujú skutočnú praktickú, používateľskú presnosť resp. chybovosť znakov CER a chybovosť slov WER22 v šiestich modeloch z rokov 2019–2021,ktoré sú vo vlastníctve autora. Všetky modely sme testovali na jednej, čo najpresnejšie pripravenej dvojstránke v kvalite FINAL v zbierke ID 115514. Ide o list Andreja KmeťaĽ. V. Riznerovi (dokument ID 621673).Priemer prepočítanej chybovosti znakov v šiestich modeloch je CER 5,0 %, pričom päť z nich sme vytvorili na cvičných súboroch rôznej kvality, hlavne v statuse In Progress. Napraktickú transkripciu ďalších stoviek strán bude však najvhodnejšie použiť model 36009.Na cvičenie tohto modelu sme použili kvalitne pripravené strany – v kvalite ground truth.Z hľadiska presnosti transkripcie ďalších listov Andreja Kmeťa považujeme výsledky Modelu36009 s hodnotami CER 2,48 % a WER 7,73 % za najlepšie. Uvedené údaje v stĺpci CER/WER nevyjadrujú presnosť transkripcie pri vytváraní modelus vopred pripravenými súbormi na tréning (1,87 %) a validáciu (5,79 %), ale najlepšiehodnoty, ktoré sa týkajú jednotlivých strán. Preto tie hodnoty sú odlišné. CER/WER2,48 % a 7,73 % sú len najlepšie hodnoty, ktoré sa týkajú v danom modeli jednej strany, ktorú zo zbierky treba vybrať náhodne a ktorá nie je vopred nijako transkribovaná. Samotná hodnota WER nemá nejaký praktický zmysel, pretože ak použijeme v TranskribuseTools/Compare text version, zistíme, že napr. interpunkcia, dĺžeň, mäkčeň, bodka…v slove má dištinktívnu rolu, a ak je navyše, alebo chýba v transkribovanom texte v porovnaní s GT (Ground Truth), tak stroj slovo považuje za chybné, hoci pre používateľaje text jednoznačne zrozumiteľný a nesťažuje jeho použitie. Hodnoty WER sa používajú väčšinou v matematickej lingvistike, napr. v strojovom preklade.

Výsledky transkripcie dokumentov priebežne organizujeme a zverejňujeme aj na internete cez nástroj, ktorý vyvinul tým READ‑COOP a ktorý sa volá read & search. Verejný prístup k dokumentom je teda cez stránku read & search – https://Transkribus.eu/r/slovakia‑state/#/, ktorej interfejs sme preložili do slovenčiny. Všetky modely uvedené v tabuľke sme kvôli porovnaniu testovali na jednej, čo najpresnejšie pripravenej dvojstránke v kvalite FINAL v zbierke ID 115514. Ide o list Andreja Kmeťa Ľ. V. Riznerovi (dokument ID 621673). Chybovosť slov je de facto irelevantná, pretože chybný znak (napr. interpunkcia) spôsobuje vo väčšine prípadov aj chybovosť slova.

Priemer prepočítanej chybovosti znakov v šiestich modeloch je CER 5,0 %, pričom päť z nich sme vytvorili na cvičných súboroch a stranách rôznej kvality, ktoré boli hlavne v statuse In Progress.23 Na praktickú transkripciu ďalších stoviek strán bude však najvhodnejšie použiť model 36009, ktorý sme vytvorili zo 185 strán cvičného súboru a 26 strán validačného súboru. Ukazuje sa, že najnižšie hodnoty presnosti CER vo validačnom súbore neznamenajú, že modely, ktoré sú v tabuľke na prvých piatich riadkoch v šiestom stĺpci a nie sú vytvorené na stranách ground truth, sú najvhodnejšie pre ďalšiu transkripciu.

Na poslednú prípravu tohto modelu sme použili kvalitne pripravené strany v kvalite ground truth. Z hľadiska presnosti transkripcie ďalších listov Andreja Kmeťa považujeme výsledky Modelu 36009 s hodnotami CER 2,48 % a WER 7,73 % za najlepšie. V budúcnosti, na základe ďalších skúseností, zvážime poskytnutie tohto nášho modelu na voľné použitie pre podobné rukopisné zbierky.

Výber zbierky

Na experiment sme zvolili zbierku rukopisnej, prevažne slovenskej korešpondencie Andreja Kmeťa, uloženú v knižnici Slovenského národného múzea v Martine, a to po predchádzajúcom láskavom súhlase riaditeľky múzea. Niekoľko listov je v latinčine, maďarčine a časti listov aj v nemčine a češtine. Ide o listy Andreja Kmeťa z rokov 1841–1908. V oblasti vedeckého prístupu ku korešpondencii učencov v novoveku v duchu metodológie digital humanities je nepochybne najkomplexnejším zdrojom poznatkov medzinárodný výskum, ktorý inicioval a viedol Howard Hotson v rokoch 2014–2018 (Hotson 2019). V tejto štúdii nás korešpondencia zaujíma len ako rozsiahly rukopisný materiál, ktorý je vhodný na experimenty s automatickou transkripciou.

Osobnosťou Andreja Kmeťa, vrátane spracovania častí jeho korešpondencie, sa zaoberá systematicky Karol Hollý; a uvádza aj ďalšie zdroje, ktoré sa týkajú Kmeťovej rukopisnej pozostalosti (Hollý 2013, 2019).

Snímanie

Snímanie, teda skenovanie, presnejšie fotografovanie, prebehlo 23. – 30. 5. 2018 v Knižnici Slovenského národného múzea v Martine. Na snímanie sme použili zariadenie ScanTent (skenovací stan) a voľne dostupnú aplikáciu DocScan. ScanTent sme použili zámerne, aby sme overili celý navrhovaný pracovný postup Transkribus. Je známe, že mnohé archívy už majú časti zbierok viac‑menej kvalitne skenované. Nami zvolené zariadenia majú význam v prípadoch, ak zbierky ešte nie sú skenované. Je známe, že zo študovní archívov bežní vedci a používatelia nesmú vynášať archiválie. Amatérske fotografovanie strán smartfónmi alebo fotoaparátmi je problematické, ak ide o väčšie súbory (tisíce strán). Preto je ScanTent a DocScan prijateľnou a dostupnou voľbou, ktorá je s určitými praktickými výhradami (formát, zaostrovanie, kvalita) prijateľná. Treba si však uvedomiť, že v tomto prípade ide o fotografovanie a nie o skenovanie v pravom technologickom zmysle slova. V budúcnosti by sme rozhodne použili na snímanie profesionálny skener a skenovanie v najvyššie dosiahnuteľnej kvalite (300–600 dpi). Snímali sme kompletný obsah piatich krabíc. Niektoré listy boli na viacerých stranách, vyskytujú sa neúplné strany, vakáty a pod. Jeden obraz mohol obsahovať aj viac strán rukopisu. Vo fáze snímania sa vytvárajú obrazy a nie strany, pokiaľ sa strany nesnímajú oddelene. Niekedy je vhodnejšie listy snímať podľa strán, jednotlivo, pretože, ak sa sníma list ako dvojstrana, musí sa niekedy prácne usporadúvať poradie strán v následnom spracovaní obrazu, tzv. post processingu. V ďalšom kroku segmentácie textu je však možné jednotlivé strany ako bloky textu usporiadať do správneho poradia. Jednotlivé strany v listoch Andreja Kmeťa nenasledovali za sebou, takže na skenovanom obraze bola napríklad strana 3 a 1, na ďalšej 2 a 4. Čas snímania asi 3000 strán bol spolu ca 15–20 hodín. Snímanie bolo v manuálnom režime single podľa jednotlivých listov, nie series, teda nie s automatickým snímaním po obrátení strany, nakoľko rukopisný materiál je na samostatných listoch rôzneho formátu. Časť materiálu tvoria originály listov, časť fotokópie. Najmä originály listov sú často na krehkom papieri, ktorý by si vyžadoval konzervačné zásahy. Vizitky a podobné menšie formáty papiera – softvér DocScan žiadal „priblížiť“, čo sme riešili podložením čistej stránky formátu A4 pod chýbajúce časti listu. Niektoré listy boli poškodené (chýbal roh, poškodené strany listu). Systém v takom prípade hlásil no page found. Riešili sme to použitím bielej strany ako podložky pod list, aj pod chýbajúce časti, potom DocScan zaostril.

Obr. 4 Rukopis Andreja Kmeťa. List J. V. Riznerovi

Niektoré zložky sme museli snímať znovu, nakoľko sme nevenovali spočiatku potrebnú pozornosť zaostrovaniu. DocScan zaostruje na plochu listu na niekoľkých miestach. Zaostrenie indikujú červené a zelené značky. Keď je zaostrenie uspokojivé, zobrazí sa „OK“, potom možno stlačiť spúšť. Na snímanie sme použili mobilný telefón Samsung Galaxy S6 s operačným programom Android, s ktorým vtedy fungoval DocScan. Nejasný bol pre nás spočiatku proces prenosu dát zo Samsungu (Android) do MacBook Air (operačný systém iOS). V súčasnosti je dostupný softvér DocScan aj pre operačný systém iOS. Napokon sme použili počítač s Windows 10 a stiahli sme obrázky z Pictures zo Samsungu do iného počítača. Použitie systému DocScan a mobilného telefónu Samsung považujeme za vyslovene núdzové riešenie, pretože sme v ďalšej práci, najmä pri segmentovaní, zistili pomerne veľké množstvo neostrých častí strán. Keďže boli časti strany neostré, segmentácia bola nepresná a následne nebola ani transkribovaná.

V budúcnosti by sme odporúčali používať pri rozsiahlych cenných zbierkach kvalitné profesionálne skenery a samotné skenovanie v najvyššej dosiahnuteľnej kvalite. Systém DocScan je možné pri snímaní napojiť priamo na server a platformu Transkribus (v Innsbrucku či Rostocku), snímať a priamo zo snímania prenášať obrazy do platformy Transkribus. Túto možnosť sme nevyužili. Považovali sme za potrebné preveriť správnosť a kvalitu snímania. Niektoré operácie s Transkribus si vyžadovali použitie Preview, Adobe Acrobat Pro DC verzia 2021.001, FileZilla Client verzia 3.61.0, ABBYY FineReader PDF 15, Zoner Photo Studio X a i. Nástroje sme využili na úpravu orientácie textu, hromadné orezanie, konverzie formátov, vylúčenie duplicít, usporiadanie stránok v súbore, zlučovanie súborov ap.

Snímaný digitálny obsah (obrazy) bol: a) pripravený na ďalšie spracovanie v softvéri DocScan (identifikácia obsahu, metadáta), b) nahratý bez úprav na CD ROM na použitie u vlastníka zbierky podľa uváženia vedenia, c) obrazy boli pripravené na nahratie do platformy Transkribus a na ďalšie spracovanie v softvéri Transkribus. Nasledovalo nahrávanie na server Transkribus, segmentácia, tvorba modelov a transkripcia rukopisného textu.

Digitálny obsah sme rozdelili tak, ako sa nachádza v archívnych krabiciach. Napálili sme teda päť kompaktných diskov (CD), ktoré sme netranskribované protokolárne odovzdali vtedajšej riaditeľke etnografického múzea v Martine Dr. Márii Halmovej. Správcovia zbierky, archivári, teraz môžu použiť digitálny obsah a celý ho zverejniť. Ďalej môžu vložiť do každej krabice jeden kompaktný disk. Môžu rozhodovať tom, komu umožnia prístup k zbierke na disku alebo opäť umožnia prácu s pomerne krehkými papierovými originálnymi archívnymi listami. Transkribovaný obsah sprístupňujeme postupne cez softvér read & search, ktorý funguje ako „softvér ako služba“ (SaaS). Zatiaľ ešte len skúmame možnosti optimálnej prípravy metadát pre dokumenty a zbierky na zverejnenie cez read & search.

Nahrávanie súborov digitálnych obrazov

Snímané obrazy je možné spracovať buď lokálne, alebo ich upravovať po importe na vzdialený server Transkribus. Pred importom na server a pred používaním platformy Transkribus je potrebné zaregistrovať sa, stiahnuť si platformu Transkribus Expert Client. Pracovať je možné aj s nástrojom Transkribus Lite, v ktorom však nie je možné tvoriť vlastné modely transkripcie. Potom je potrebné vytvoriť si svoju vlastnú privátnu zbierku, ktorá je dostupná výlučne tomu, kto ju vytvoril, ak sa nerozhodne zdieľať ju s ďalšími používateľmi. Je možné, aby „prepisovač“, teda transkriber, umožnil prístup k niektorým operáciám napríklad študentom, operátorom, kooperantom. Môže umožniť prístup k vlastnej zbierke na prípravu cvičnej vzorky, editovanie po transkripcii a pod. Automatická transkripcia sa vykonáva výlučne na vzdialenom serveri s použitím infraštruktúry Transkribus Expert Client. Lokálne je možné s vlastnými dokumentami a zbierkami pracovať podľa potreby. Pred importom súborov je potrebné vytvoriť si vlastnú zbierku (collection) so svojimi súbormi na transkripciu. Nahrávanie, import obrazov jednorazovo, je možné do veľkosti 500 MB. Ak je objem importovaných obrazov väčší, obrazy je možné rozdeliť do viacerých súborov a importovať ich postupne. Väčšie súbory obrazov je možné nahrať, importovať aj s použitím FTP klienta, napríklad WinSCP, tiež cez URL alebo DFG Viewer METS. Obrazy sa môžu nahrať ako PDF i JPG, TIFF a i. Zbierka importovaných obrazov, vytvorených skenovaním listov Andreja Kmeťa, má 11.7 GB v rozlíšení 300 dpi. Naše skúsenosti ukazujú, že pred importom je vhodné skontrolovať digitálne obrazy, ich kvalitu, ostrosť, priesvity z opačnej strany listu, úplnosť, orientáciu strán a pod. Po určitých skúsenostiach sme importovali aj veľké súbory vo formáte PDF cez rýchlejší jednoduchý softvér WinSCP.

Segmentácia

Po importe súborov na server sa musí vykonať na serveri automatická segmentácia. Pri segmentácii textu a obrazov musí byť klient pripojený na aplikáciu na serveri. Segmentácia znamená, že sa obraz rukopisného textu dokumentu, ktorý je zatiaľ na serveri ako obraz, rozdelí automaticky na bloky, oblasti, riadky textu. Ak je to potrebné, môžu sa urobiť manuálne korekcie. Ide pritom napríklad o usporiadanie, spájanie a rozdeľovanie blokov, rozširovanie polygónu, úprava základnej linky pod riadkom, ohraničenia segmentu a pod. Segmentácia je pre samotnú transkripciu kľúčová. Kvalitne skenované strany s ostrým rukopisom sa segmentujú spravidla bezchybne. Avšak niekedy je potrebné po segmentácii starostlivo kontrolovať, prípadne upraviť manuálne poradie častí textu (TR‑Text regions), poradie riadkov (Lines reading orders), linky a polygóny vytvorené strojom (umelou inteligenciou).

Tréning stroja HTR

Stroj Transkribus Expert Client sa trénuje, cvičí, vlastne učí najprv na stranách, ktoré sú vybraté do cvičného súboru. Stroj opakovane, napr. v 50 cykloch, číta jednotlivé strany cvičného súboru a postupne identifikuje znaky, ktoré nevie jednoznačne určiť, alebo ktoré vznikli chybnou transkripciou strán v súbore ground truth. Transkribus si najprv vytvára model na stranách cvičného súboru. Znaky, ktoré považuje stroj za chybné, zaradí medzi chybné znaky cvičného súboru. To je v štatistike hodnota CER Train Set. Stroj HTR musí byť najprv vyškolený pre danú ruku. Spravidla by mal učiaci sa stroj vidieť 100 príkladov každého znaku, ktorý sa nachádza v dokumente, čo je zvyčajne približne na 50 stranách manuálne pripraveného cvičného súboru (Mühlberger et al. [2016]).

Po vycvičení modelu na stránkach, ktoré boli vybraté do cvičného súboru, Transkribus Expert Client automaticky použije naučený model vytvorený na stránkach cvičného súboru na jeho overenie na stránkach, vybratých do overovacieho súboru. Overovací súbor, tzv. Validation set slúži na praktické vyskúšanie modelu. Ku textu v overovacom súbore stroj pristupuje opakovane zakaždým, akoby to robil prvýkrát a aplikuje pritom model, ktorý sa „naučil“ na cvičnom súbore. Na konci tohto procesu máme k dispozícii model na automatický prepis rukopisu. Pre hodnotenie presnosti transkripcie vytvoreného modelu je najdôležitejšia hodnota, ktorá vyjadruje chybovosť transkripcie znakov vo validačnom, overovacom súbore. To je hodnota CER Validation Set. Z importovanej zbierky sa teda podľa určitého algoritmu vyberie vzorka strán (súbor dát, tzv. dataset), ktorá slúži na učenie stroja a vytvorenie modelu pre určitý typ rukopisu. Na to je potrebné ukázať stroju správne príklady textu. Stroj sa podľa cvičnej, tréningovej sady naučí vzory písma a slov. Ak je zbierka textov od viacerých rúk, je potrebné vybrať primeranú veľkosť cvičnej i testovacej vzorky podľa rúk. Výber strán je možné urobiť podľa určitého algoritmu aj automaticky tak, aby bola vzorka pripravená podľa určitých strán a aby obsahovala asi 20 000 slov. Cvičný, tréningový súbor sa tvorí priamo v expertovom editore klienta platformy Transkribus Expert Client jednak lokálne, jednak aj na serveri. V podstate je potrebné pozorne a veľmi presne prepísať rukopis v editore podľa riadkov, nič neopravovať. Text treba prepisovať podľa súdobého jazykového úzu a gramatiky, aj s chybami a podľa ďalších inštrukcií a návodov, ktoré sú k tejto operácii k dispozícii. Poradie častí textu, označovanie tagmi, výber a redakciu kľúčových slov, deskriptívne metadáta a pod. určuje autor transkripcie a tvorca modelu transkripcie. Výsledok transkripcie je potom viditeľný a zhodnotený na testovacom súbore. Ak je výsledok uspokojivý, možno automaticky transkribovať ďalšie súbory alebo celú zbierku. Jednoducho, po skončení procesu učenia stroja a vytvorení modelu je model k dispozícii vlastníkovi, ktorý ho môže sám používať alebo zdieľať s inými používateľmi a aplikovať na akýkoľvek dokument. Údaje o správnom a nesprávnom čítaní sa stávajú základom modelu.

Automatická transkripcia

Automatická transkripcia slúži ako základ pre vedecké editovanie, v ktorom je možné text korigovať, explicitne pridávať ďalšie dáta, kontextové informácie, dešifrovanie dát, určovať tagy, dávať poznámky, metadáta, anotácie, opravy diakritiky, skratky, malé a veľké písmená, paleografické spracovanie, ligatúry a pod. Automatickú transkripciu sme urobili po spustení tréningu a testovania. Použili sme vlastný model transkripcie a spustili sme transkripciu s použitím HTR+. Výsledkom učenia v automatickej transkripcii textu rukopisu Andreja Kmeťa bol spočiatku excelentný výsledok CER 1,37 % v tréningovom sete a CER 1,76 % v testovacom sete. Tréningový set obsahoval 29 411 slov a 4 573 riadkov. Model sme použili na ďalšie listy a tie sme opravili tak, aby boli v kvalite ground truth.

Obr. 5 Obrazovka s údajmi po automatickej konverzii s použitím vlastného modelu ID 36009

V procese zoznamovania sa s platformou Transkribus Expert Client a cez naše pokusy a omyly sme so strojom HTR v roku 2019 prešli od chybovosti 22,81 % v roku 2018 ku chybovosti 1,76 % v roku 2021. Efektívnosť transkripcie sa výrazne zlepšila potom, keď sa stal dostupný stroj HTR+. Spočiatku sme pracovali len s cvičnými súbormi, ktoré neboli v kvalite ground truth. Základný cvičný transkribovaný súbor mal 50 strán. Pomerne ľahko sme tento základný súbor zväčšovali až na 185 strán tak, že sme so starším modelom transkribovali ďalšie strany. Tie sme opravovali a pridávali do cvičného súboru. Nové strany sme sa usilovali opraviť čo najpresnejšie do kvality ground truth. Napokon sme vytvorili zo stránok v kvalite ground truth spomínaný model č. 36009, ktorým sa dajú dosiahnuť dobré až excelentné výsledky transkripcie, a to v závislosti na kvalite obrazov, ostrosti písma, kvalite rukopisu a kvalite segmentácie. Predbežne môžme konštatovať, že veľká časť chýb transkripcie sa týka interpunkcie. Podrobná analýza príčin nepresností bude predmetom ďalšieho výskumu, rovnako ako výskum korelácie medzi kvalitou skenovania a segmentácie vzhľadom na kvalitu transkripcie.

Obr. 6 Segmentácia textu, transkripcia v editore Transkribus a výsledok automatickej transkripcie

Transkripcia fraktúry (švabachu) 24

Experiment sa týkal aplikácie umelej inteligencie na automatickú transkripciu slovenskej a českej fraktúry, švabachu (Voit 2006). Fraktúra je typ gotického tlačeného písma25, ktoré sa vo veľkej miere používalo od 15. storočia aj v českých a slovenských knihách, novinách a časopisoch v novoveku a neskôr, prakticky až do 50. rokov 20. storočia. V rámci vzdelávania v predmete digitalizácia na Sliezskej univerzite v Ústave bohemistiky a knihovníctva sme uplatnili nástroje umelej inteligencie Transkribus Expert Client na prípravu pravdepodobne prvej mimoriadne úspešnej transkripcie slovenského a českého tlačeného textu – fraktúry – historických Moravských novín, Opavského besedníka, slovenskej publikácie Jánošík. Pripravili sme modely transkripcie slovenskej a českej fraktúry (tabuľka 3). V cvičnom súbore sme dosiahli chybovosť CER 0,39 %. Pre praktické využitie tohto modelu je však rozhodujúca vyššia hodnota – 0,44 %, dosiahnutá na validačnom súbore.

Obr. 7 Transkripcia tlače J. N. Bobulu Jánošík zverejnená v read & search (hore vedľa textu, dolu cez text)

Dátum	Metóda	Tréningový súbor		Validačný súbor		CER		ID modelu
		strany	riadky	strany	riadky	treningovy	validačny
20210824	OCRbase 29418	7	8092	1	888	0,20 %	0,91 %	36160
20210905	OCRbase 29418	9	11231	4	1179	0,18 %	1,07 %	36353
20210912	OCRbase 29418	17	20805	5	2252	0,39 %	0,44 %	36550
20210913	OCRbase 36550	7	2462	3	276	0,03 %	1,78 %	36607

Tab. 3 Transkripcia fraktúry (švabachu)

Fraktúru v slovenských a českých historických tlačiach sme odteraz schopní transkribovať s presnosťou okolo 99 %. V našom prípade je presnosť 99,56 %. Chybovosť je 0,44 %. Výsledky prepisu zlomu českého textu sú dostupné po prihlásení sa do platformy Transkribus v zbierke FRAKTURA_CZ (114429, Vlastník) a na internete v beta verzii prehliadača read & search.

Obr. 8 Ukážka segmentácie Moravských novín 1849 (antikva a fraktúra)

Obr. 9 Ukážka transkripcie Moravských novín 1849 s použitím vlastného modelu transkripcie

Obr. 10 Výrez transkripcie a zobrazenie textu cez transkribovaný text v read & search

Ďalší výskum

V ďalšom výskume bude vhodné zamerať pozornosť na tieto oblasti: a) výber a štandardný popis rozsiahlejších slovacikálnych rukopisných zbierok európskeho a národného významu, b) digitalizácia vybratých historických dokumentov podľa plánu experimentov s cieľom potvrdiť alebo zlepšiť doteraz známe postupy a hodnoty vzhľadom na nasledujúci proces segmentácie textu a automatickú transkripciu (korelácia medzi rôznymi podmienkami a kvalitou skenovania a transkripciou, c) dôkladná analýza a popis výsledkov segmentácie textov, d) zdieľanie digitálnych dokumentov s archívmi a inými inštitúciami, ktoré ich budú môcť používať podľa vlastnej úvahy ako náhradu papierových dokumentov, e) tvorba modelov, tréning a analýza modelov automatickej transkripcie podľa novovekých a moderných zbierok a jazykov (najmä slovenčina, čeština, maďarčina, latinčina, nemčina, poľština), f) overenie a zhodnotenie použiteľnosti hotových, dostupných modelov transkripcie z výskumu v projekte READ, g) zoznámenie sa s najlepšou praxou automatického rozpoznávania textov historických dokumentov v Európe, najmä v Nemecku, Rakúsku, Španielsku, Maďarsku, Veľkej Británii, Fínsku, Holandsku, Srbsku, využitie informácií a skúseností na Slovensku, h) automatická transkripcia podstatnej časti rukopisnej Laučekovej26 zbierky a jej virtualizácia, teda virtuálna jedna digitálna prezentácia zväzkov, ktoré sa nachádzajú na geograficky rozličných miestach (Slovenská národná knižnica v Martine, Slovenský národný archív v Bratislave, Univerzitná knižnica v Bratislave, Országos Széchenyi Konyvtár v Budapešti), i) výskum možností zvýšenia efektívnosti rozpoznávania rukopisných textov a textov historických dokumentov prostredníctvom platformy Transkribus a súvisiacich nástrojov, j) sprístupnenie transkribovaných a interpretovaných zbierok cez digitálny repozitár širokej verejnosti, k) tvorba dokumentácie, ktorá bude slúžiť pre archívy, knižnice, akademické pracoviská ako aj fyzické osoby na automatickú transkripciu textov, l) vybudovanie kabinetu digital humanities so zameraním na transkripciu historických dokumentov.

Záver. Efektívnosť platformy Transkribus

Naše skúsenosti overené experimentami potvrdzujú, že rukopisy je možné automaticky transkribovať, pričom chybovosť môže byť veľmi nízka a výsledok je excelentný. Výsledky transkripcie sú čitateľné a možno ich exportovať v rôznych formátoch – DOC, TXT, PDF, TEI, METS, ďalej editovať, redigovať, korigovať a použiť. V experimente sme pri rukopise Andreja Kmeťa dosiahli presnosť 94,21 % pri chybovosti znakov (CER) 5,79 %. V transkripcii tlačenej fraktúry sme dosiahli presnosť 99,56 % pri chybovosti znakov 0,44 %. Z hľadiska vnímania, porozumenia a použitia transkribovaného textu vo všeobecnosti podľa autorov platformy Transkribus platí, že: a) ak sa striktne počíta chybovosť „slov“ a ak chybovosť slov je do 30 %, tak text je pre človeka ešte pochopiteľný a použiteľný, b) ak sa striktne počíta chybovosť „znakov“, a ak chybovosť znakov je do 15 %, tak text je ešte pre človeka pochopiteľný a použiteľný. Platforma Transkribus je skvelou pomôckou pre svedomitých a trpezlivých bádateľov, ktorých v žiadnom prípade nenahradí, ale podstatne uľahčí doladenie transkripcie cez editovanie a korektúry výsledkov. Platforma nie je, a sotva niekedy bude, určená len pre „klikavcov“, teda používateľov, ktorí sú zvyknutí viac „klikať“ ako trpezlivo inovovať.

Poďakovanie

PhDr. Márii Halmovej, Mgr. Viere Varínskej a PhDr. Anne Peťovej za pomoc pri snímaní rukopisovAndreja Kmeťa v etnografickom múzeu v Martine.

Oľge Kuchtovej z Banskej Štiavnice za pomoc pri zisťovaní informácií o živote a podmienkach pôsobeniaAndreja Kmeťa v Prenčove.

Mgr. Márii Bôbovej, PhD. zo Štátnej vedeckej knižnice v Banskej Bystrici za pomoc a spoluprácupri manuálnej transkripcii a segmentácii strán pre cvičný model a transkripciu listov Andreja Kmeťa.

Lucii Valjentovej, študentke knihovníctva zo 4. ročníka Ústavu bohemistiky a knihovníctva Sliezskejuniverzity v Opave za pomoc pri transkripcii českej fraktúry.

Alešovi Drahotušskému za poskytnutie novín z Digitálnej knižnice Štátnej vedeckej knižnice v Ostrave.

Zoznam bibliografických odkazov

KATUŠČÁK, D., I. NAGY, M. BÔBOVÁ, P. KUNC, A. KURHAJCOVÁ, P. MALINIAK, M. MIKUŠKOVÁ, L. NIŽNÍKOVÁ, I. POLÁKOVÁ, B. SNOPKOVÁ a O. TOMEČEK. (2019) SKRIPTOR Projekt APVV-19-NEWPROJECT-17816 (2020–2024). Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov. [Innovative disclosure of written heritage of Slovakia through the automatic transcription of historical manuscripts]. Organizácie: Univerzita Mateja Bela v Banskej Bystrici (zodpovedný riešiteľ doc. Imrich Nagy, PhD.) a Štátna vedecká knižnica v Banskej Bystrici – partner (garant prof. PhDr. Dušan Katuščák, PhD.).

ADAM MATTHEW DIGITAL, 2018. Handwritten text recognition: artificial intelligence transforms discoverability of handwritten manuscripts, [cit. 2. 10. 2021]. Dostupné z: www.amdigital.co.uk/products/handwritten‑text‑recognition.

BÔBOVÁ, M., 2021. Projekt Skriptor, keď stroj sa stáva žiakom. In: Vedecká online konferencia NON SCHOLAE, SED VITAE DISCIMUS, dňa 7. júna 2021 v gescii ŠVK v Prešove.

DROBAC, S., 2020. OCR and post‑correction of historical newspapers and journals (Doctoral dissertation). Helsinki: University of Helsinki, 2020. ISBN 978-951-51-6511-4 (paperback), ISBN 978-951-51-6512-1 (PDF), [cit. 10. 6. 2022]. Dostupné z: https://helda.helsinki.fi/bitstream/ handle/10138/319496/OCRandpo.pdf?sequence=1 & isAllowed=y.

HODEL T., D. SCHOCH, C. SCHNEIDER a J. PURCELL, 2021. General Models for Handwritten Text Recognition: Feasibility and State‑of‑the Art. German Kurrent as an Example. Journal of Open Humanities Data, 7, 13. [cit. 1. 10. 2022]. Dostupné z: https://openhumanitiesdata.metajnl.com/ articles/10.5334/johd.46/.

HOLLÝ, K., 2013. Veda a slovenské národné hnutie: snahy o organizovanie a inštitucionalizovanie vedy v slovenskom národnom hnutí v dokumentoch 1863–1898. Bratislava: Historický ústav SAV v Typoset Print, s. r. o., 2013.

HOLLÝ, K., 2015. Andrej Kmeť a slovenské národné hnutie: Sondy do života a kreovanie historickej pamäti do roku 1914. Bratislava: Veda, Historický ústav SAV, 2015. 279 s. ISBN 978-80-224-1480-7.

HOTSON, H. a T. WALLNIG (eds.), 2019. Reassembling the Republic of Letters in the Digital Age. Göttingen: Göttingen University Press, 2019. 470 s. [COST Action IS1310; 2014–2018. ISBN 978-3-86395-403-1. DOI: https://doi.org/10.17875/gup2019-1146. [cit. 1. 10. 2022] Dostupné z: https://www.univerlag.uni‑goettingen.de/handle/3/isbn-978-3-86395-403-1.

KATRENIAK, M. (2022). Automatická transkripcia rukopisných historických textov na príklade vybraných kanonických vizitácií. Dostupné z:https://opac.crzp.sk/?fn=detailBiblioForm & sid=BDC2D20A28F62792149F199B8B08.

KATUŠČÁK, D., 2008. Súčasný stav formovania stratégie digitalizácie na Slovensku. In: Kolokvium knihovních a informačních pracovníků zemí V4+. 6.–8. července 2008, Brno, ČR. Elektronický sborník, s. 30–46.

KATUŠČÁK, D., 2021. Pochybná hodnota za veľa peňazí? Kultúrny kyslík. 2021, č. 2, s. 14–17. [cit. 3. 10. 2021]. ISSN 1339-6919. Dostupné z: https://via‑cultura.sk/kulturny‑kyslik-2-2021/.

KATUŠČÁK, D. a M. KATUŠČÁK, 2011. Základná koncepcia národného projektu digitálna knižnica. Knižnica, 2011, 12(2), 6–10. [cit. 2. 10. 2021] Dostupné z: https://www.snk.sk/images/snk/casopis_kniznica/2011/februar/06.pdf.

KATUŠČÁK, D., 2011a. Digitálna knižnica a digitálny archív. Národný projekt. Operačný program informatizácie spoločnosti OPIS2. Implementácia 2010–2015. Martin: Slovenská národná knižnica, 2011. [Kompletný projekt k žiadosti o nenávratný finančný príspevok zo štrukturálnych fondov Európskej únie ca 4000 s.].

KATUŠČÁK, D., 2011b. Národný projekt digitálna knižnica a digitálny archív. Bulletin Slovenskej asociácie knižníc. Bratislava: SAK, 2011. 38 s. [Opis projektu] Dostupné z: http://dusan.katuscak. net/2011/12/02/digitalna‑kniznica‑a-digitalny‑archiv‑opis2/.

KATUŠČÁK, D., 2011c. Situační zpráva o národním projektu SNK Digitální knihovna a digitální archiv. In: 12. konference Archivy, knihovny, muzea v digitálním světě 2011. Praha: SKIP, 30. listopadu a 1. prosince 2011 v konferenčním sále Národního archivu v Praze, Archivní 4, Praha 4 – Chodovec. [cit. 2. 10. 2021] Dostupné z: http://old.skipcr.cz/dokumenty/akm-2011/Katuscak.pdf.

KATUŠČÁK, D., 2021. Progress in making available blackletters typefaces and handwritten written heritage using artificial intelligence. Preprint. Researchgate. 2021, 25 s.

KOVÁČOVÁ, K., 2022. [bakalárska práca] Výběr pozoruhodných rukopisných sbírek Jesenicka. [cit. 2. 10. 2022]. Dostupné z: https://is.slu.cz/th/bum3h/FPF_BP_2022_53474_Kovacova_Klara.pdf.pdf.

KIŠŠ, M., 2018. Rozpoznávání historických textů pomocí hlubokých neuronových sítí. Brno, 2018. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. Vedoucí práce Ing. Michal Hradiš, Ph.D.

MARTÍNEK, J., L. LENC a P. KRÁL, 2020. Building an efficient OCR system for historical documents with little training data. Neural Computing & Applications 32, 17209–17227 (2020). [cit. 2. 10. 2021] Dostupné z: https://doi.org/10.1007/s00521-020-04910-x.

MINISTERSTVO KULTÚRY SLOVENSKEJ REPUBLIKY, 2019. Revízia výdavkov na kultúru. Priebežná správa. Október 2019. Kap. 4.4 Projekt digitalizácie, s. 75–78. [cit. 2. 10. 2021] Dostupné z: https://www.culture.gov.sk/wp‑content/uploads/2019/12/Revizia_vydavkov_na_kulturu_priebezna_sprava_compressed.pdf.

MINISTERSTVO KULTÚRY SLOVENSKEJ REPUBLIKY, 2020. Revízia výdavkov na kultúru. Záverečná správa. Júl 2020. Kap. 4.9 Digitalizácia kultúrneho dedičstva, 132–139. [cit. 2. 10. 2021] Dostupné z: https://www.culture.gov.sk/wp‑content/uploads/2020/10/Revizia_vydavkov_na_kulturu_-_zaverecna_sprava_compressed.pdf.

MÜHLBERGER, G., 2016. READ (Recognition and Enrichment of Archival Documents) – 2016– 2019. [Projektová štúdia]. [cit 6. 10. 2021.] Dostupné z: https://www.academia.edu/22653102/ H2020_Project_READ_Recognition_and_Enrichment_of_Archival_Documents_-_2016-2019.

MÜHLBERGER, G., L. SEAWARD, M. TERRAS, S. ARES OLIVEIRA, V. BOSCH, M. BRYAN, S. COLUTTO, H. DÉJEAN, M. DIEM, S. FIEL, B. GATOS, A. GREINOECKER, T. GRÜNING, G. HACKL, V. HAUKKOVAARA, G. HEYER, L. HIRVONEN, T. HODEL, M. JOKINEN, P. KAHLE, M. KALLIO, F. KAPLAN, F. KLEBER, R. LABAHN, E.-M. LANG, S. LAUBE, G. LEIFERT, G. LOULOUDIS, R. McNICHOLL, J.-L. MEUNIER, J. MICHAEL, E. MÜHLBAUER, N. PHILIPP, I. PRATIKAKIS, J. PUIGCERVER PÉREZ, H. PUTZ, G. RETSINAS, V. ROMERO, R. SABLATNIG, J.-A. SÁNCHEZ, P. SCHOFIELD, G. SFIKAS, C. SIEBER, N. STAMATOPOULOS, T. STRAUSS, T. TERBUL, A. H. TOSELLI, B. ULREICH, M. VILLEGAS, E. VIDAL, J. WALCHER, M. WEIDEMANN, H. WURSTER a K. ZAGORIS, 2019. Transforming scholarship in the archives through handwritten text recognition: Transkribus as a case study. Journal of Documentation, 75(5), 954–976. Dostupné z: https://doi.org/10.1108/JD-07-2018-0114.

MÜHLBERGER, G., J. ZELGER a D. SAGMEISTER, 2014. User‑driven correction of OCR errors: combining crowdsourcing and information retrieval technology. In: ANATONACOPOULOS, A. & K. U. SCHULZ. (Eds.), DATeCH’14: Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage, Madrid, Spain, 19–20 May 2014 (s. 53–56). New York, NY: Association for Computing Machinery. Dostupné z: https://doi.org/10.1145/2595188.2595212.

MÜHLBERGER, G., S. COLUTTO a P. KAHLE [2016, Preprint]. Handwritten Text Recognition (HTR) of Historical Documents as a Shared Task for Archivists, Computer Scientists and Humanities Scholars. The Model of a Transcription & Recognition Platform (TRP). Dostupné z: https://www. academia.edu/8601748/Preprint_Handwritten_Text_Recognition_HTR_of_Historical_Documents_ as_a_Shared_Task_for_Archivists_Computer_Scientists_and_Humanities_Scholars_The_Model_of_a_Transcription_and_Recognition_Platform_TRP_?bulkDownload=thisPaper‑topRelated‑sameAuthor‑citingThis‑citedByThis‑secondOrderCitations & from=cover_page.

MÜHLBERGER, G., 2002. Digitising instead of mailing or shipping: a new approach to interlibrary loan through customer‑related digitisation of monographs. Interlending & Document Supply, 30(2), 66–72. Dostupné z: https://doi.org/10.1108/02641610210430523.

NAGY, I., 2021. Možnosti aplikácie metódy digitálnej transkripcie historických rukopisných textov pri sprístupňovaní archívnych fondov = The Possibilities of application the method of digital transcription of historical manuscript texts in the process of accessing the archival fonds. Slovenská archivistika. Bratislava: Ministerstvo vnútra Slovenskej republiky, 2021, 51(2), 53–67. ISSN 0231-6722. Dostupné z: https://www.minv.sk/swift_data/source/verejna_sprava/odbor_archivov_a_registratur/ archivnictvo/slovenska_archivistika/SA%202-2021,%20roc.%2051.pdf.

POOLE, A. H., 2017. The Conceptual Ecology of Digital Humanities. Journal of Documentation, 2017. 73(1), 91–122. [cit. 3. 10. 2021]. Dostupné z: https://www.academia.edu/27862789/The_Conceptual_Ecology_of_Digital_Humanities.

STROBEL, P. B., S. CLEMATIDE a M. VOLK, 2020. How Much Data Do You Need? About the Creation of a Ground Truth for Black Letter and the Effectiveness of Neural OCR. In: Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), pages 3551–3559. Marseille, 11–16 May 2020 c European Language Resources Association (ELRA).

ŠTUDENTSKÁ grantová súťaž SGS/5/2022 (SGS SU Opava). Tvorba modelu automatické transkripce historického rukopisu s využitím umělé inteligence. Řešitel: prof. PhDr. Dušan Katruščák, PhD., Ing. I. Kyselová, PhD., od októbra 2022 aj K. Kováčová.

KOVÁČOVÁ, K. a I. KYSELOVÁ, 2022. Robot čte rukopisnou kuchařskou knihu z roku 1667? In: Študentská vedecká konferencia. Slezská univerzita v Opavě, 5. apríla 2022.

TOMEČEK, O., 2021. Metales Banskej Bystrice z roku 1820. Reambulácia juhozápadného úseku mestských hraníc spoločných so susedným teritóriom rodiny Radvanských = Metales of the town Banská Bystrica from 1820. Perambulation of the southwest part of town borderline common with neighbouring domain of Radvanský family / Oto Tomeček. Acta historica Neosoliensia: vedecký časopis pre historické vedy. Banská Bystrica: Vydavateľstvo Univerzity Mateja Bela – Belianum, 2021, 24(2), 112– 133. ISSN 1336-9148. Dostupné z: https://www.ahn.umb.sk/tomus-24-num-2-tomecek‑o-metales‑banskej‑bystrice-z‑roku-1820-reambulacia‑juhozapadneho‑useku‑mestskych‑hranic‑spolocnych‑so susednym‑teritoriom‑rodiny‑radvanskych/.

VOIT, P., 2006. Encyklopedie knihy: starší knihtisk a příbuzné obory mezi polovinou 15. a počátkem 19. století. Praha 2006. Švabach – Encyklopedie knihy. [cit. 2. 10. 2022]. Dostupné z: https://www. encyklopedieknihy.cz/index.php/%C5%A0vabach.

Poznámky

1 ORCID: 0000-0001-7444-1077. Slezská univerzita Opava. Filozoficko‑přírodovědecká fakulta v Opavě; Ústav bohemistiky a knihovnictví. Štátna vedecká knižnica v Banskej Bystrici.

2 Štúdia je výstupom z riešenia projektu APVV-19-0456 SKRIPTOR – Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov.

3 OCR – Optical Character Recognition (Optické rozlišovanie písma)

4 READ Recognition and Enrichment of Archival Documents, projekt, ktorého riešenie prebiehalo v rokoch 2016–2019 v rámci programu Horizon2020. [cit 2. 10. 2021]. Dostupné z: https://cordis.europa. eu/project/id/674943.

5 Dušan Katuščák bol jedným z troch hodnotiteľov projektu READ pre Európsku komisiu.

6 Transkribus. Komplexná platforma na digitalizáciu, rozpoznávanie textu podporované umelou inteligenciou, ako aj na prepis a vyhľadávanie historických dokumentov – z akéhokoľvek miesta, kedykoľvek a v akomkoľvek jazyku. V Transkribus Lite je možné použiť zbierky Transkribus Expert Client v prehliadači osobných počítačov a smartfónov. Mnohé z funkcií od klienta Transkribus Expert Client môžu byť použité aj v Transkribus Lite. Platforma integruje nástroje vyvinuté výskumnými skupinami v celej Európe, vrátane skupiny Pre rozpoznávanie vzorov a technológie ľudského jazyka Technickej univerzity vo Valencii a skupiny CITlab University Rostock. V októbri 2022 mal Transkribus viac ako 94 000 používateľov, 40 mil. obrazov, 20 mil. rozpoznaných strán. Platforma bola vytvorená v kontexte dvoch projektov EÚ tranScriptorium (2013–2015) a READ (2016–2019).

7 SKRIPTOR. Projekt APVV-19-NEWPROJECT-17816 (2020–2024). Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov [Innovative disclosure of written heritage of Slovakia through the automatic transcription of historical manuscripts]. Riešiteľské organizácie: Univerzita Mateja Bela v Banskej Bystrici (zodpovedný riešiteľ doc. Imrich Nagy, PhD.); Štátna vedecká knižnica v Banskej Bystrici – partner (garant prof. PhDr. Dušan Katuščák, PhD.).

8 Výskum bol predtým financovaný ako súčasť projektu tranScriptorium. Tento projekt získal finančné prostriedky zo siedmeho rámcového programu Európskej únie pre výskum a technologický rozvoj podľa dohody o grante č. 600707.

9 V prípade záujmu o transkripciu jednotlivých kratších dokumentov je možné skúsiť použitie niektorého z verejne dostupných modelov transkripcie s podobným typom písma, tlače alebo rukopisu.

10 HTR – Handwritten Text Recognition

11 HTR+ – Handwritten Text Recognition. Softvér HTR+ spoločnosti Transkribus zatiaľ nemôže okamžite zahájiť automatický prepis, ale najprv musí byť vyškolený na konkrétny typ písma a rukopisu.

12 Na Slovensku išlo o mimoriadny a v európskom kontexte bezprecedentný národný projekt masovej digitalizácie a konzervovania v gescii Slovenskej národnej knižnice (SNK) v Martine s názvom Digitálna knižnica a digitálny archív 2012–2015. Jeho iniciátorom a autorom bol Dušan Katuščák (Katuščák et al. 2008, 2011a, 2011 b, 2011c, 2021 a i.). Projekt sa čiastočne realizoval na základe zmluvy medzi SNK a Úradom vlády SR zo 7. marca 2012 o poskytnutí nenávratného finančného príspevku vo výške vyše 49 miliónov eur. Vybudovaná je unikátna infraštruktúra: 20 skenerov, z toho 10 digitalizačných robotov a poloautomatov, archív na dlhodobú ochranu digitálneho obsahu, platforma Slovakiana na sprístupňovanie digitálnych dokumentov, vytvorených je 73 nových pracovných miest. Cieľom bolo digitalizovať ca tri milióny dokumentov a fakticky celý slovacikálny knižničný fond, knihy, noviny, časopisy, zborníky ai. Unikátnosť projektu spočívala v integrácii masovej priemyselnej digitalizácie a priemyselného konzervovania degradujúceho kyslého papiera. Po podstatných zmenách manažmentu v roku 2012 sa do roku 2021 sa digitalizovalo len ca 10 % z plánovaného objemu a celkove sa použilo v SNK ca 60 miliónov eur. Masová deacidifikácia papiera sa nerealizuje, takže papier ako nosič ďalej nevratne degraduje (nevratný termodynamický dej). Digitálne dokumenty nie sú dostupné online. Stav digitalizácie je čiastočne kriticky popísaný v analýzach Ministerstva kultúry Slovenskej republiky (MKSR, 2019 a MKSR, 2020).

13 PyLaia je nástroj na rozpoznávanie rukopisného textu, ktorý je podporovaný okrem stroja CITlab‑HTR+. Tieto dva stroje fungujú dosť podobne, a tak zvyčajne sú výsledky podobné v chybovosti znakov (CER). Jediným rozdielom je, že v PyLaia môžu používatelia sami nastaviť niekoľko parametrov. Zmeniť sa dá aj sieťová štruktúra PyLaia – čo je príležitosť pre ľudí, ktorí poznajú strojové učenie. Úpravy neurónovej siete je možné vykonať prostredníctvom úložiska Github. HTR+ zvyčajne poskytne lepšie výsledky so zakrivenými alebo otočenými čiarami, ale je možné, že PyLaia bude v tomto čoskoro schopná držať krok. Ak by bolo potrebné použiť nástroj Text to Image, treba použiť HTR+. Pre PyLaia to však ešte nie je implementované. Dokumenty, ktoré boli transkribované pomocou modelu PyLaia je možné prehľadávať pomocou plnotextového vyhľadávania (Solr) v Transkribuse.

14 CER (Character Error Rates) je miera chybovosti znakov (porovnáva pre danú stranu celkový počet znakov (n) vrátane medzier s minimálnym počtom vložení (i), nahradenia (s) a vymazania (d) znakov, ktoré sú potrebné. získať výsledok Ground Truth. Ide teda o chyby v porovnaní s presným textom. Vzorec na výpočet CER je nasledujúci: CER = [(i + s + d) / n]*100. Každá malá chyba v prepise je štatisticky plnohodnotná chyba. To znamená, že každá chýbajúca čiarka, „u“ namiesto „v“, dodatočná medzera alebo dokonca veľké písmeno namiesto malého písmena sú zahrnuté v CER ako chyba.

15 READ‑COOP. [cit 1. 10. 2022] Dostupné z: O nás – READ‑COOP (readcoop.eu). V októbri roku 2022 malo združenie 113 členov z 27 krajín. Jedinou členskou krajinou zo strednej a východnej Európy bolo v tom čase Slovensko.

16 Manuálna transkripcia: 10–15 €/strana; automatická transkripcia – Transkribus: ca 0,12 € – 0,14 €/ strana. Prepočet podľa: Transkribus Credits & Pricing – READ‑COOP (readcoop.eu).

17 V roku 2017 autor pracoval s verziou Transkribus Expert Client v1. 3. 7. V októbri roku 2022 bola k dispozícii verzia 1. 22. 0.

18 HITEXT. Slezská univerzita v Opave pripravila v r. 2022 návrh projektu aplikovaného výskumu s akronymom HITEXT v programe NAKI III. Projekt sa v r. 2022 posudzuje. Mimo toho problematiku riešime v rámci vzdelávania a v projekte študentskej grantovej súťaže v r. 2022.

19 Projekt Agentúry na podporu vedy a výskumu – APVV-19-NEWPROJECT-17816 (2020–2024). Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom systému automatickej transkripcie historických rukopisov [Innovative disclosure of written heritage of Slovakia through the automatic transcription of historical manuscripts].

20 KWS (The Keyword Spotting) je výkonný nástroj na vyhľadávanie, ktorý pomáha vyhľadať podobné obrazy slov v dokumentoch. Hlavnou výhodou je, že nie je potrebné, aby sa dokumenty definitívne transkribovali. Jednoducho spustí nejaký model transkripcie textu a potom je okamžite možné prehľadávať dokumenty. KWS spoľahlivo nájde slová a frázy (varianty obrazov textu). Tento nástroj ukáže, na ktorých stránkach bolo nájdené zadané kľúčové slovo, a zobrazí úryvok ukážky. Okrem toho poskytne obrázok medzi hodnotami 0 a 1 (0 = najnižšia a 1 = najvyššia), aby sa zhodnotila kvalita výsledkov hľadania.

21 Pamätám si, koľko úsilia a času musel v minulosti vynaložiť Pavol Vongrej na prepis 20 400 veršov rukopisného diela Matora Michala Miloslava Hodžu, či Viliam Sokolík na prepis časti korešpondencie medzi A. Kmeťom a V. Riznerom. V roku 1991 v spolupráci s Ing. Jánom Mišíkom skúsil som použiť systém rozpoznávania znakov na automatický prepis ručne písaných katalogizačných záznamov zo starého katalógu Slovenskej národnej knižnice (Matice slovenskej). V dôsledku toho bola účinnosť s platformou Transkribus som zverejnil v roku 2018 v jednom blogu a v statuse na Facebooku. Bol som prekvapený deklarovaným záujmom o túto prácu. Je to pochopiteľné, pretože mnohí historici, jazytranskripcie IRIS OCR približne 35/40 % a transkripcia bola nepoužiteľná. Signálnu informáciu o práci kovedci, knihovníci, pedagógovia sú čoraz vzdelanejší v používaní nových technológií vo svojej práci a chápu, že inovácie, ktoré im prácu uľahčia, sú dôležité.

22 WER – Word Error Rates

23 Statusy transkripcie sú: New (nový – stav pre novonahraté dokumenty), In: Progress (prebieha – automatická zmena stavu po úprave strany), Done (hotovo – stránka je prepísaná), Final (finálna verzia – stránka prepísaná a skontrolovaná), Ground Truth („základná pravda“ – 100 % správne prepísaná strana). Znamená to, že sa zaznamenáva práca s každou jednotlivou stranou a verzii strany sa môžu priradiť rôzne stavy v závislosti od toho, aký pokrok sa na nich už dosiahol.

24 Vynikajúcim znalcom písma je Petr Voit. V jeho prácach sú ukážky variant písma českých historických tlačí, ktoré je rozhodne potrebné preskúmať z hľadiska transkripcie.

25 Gotické písmo malo niekoľko druhov. Napríklad francúzska textúra s veľmi ostrým lomom a štíhlou stavbou, talianska širšia a okrúhlejšia rotunda s miernejším lomením oblúkov, zmiešané písmo – bastarda, v Nemecku švabach – písmo širších, oválnejších tvarov a fraktúra – písmo užších a špicatejších tvarov s ozdobnými úponkami. Vynálezom kníhtlače (v roku 1450 Johannom Gutenbergom) sa tento druh písma veľmi rozšíril najmä v nemecky hovoriacich krajinách.

26 Martin Lauček (* 12. máj 1732, Martin – † 9. február 1802, Skalica) bol slovenský evanjelický kňaz, prekladateľ a náboženský spisovateľ. Je autorom monumentálneho rukopisného diela Collectanea. Ide asi o 24 zväzkov a približne 20 000 strán. Svojim obsahom sú Collectanea neoceniteľným zdrojom poznatkov a informácií k dejinám evanjelickej cirkvi a prameňom k histórii protestantizmu. Našim cieľom je jednak zhromaždiť všetky dostupné zväzky a vytvoriť jednu virtuálnu verejne dostupnú digitálnu zbierku. Ďalej analyzovať texty a pokúsiť sa o ich automatickú transkripciu a zverejnenie pre všetkých.

KATUŠČÁK, Dušan. Umelá inteligencia pomáha sprístupňovať písomné dedičstvo. Knihovna: knihovnická revue. 2022, 33(2), 50–77. ISSN 1801-3252.

Doc. PhDr. Pavel Rankov, PhD.

Dušan Katuščák — 2020-12-30T22:00:00Z

Mimoriadne významný predstaviteľ odboru knižničná a informačná veda, vedec, vysokoškolský pedagóg, vynikajúci spisovateľ a člen redakčnej rady nášho časopisu Knihovna: knihovnická revue má 60 rokov.

Narodil sa 16. septembra 1964 v Poprade. Ku dňu 26. 5. 1987 ukončil štúdium štátnou záverečnou a rigoróznou skúškou v odbore vedecké informácie a knihovníctvo. Patrí medzi kľúčových pedagógov Filozofickej fakulty Univerzity Komenského v Bratislave na Katedre knižničnej a informačnej vedy. V roku 1996 skončil doktorandské štúdium (PhD.) a v roku 2007 obhájil habilitačnú prácu a stal sa docentom. V pedagogickej, vedeckej, výskumnej a vedecko-organizačnej práci sa venuje otázkam postavenia informačných inštitúcií v sociálnej komunikácii, metodológii výskumu v odbore, otázkam marketingu vydavateľskej činnosti, mediálnej, masmediálnej a literárnej komunikácii, populárnej kultúre, umeleckej literatúre v knižniciach, autorstvu a informačnej spoločnosti. Osobitne cenné a jedinečné sú jeho aktivity a zistenia v oblasti výskumov čítania, na ktorých sa významne podieľal v rámci výskumov Literárneho informačného centra v rokoch 2003–2008. Okrem toho bol aktívnym riešiteľom a spoluriešiteľom výskumných projektov, ktoré boli zamerané na informačné správanie, informačnú ekológiu a mediálne a informačné kompetencie.

V súčasnosti Pavol Rankov pôsobí na Univerzite Komenského v Bratislave na katedre, ktorá poskytuje akreditovaný bakalársky, magisterský a doktorandský stupeň vysokoškolského štúdia v kreditovom systéme hodnotenia. Na katedre je možné vykonať rigorózne skúšky a získať titul PhDr., ako aj pedagogickú spôsobilosť v doplňujúcom pedagogickom štúdiu. Okrem zabepečenia pedagogického procesu je katedra významným výskumným pracoviskom v odbore. Pavol Rankov pôsobil ako pedagóg na Slezskej univerzite v Opave a stále pestuje dobré vzťahy s českým odborným a literárnym životom a prostredím. (Pavel Rankov rovněž spolupracoval na přípravě Kompendia knihovnictví, jehož třetí díl právě vychází v MSVK v Ostravě. — pozn. red.).

Sme pyšní na to, že Pavol Rankov, ako pedagóg, náš skvelý, kolegami a študentmi veľmi obľúbený človek je popredný reprezentant nášho odboru. Pavol Rankov je, popri svojich odborných kvalitách, čo dokazuje jeho autorstvo vyše 60 monografií, desiatky odborných štúdií a článkov, aj vynikajúci spisovateľ.

Pavol Rankov patrí bezpochyby medzi najznámejšie mená súčasnej slovenskej literatúry. Jeho prvá kniha S odstupom času vyšla v roku 1995 a získala národnú Cenu Ivana Kraska. V tom čase sme boli na jednej katedre kolegovia. Čítal som túto jeho prvotinu, ktorá ma ohromila, pretože ukázala Paľka tak, ako som ho nepoznal. Ukázala jeho skvelý, tvorivý literárny talent a schopnosť vyrozprávať pútavý a kľukatý príbeh so zmyslom pre jemnú iróniu, nonsens a čierny humor s prekvapujúcim koncom. Vtedy som mal dokonca pocit, že čítam príbeh, ktorý sa ľahko mohol stať scenárom filmu...

Jeho najúspešnejší román Stalo sa prvého septembra získal v roku 2009 Cenu Európskej únie za literatúru a jeho poľský preklad získal v roku 2014 Cenu za stredoeurópsku literatúru ANGELUS. Kniha bola preložená aj do francúzštiny, angličtiny, taliančiny, nemčiny, bulharčiny, macedónčiny, rumunčiny, chorvátčiny a češtiny. Priznám sa, že nemám rád, keď sa spisovatelia „škatuľkujú“. Nevidí sa mi, keď o spisovateľskom prejave tzv. fantastického realizmu Pavla Rankova hovoria, že „je ako“ Borges, Cortázar, Grendel, Mitana. Je to skôr klasifikácia pre literárnych kritikov ako pre čitateľov. Každý z týchto tvorcov je jedinečný. A jedinečný je aj Pavol Rankov! Tvorí diela originálne vďaka svojmu talentu, obrazotvornosti, fantázii, poznatkom, intuícii a podáva ich jedinečným idiolektom. Literárny profil Pavla Rankova starostlivo dokumentuje Literárne centrum v Bratislave https://www.litcentrum.sk/autor/pavol-rankov/zivotopis-autora.

Medailón o literárnej tvorbe Pavla Rankova na webovej stránke Literárneho centra končí takýmto sumárnym hodnotením a konštatovaním dvoch epických polôh:

„Rankov poviedkár a Rankov tvorca románov. Toto delenie vykresľuje Rankova ako prozaika operujúceho s nevšednými postupmi. ... Rankov poviedkár rozpráva krátke, vtipné a nekomplikované príbehy, ktoré pokojne rezignujú na svoju ukotvenosť v malých domácich pomeroch. Jeho romány sa rozbiehajú do sveta, aby našli svoju pointu. Jemným posunom mimo schémy praxou neustále overovaných súvislostí ukazujú svet širší a zábavnejší, než je ten, ktorý zvykneme každodenne žiť. Čitateľ je svedkom pokusu o renesanciu príbehu, rozprávačstva. Je jedným z tých,... ktorí navracajú literárne rozprávačstvo k jeho prapôvodnému zmyslu – vábnymi, pôvabnými a vzrušujúcimi príbehmi, aké voňajú človečinou.“

Nášmu kolegovi želáme do nastávajúcich rokov dobré zdravie a ďalšie tvorivé úspechy.

Prof. PhDr. Dušan Katuščák, PhD.

KATUŠČÁK, Dušan. Doc. PhDr. Pavel Rankov, PhD. Knihovna: knihovnická revue. 2024, roč. 35, č. 2, s. 114–115. ISSN 1801-3252.

Jubilant prof. Dušan Katuščák

Foberová, Libuše — 2020-12-30T22:00:00Z

Stále věří, že slušnost a kompetentnost nakonec zvítězí...

Těžko bychom hledali na Slovensku lepšího předního organizátora slovenského knihovnického života. Dlouholetý generální ředitel Slovenské národní knihovny v Martině, knihovník – vizionář, bibliograf, literární vědec, vědec informatik a vysokoškolský pedagog, řešitel řady významných mezinárodních vědeckých projektů zaměřených zejména na problematiku digitalizace. Hlavní přínos jeho práce pro české a slovenské knihovnictví je především v jeho roli při modernizaci a digitalizaci knihovnických systémů.

Profesní život Dušana Katuščáka je velmi pestrý, do Matice slovenské nastoupil 1. srpna 1968. Dříve učil slovenský a francouzský jazyk. Věnoval se zejména Slovenské národní retrospektivní bibliografii. Bibliografie se stala jeho vášní svou hloubkou, přesností, korektností, objektivitou, mohutností a vědeckostí. Věnoval se vědecké knihovnické práci, řídil velké bibliografické systémy. Zajímal se o komprimaci bibliografického textu. Mezi jeho zájmy patří zejména jazykověda, velmi blízký mu je strukturalizmus. Preferoval literární komunikaci a věnoval se také teorii metatextů.

Celý svůj profesní život je orientován na národní knihovnicko-informační systém, v tom směru řešil státní výzkumné úkoly Strojové spracovanie slovenskej národnej bibliografie (SNB), Automatizovaný systém SNB. Jeho pohled na slovenskou situaci jasně definoval hlavní problémy tehdejšího knihovnického Slovenska v 70.– 80. letech 20. století. Upozornil na nízkou úroveň standardizace knihovnické práce (s ní souvisela např. multiplicita v katalogizační práci). Zapojil se do mezinárodního týmu a pracoval na bibliografickém formátu typu MARC, přeložil do slovenštiny formát UNIMARC, za což dostal cenu Mateje Bela. Později také přeložil formát MARC 21. Stál v čele odborníků, kteří budovali slovenskou informační společnost. Po revoluci 1989 usiloval o principy demokratizace a decentralizace knihovnicko-informačních programů a projektů, které ho přivedly k vizi a nakonec i k realizaci knihovnicko-informačního systému třetí generace na internetové bázi. Věnoval se digitalizaci archivů a knihoven, konzervování a ochraně knihovních fondů a v poslední době automatické transkripci rukopisů (digitalizace rukopisů pomocí umělé inteligence). Rozvíjel a podporoval obor dokumentologie. Byl mezinárodně činný a jeho myšlenkou bylo vytvořit pro slovenské knihovny jednotný knihovní software pro lepší spolupráci a zasíťování, nezanedbatelná by byla i finanční úspora. Za jeho působení byla Slovenská národní knihovna špičkovou institucí, zapojenou do řady evropských projektů a stala se tak jedním z pilířů budované Evropské knihovny.¹

Musíme zdůraznit dlouholetou a plodnou spolupráci Dušana Katuščáka s Maticí slovenskou.

Postavení Dušana Katuščáka na domácí i mezinárodní knihovnické scéně je zcela mimořádné. Byl předsedou Ústřední knihovnické rady Slovenské republiky, dlouholetým předsedou Spolku slovenských knihovníků, členem CENL, IFLA aj. Jeho jazykové vybavení a vynikající znalost dějin knihoven a knihovnictví na Slovensku a v České republice mu umožnily prosazovat různé koncepce i ve světě. Stojí za řadou významných projektů: Národná platforma knižničných informačných služieb SR novej generácie (NAKIS5G), Virtuálna knižnica Slovenska (VIKS), Digitálna knižnica a digitálny archív, Pamäť Slovenska – národné centrum excelentnosti výskumu, ochrany a sprístupňovania kultúrneho a vedeckého dedičstva, Adaptácia študijného programu mediamatika a kultúrne dedičstvo na potreby vedomostnej spoločnosti aj. Byl hodnotitelem pro Evropskou komisi, což dokládá jeho vliv na směřování evropské vědy v oblasti kulturního dědictví.

Velmi cenná je i jeho pedagogická práce. Byl vedoucím katedry knihovnických a informačních věd na Univerzitě Komenského v Bratislavě. Dušan Katuščák dosud působí jako profesor na Ústavu bohemistiky a knihovnictví Filozoficko-přírodovědecké fakulty Slezské univerzity v Opavě a velmi se zasloužil o kurikulum knihovnictví a informační vědy v Opavě. Jeho působení zde je zcela mimořádné a pro obor knihovnictví nepostradatelné. Studenti i kolegové si ho velmi váží, je pro ně zdrojem optimismu, erudovanosti a nadhledu, nedostižným vzorem.

Prof. Dušan Katuščák je autorem přibližně 300 odborných a popularizačních publikací a stovky článků v odborném knihovnickém tisku. Vydal řadu příruček a učebních textů, např. teoreticko-encyklopedickou příručku Informačná výchova (1998), publikace Ako písať vysokoškolské a kvalifikačné práce (1998) a Akademická príručka (2005; v roce 2006 byla vydána také v češtině). Zpracoval metodiku citování a psaní prací: Jak psát závěrečné a kvalifikační práce (se spoluautory, 2008), která je dodnes velmi ceněna a studenty využívána. Sepsal teoretické základy oboru Propedeutika knihovnictví (v publikaci Kompendium knihovnictví I., 2022). Je spoluautorem renomovaných odborných monografií, uveďme např. práce Bibliografická komunikácia: Výmena bibliografických údajov (1994), Knižničná a informačná veda na prahu informačnej spoločnosti: filozofický, systémový a historický pohľad (2000). D. Katuščák stojí za myšlenkou publikovat v Opavě kvalitní knihovnickou literaturu, mimo jiné např. Kompendium knihovnictví, které vydává Moravskoslezská vědecká knihovna v Ostravě ve spolupráci s Ústavem bohemistiky a knihovnictví Slezské univerzity v Opavě; v roce 2025 vyšel již čtvrtý díl. Letos se chystá k vydání pátý díl kompendia. O tyto knihovnické odborné publikace je velký zájem v celé České republice.

Dušan Katuščák založil na Žilinské univerzitě nový obor dokumentace kulturního dědictví na Katedře mediamatiky a kulturního dědictví na Fakultě humanitních věd (po transformaci fakulty katedra funguje od 1. září 2025 jako Ústav mediamatiky a kultúrneho dedičstva)². Studenti nového oboru část studia absolvovali přímo v reálném prostředí Slovenské národní knihovny.

Za svou plodnou dlouholetou práci získal řadu ocenění:

Cenu mezinárodní konference ITAPA za novou národní informační službu (KIS3G, portál Slovenská knižnica)³ – 2006,
Cenu maďarského ministra kultury za mezinárodní projekt o knižní kultuře Modrá krv – tlačiarenská čerň⁴ – 2006,
Cenu města Martin – 2007,
dále řadu ocenění, pamětních listů a medailí slovenských a zahraničních institucí.

Přejeme prof. PhDr. Dušanovi Katuščákovi, PhD., narozenému 4. 2. 1946, při jeho životním jubileu, aby se splnila všechna jeho přání a tužby a aby mu vydržela jeho obrovská energie při budování znalostní společnosti na Slovensku i v Česku. Přejeme mu hodně zdraví, štěstí a lásky a spokojenost v osobním i pracovním životě. Jeho dílo je úctyhodné – nedá se ani vypovědět, co vše vykonal pro rozvoj a prospěch slovenského a českého knihovnictví. Moc si přejeme, aby ve svém díle ještě léta pokračoval, a těšíme se na další spolupráci.

PhDr. Libuše Foberová, Ph.D.

Poznámky

1 https://theeuropeanlibrary.org/

2 Viz zde: https://www.uniza.sk/index.php/zamestnanci/vseobecne-informacie/oznamy/5955-ukoncenie-cinnostifakulty- humanitnych-vied-a-vytvorenie-ustavu-mediamatiky-a-kulturneho-dedicstva

3 Viz zde: https://www.kis3g.sk/

4 Viz zde: https://www.litcentrum.sk/recenzia/modra-krv-tlaciarenska-cern-zostavila-klara-komorova-medzinarodnyprojekt- o-kniznej-kulture

FOBEROVÁ, Libuše. Jubilant Prof. Dušan Katuščák. Knihovna: knihovnická revue. 2026, roč. 37, č. 1, s. 82-84. ISSN 1802-3252.

K životnímu jubileu profesorky Jely Steinerovej

Jaroslav Šušol — 2020-12-30T22:00:00Z

susol

Prof. PhDr. Jaroslav Šušol, PhD. / Katedra knižničnej a informačnej vedy, Filozofická fakulta, Univerzita Komenského v Bratislave (Department of Library and Information Science, Faculty of Arts, Comenius University Bratislava), Gondova 2, 811 02 Bratislava, Slovensko

Na začiatku leta, v období zdanlivého upokojovania pohybu na univerzitnej pôde, si pripomenula svoje okrúhle životné jubileum profesorka Jela Steinerová, jedna z najvýznamnejších osobností súčasnej éry rozvoja informačnej vedy na Slovensku. Jej odborné výskumné a pedagogické zameranie sa za obdobie cca 40 rokov neustále vyvíjalo a pokrylo také rozmanité témy informačnej teórie a praxe ako informačný prieskum, informačné produkty, relevancia, semiotické a kognitívne základy informačných procesov, teória informačnej vedy, informačné správanie človeka, informačná gramotnosť, informačná ekológia, digitálna veda či informačná etika.

Jela Steinerová sa narodila v roku 1961 v Lučenci v rodine literárneho vedca Pavla Vongreja. Vyrastala v Martine a gymnázium ukončila v Bratislave. Vysokoškolské štúdium absolvovala v roku 1983 na Univerzite Komenského v Bratislave, na vtedajšej Katedre knihovníctva a vedeckých informácií Filozofickej fakulty (KKVI FiF UK). Študijný odbor sa vtedy nazýval rovnako ako katedra, teda knihovníctvo a vedecké informácie, realizoval sa v dvoch paralelných smeroch, vedecko-informačnom a knižnično-informačnom, a významným špecifikom bolo, že jeho súčasťou bolo aj rozšírené trojročné štúdium cudzieho jazyka. V prípade Jely Steinerovej išlo o angličtinu, a práve jej záujem o jazyky bol zrejme jedným z momentov, ktorý do určitej miery predurčil jej postupné smerovanie k bohatému cudzojazyčnému publikovaniu a schopnosti zapájať sa do medzinárodných projektov. Za zmienku stojí aj fakt, že už počas študentských rokov sa intenzívne a úspešne zúčastňovala výskumných aktivít na platforme študentskej vedeckej a odbornej činnosti (ŠVOČ) a už tu sa prejavovala jej inklinácia k teoretickým výskumným témam. V roku 1982 zvíťazila v katedrovom kole ŠVOČ s prácou K otázkam semiotickej podstaty komunikačných prostriedkov v informatike a následne rovnako uspela aj na celoštátnom kole súťaže v Olomouci. O rok neskôr do súťaže odovzdala prácu K problémom komunikačného systému poznania v spoločnosti a opäť zvíťazila v katedrovom i celoštátnom kole ŠVOČ v Brne.

Po skončení štúdia na bratislavskej katedre sa zamestnala na pozícii informačného pracovníka v Ústrednej knižnici Matematicko-fyzikálnej fakulty UK v Bratislave, neskôr ako metodička na pôde Slovenskej národnej knižnice – Matice slovenskej v Bratislave a od roku 1988 pôsobila v Slovenskej technickej knižnici (dnes CVTI SR) ako výskumná pracovníčka. V roku 1992 nastúpila na miesto odbornej asistentky na Katedre knižničnej a informačnej vedy (KKIV) FiF UK v Bratislave, s ktorou je jej pracovný život spojený dodnes. Tu v roku 1992 ukončila vedeckú prípravu a získala titul CSc./PhD. v odbore pomocné vedy historické (dizertačná práca mala názov Problémy reprezentácie poznania v transformáciách informačného systému), v roku 1997 sa habilitovala s prácou Teória informačného prieskumu a získala titul docent. V roku 2010 jej bol po inauguračnom konaní udelený titul profesor v odbore knižnično-informačné štúdiá.

Vo svojej vedecko-výskumnej činnosti sa Jela Steinerová opiera o bohaté zahraničné inšpirácie i originálne myšlienky, prejavuje sa u nej schopnosť generovať a tvorivo rozvíjať nové koncepty a modely. V mnohých prípadoch je iniciátorom, hnacím motorom i koordinátorom výskumných projektov realizovaných v prostredí katedry. Ide o projekty, ktoré boli a sú podporované najmä z prostriedkov hlavných slovenských grantových agentúr ako je VEGA, KEGA a APVV, ale aj projektov medzinárodnej úrovne. Spomenúť môžeme napríklad praktickejšie a na vzdelávanie zamerané projekty ako Integrovaný knižnično-informačný systém (IKIS) ešte z obdobia 80. rokov 20. storočia, Nová paradigma knižničnej a informačnej vedy a úloha knižníc v informačnej spoločnosti v multikultúrnej strednej Európe alebo Rekvalifikácia knižničných a informačných profesionálov pre informačnú spoločnosť. Z tých relatívne novších výskumných tém treba uviesť najmä Využívanie informácií pri informačnom správaní vo vzdelávaní a vede, Informačná ekológia akademického informačného prostredia alebo Modelovanie informačného prostredia digitálnej vedy. Dva rozsiahlejšie a výraznejšie interdisciplinárne orientované výskumné projekty sa riešili v spolupráci s Fakultou informatiky a informačných technológií Slovenskej technickej univerzity v uplynulom desaťročí, konkrétne Kognitívne cestovanie po svete webu (Tra-Di-Ce) a Human Information Behavior in the Electronic Environment / Informačné správanie človeka v digitálnom prostredí (HIBER). Vyjadrením ocenenia vedeckej erudície profesorky Steinerovej je aj skutočnosť, že pôsobila jedno funkčné obdobie ako členka rady najvýznamnejšej grantovej agentúry, APVV, pre oblasť spoločenských vied.

V súčasnosti je Jela Steinerová hlavnou riešiteľkou projektu Sociálne reprezentácie etických výziev digitálnej informačnej revolúcie, na ktorom participujú všetci pracovníci KKIV. Projekt sa zameriava na výskum sociálnych, etických a hodnotových zmien, ktoré spôsobujú digitálne technológie pri informačnom správaní vybraných komunít používateľov informácií, najmä vedcov, študentov a autorov. Využívajú sa inovatívne kvalitatívne aj kvantitatívne sociálnovedné metódy, pričom etické výzvy sa skúmajú ako sociokultúrne praktiky pri tvorbe aj využívaní informácií. Poznatky sa aplikujú v modeloch informačného správania, digitálnej gramotnosti a dizajne digitálnych knižníc.

Je pochopiteľné, že výsledky výskumných aktivít sa premietajú aj do vzdelávacej činnosti profesorky Steinerovej. Dlhodobo zabezpečuje výučbu takých predmetov a tém ako teória informačnej vedy, informačné správanie, informačná etika, manažment znalostí, tvorba informačných produktov. Na doktorandskom štúdiu vedie seminár venovaný metodológii výskumu v knižničnej a informačnej vede. Okrem toho má na starosti viaceré organizačné funkcie spojené so štúdiom na katedre. Je garantkou a spolugarantkou študijných programov informačné štúdiá (1. a 2. stupeň) a knižničná a informačná veda (3. stupeň), predsedníčkou komisie pre štátne záverečné skúšky, predsedníčkou komisie pre rigorózne konanie. Zásadným spôsobom sa podieľa na vývoji a implementácii študijných programov. V rokoch 2016–2020 sa zhostila aj manažérskej pozície a pôsobila vo funkcii vedúcej katedry. Viedla desiatky diplomových a rigoróznych prác, vyškolila 11 doktorandov a v súčasnosti vedie dvoch doktorandov v dennej forme štúdia programu knižničná a informačná veda.

Ako som už naznačil, povšimnutiahodné je zapojenie Steinerovej do aktivít v medzinárodných projektoch, organizáciách a grémiách. Okrem účasti vo viacerých medzinárodných výskumných tímoch (napr. DELOS – projekt medzinárodnej európskej spolupráce v oblasti digitálnych knižníc) bola členkou expertnej komisie Open Society Foundation (Open Library Program), členkou expertnej rady ICIMSS (Medzinárodného centra pre informačný manažment) v Toruni (Poľsko), členkou medzinárodnej siete expertov v informačnej vede ENWI (European Network on Workplace Information), pravidelne pracuje ako členka programových výborov a recenzentka medzinárodných konferencií (ECDL, CASLIN, ELAG, ECIL, CoLIS). Počas svojej profesionálnej kariéry absolvovala viaceré študijné pobyty v zahraničných akademických i odborných inštitúciách, napríklad Oxford University (Spojené kráľovstvo), Kongresová knižnica vo Washingtone (USA), Robert Gordon University v Aberdeene (Spojené kráľovstvo), Université Libre de Bruxelles (Belgicko), Univerzita M. Kopernika, Toruň (Poľsko), Karlova univerzita, Praha. Prednášala na medzinárodných konferenciách vo Washingtone, Krakove, Varšave, Amsterdame, Kolíne, Zűrichu, Talline, Trondheime, Viedni, Dubrovníku, Charlotte, Åbo/Turku, Istanbule, Leedsi a v množstve ďalších miest.

Steinerovej väzbu na prax dokumentuje aj to, že dlhé roky bola členkou normalizačnej komisie TK-69 v odbore dokumentácia, členkou The European Library Advisory Board a členkou Ústrednej knižničnej rady pri Ministerstve kultúry SR. Je tiež členkou viacerých redakčných rád časopisov a zborníkov doma i v zahraničí (Bulletin CVTI – ITLib, časopisy Knižnica, Information Research, Mousaion, ProInFlow) a dlhé roky zanietene pôsobí ako predsedníčka redakčnej rady zborníka Knižničná a informačná veda, ktorý vychádza pri KKIV a patrí k významným publikačným kanálom informačnej teórie na Slovensku. Súčasťou jej odborných a organizačných aktivít je príprava koncepcie a dlhodobá organizácia medzinárodného seminára Informačné interakcie, ktorý sa od roku 2011 každý druhý rok koná v Bratislave a na ktorom sa okrem doktorandov zúčastňujú aj odborníci zo zahraničia prezentujúci aktuálne témy výskumu v informačnej vede.

Najhmatateľnejším výsledkom práce vedecko-výskumného pracovníka sú publikačné výstupy. Jela Steinerová ich má v súčasnosti (september 2021) v databáze Univerzity Komenského registrovaných vyše 200. Dominujú medzi nimi štyri monografie a dve vysokoškolské učebnice sumarizujúce stav poznania v príslušnej oblasti informačnej vedy, ale tiež štúdie publikované v časopisoch (45, z toho 30 v zahraničí) a na konferenciách (48, z toho 26 v zahraničí), ktoré zväčša prezentujú výsledky aktuálnych výskumov. Medzi najvýznamnejšie výstupy možno zaradiť tie, v ktorých autorka definuje základné princípy výskumu informačného správania a s ohľadom na rozvíjanie interdisciplinárnej spolupráce s informatikou a psychológiou tak zakladá samostatnú školu informačného správania. Druhú význačnú skupinu výstupov tvoria publikácie zamerané na empirické aj teoretické rozpracovanie témy informačnej ekológie, resp. informačných ekológií, najmä v podobe trojrozmerného modelu so sémantickým, behaviorálnym a vizuálnym/kognitívnym rozmerom, vrátane ich aplikácie do akademického informačného prostredia. Tretia oblasť výstupov sa orientuje na tému informačnej gramotnosti v nových kontextoch – tvorivosti, informačnej ekológie, informačnej etiky. Do tejto skupiny patrí aj najcitovanejšia medzinárodná práca autorky, Ecological dimensions of information literacy, ktorá bola publikovaná v časopise Information Research v roku 2010.

Na slovenských vysokých školách sa v tomto období roztáča nové kolo akreditačných procesov a už v priebehu letných mesiacov sme viacerí na katedre, vrátane profesorky Steinerovej, pripravovali podklady na to, aby sme úspešne obhájili pozíciu Katedry knižničnej a informačnej vedy FiF UK v Bratislave v systéme prípravy informačných profesionálov. K úspešnému zvládnutiu týchto úloh, k zdarnému postupu pri riešení aktuálneho výskumného projektu venovaného otázkam etických súvislostí digitálnej doby, ale aj k zvládaniu ďalších odborných výziev želáme Jele Steinerovej veľa síl, inšpirácie, entuziazmu a v osobnom živote veľa zdravia a spokojnosti!

Výber najvýznamnejších publikácií (radené chronologicky):

STEINEROVÁ, J. Teória informačného prieskumu. Bratislava: SlTK – Centrum VTI SR, 1996. 262 s. ISBN 80-85165-58-9.

KIMLIČKA, Š., J. STEINEROVÁ, G. ŽIBRITOVÁ a D. KATUŠČÁK. Knižničná a informačná veda na prahu informačnej spoločnosti: filozofický, systémový a historický pohľad. Bratislava: Stimul, 2000. 137 s. ISBN 80-88982-29-4.

STEINEROVÁ, J. Human issues of library and information work. Information research. 2001, 6(2), 1–8.

STEINEROVÁ, J. Information science research agenda in Slovakia: history and emerging vision. Journal of the American society for information science and technology. 2003, 54(1), 81–86.

STEINEROVÁ, J. et al, 2004. Správa o empirickom prieskume používateľov knižníc ako súčasť grantovej úlohy VEGA 1/9236/02 Interakcia človeka s informačným prostredím v informačnej spoločnosti. Bratislava: Filozofická fakulta UK, KKIV, 2004. 113 s.

STEINEROVÁ, J. a J. ŠUŠOL. Library users in human information behaviour. Online information review. 2005, 29(2), 139–156.

STEINEROVÁ, J. Informačné správanie: pohľady informačnej vedy. Bratislava: Centrum VTI SR, 2005. 189 s. ISBN 80-85165-90-2.

STEINEROVÁ, J. a J. ŠUŠOL. Users’ information behaviour: a gender perspective. Information research. 2007, 12(3), 1–16.

STEINEROVÁ, J. Relevance assessment for digital libraries. Mousaion. 2007, 25(2), 37–55.

STEINEROVÁ, J., M. GREŠKOVÁ a J. ŠUŠOL, 2007. Prieskum relevancie informácií: výsledky analýz rozhovorov s doktorandmi FiFUK. Bratislava: CVTI SR, 2007. 150 s.
ISBN 978-80-85165-93-7.

STEINEROVÁ, J. Seeking relevance in the academic information use. Information research. 2008, 13(4), 1–11.

STEINEROVÁ, J., M. GREŠKOVÁ a J. ILAVSKÁ. Informačné stratégie v elektronickom prostredí. Bratislava: Univerzita Komenského, 2010. 192 s. ISBN 978-80-223-2848-7.

STEINEROVÁ, J. Ecological dimensions of information literacy. Information research. 2010, 15(4), 1–14.

STEINEROVÁ, J. et al, 2012. Informačná ekológia akademického informačného prostredia. Bratislava: Univerzita Komenského, 2012. 96 s. ISBN 978-80-223-3178-4.

STEINEROVÁ, J., G. WIDÉN a P. WOISEY. Conceptual modelling of workplace information practices: a literature review. Information research. 2014, 19(4), nestr.

STEINEROVÁ, J. Informačné prostredie a vedecká komunikácia: Informačné ekológie. Bratislava: Univerzita Komenského, 2018. 229 s. ISBN 978-80-223-4445-6.

STEINEROVÁ, J. a M. ONDRIŠOVÁ. Informačná veda. Výkladový slovník. Autori: Jela Steinerová, Jaroslav Šušol, Pavol Rankov, Lucia Lichnerová, Ľudmila Hrdináková, Miriam Ondrišová, Marta Špániová, Katarína Buzová, Andrea Hrčková. Bratislava: Univerzita Komenského, 2020. 278 s. ISBN 978-80-223-4866-9.

ŠUŠOL, Jaroslav. K životnému jubileu profesorky Jely Steinerovej. Knihovna: knihovnická revue. 2021, 32(2), s. 89–92. ISSN 1801-3252.

Cesta ku kvalitatívnemu vyjadreniu tvorivého podielu osôb vo vede a výskume prostredníctvom implementácie taxonómie CRediT

Dušan Katuščák — 2020-12-30T22:00:00Z

katuscak

Klíčová slova: vedecká komunikácia, vedecké publikovanie, roly autorov, taxonómia CRediT, bibliografická evidencia, vedecké a odborné diela

Summary: Various attributes (roles) of authors are used in scientific and academic communication and practice, in scientific and professional publishing of scientific and professional works, in publishing practice, as well as in the agenda of registration of publishing activities. The attributes used so far have not been standardized and unsatisfactorily expressed the qualitative aspects of the author‘s share in the work. The author explains the meaning of the standard taxonomy of CRediT. In scientific communication and in the records of publications in academic institutions, it is recommended to use, in addition to local attributes in the names of authors and contributors, exclusively de iure standard and international codebooks and de facto the most widespread codes and taxonomies. These are: CRediT taxonomy elements and MARC 21 role codes.

Keywords: scientific communication, scientific publishing, roles of authors, taxonomy of CRediT, bibliographic records, scientific and professional works

Prof. PhDr. Dušan Katuščák, PhD. / Slezská univerzita. Filozoficko-pří-rodovědecká fakulta v Opavě, Ústav bohemistiky a knihovnictví (Sile-sian University. Faculty of Arts and Sciences in Opava, Department of Czech Studies and Librarianship), Masarykova třída 343/34, 746 01 Opava Štátna vedecká knižnica v Banskej Bystrici (State Scientific Library in Banská Bystrica), Lazovná 240/9, 975 58 Banská Bystrica, Slovensko

Úvod

Vedecké a výskumné inštitúcie a vysoké školy sú korporácie, ktoré vytvárajú systém vedeckej komunikácie. Hlavnými prvkami všeobecného modelu vedeckej komunikácie sú: a) expedient ako tvorivý subjekt, b) dielo, c) percipient. Podstatou vedeckej komunikácie je tvorba vedeckých výstupov, teda diel, v ktorých sú zaznamenané informácie a poznatky z výskumu. Vo vedeckej komunikácii sú ustálené štandardné základné požiadavky, ktoré sa týkajú kvalitatívnej stránky, teda kvalitatívnych atribútov vedeckých diel. Tieto požiadavky sú definované napríklad v manuáli OECD Frascati¹. Podľa pravidiel FRASCATI OECD (kap. 2.7, s. 45) vedecká činnosť musí byť: a) novátorská, b) kreatívna, c) s prvkami neurčitosti, d) systematická, e) prenosná a/alebo reprodukovateľná.

Kvalita diel a kvalita autorov

Vedecká úroveň konkrétnych diel, napríklad článkov a monografií, sa pri publikovaných výstupoch posudzuje v procese recenzovania (peer review). Recenzenti posudzujú kvalitu príspevkov, ktoré sú predložené na vydanie z hľadiska novosti, kreatívnosti atď.

V dokumentových informačných systémoch a pri správe databáz pracujú informační špecialisti spravidla s dokumentami, teda s dielami, ktoré sú vedeckými a odbornými výstupmi jednak vedeckej a jednak vydavateľskej činnosti. Informační špecialisti na rozdiel od vedcov pristupujú k vydaným dielam ako k hotovým produktom a spravidla neposudzujú diela z hľadiska ich kvality.

V informačných systémoch a databázach sa diela pomenúvajú a organizujú formálne a všeobecne podľa druhov, typov a žánrov bez ohľadu na ich kvalitu. Formálne pomenovanie druhov, typov a žánrov diel nevyjadruje kvalitu vedeckej tvorby.

Štandardný termín autor označuje entitu, ktorou je fyzická alebo právnická osoba, ako napríklad autor, ale aj zostavovateľ, skladateľ, režisér, maliar a pod. Môže ňou byť spoluautor, prekladateľ, ilustrátor, upravovateľ, aranžér, anotátor, umelec, rozprávač, dirigent, interpret, rytec, tlačiar, vydavateľ, darca a pod. Inak povedané, môže ísť o subjekty, ktorých funkcie a relačné kódy sú taxatívne vymenované napríklad v manuáli MARC 21.
Expedient je subjekt, ktorý má intelektuálnu zodpovednosť za dielo. V praxi sa tento subjekt zahŕňa do údajov o zodpovednosti. Termínom „autor“ sa rozumie „meno (mená) alebo výraz (výrazy), ktoré sa vzťahujú na identifikáciu alebo funkciu všetkých osôb alebo korporácií, ktoré sú zodpovedné za vytvorenie umeleckého alebo intelektuálneho obsahu popisovaného diela alebo za jeho realizáciu” (ISO 5127:1981)².

Zatiaľ čo vo vedeckej komunikácii sa kvalita diel posudzuje vo vydavateľskom procese prostredníctvom recenzovania, tak kvalitatívny prínos autorov, teda tých prvkov vedeckej komunikácie, ktoré sú tvorivými subjektmi komunikácie (vedec, výskumník, autor projektu ai.), nie je zatiaľ dostatočne ustálený a štandardizovaný.

V tradičných bibliografických záznamoch o dielach sa pri menách autorov uvádzajú rozličné atribúty, značky, skratky, ktoré majú vyjadrovať podiel osôb na tvorbe diela. Niekedy sa využíva formálne kvantitatívne percentuálne vyjadrenie podielu osôb, prípadne sa „dôležitosť“ subjektov vyjadruje poradím mien alebo iným spôsobom. Zo samotného tradičného zoznamu „autorov“ diela nebýva jasné, kto je autor myšlienky, kto je bežný výskumník, kto je autor ilustrácií, realizátor čiastkových experimentov, programátor, editor a pod. Všetky subjekty potom majú zdanlivo rovnakú váhu a dôležitosť a každý subjekt si napríklad môže vykazovať dané dielo ako svoje vlastné bez toho, aby sa nejako štandardne, objektívne a konsenzuálne vyjadril jeho špecifický kvalitatívny podiel.

V roku 2012 sa v Harvarde uskutočnilo prvé pracovné stretnutie s cieľom pripraviť novú taxonómiu, ktorú by mohli štandardne používať viacerí vydavatelia vedeckých a odborných príspevkov. Bola vytvorená taxonómia CRediT, ktorá obsahuje 14 termínov a ich popisov a v roku 2015 bola zverejnená v slovníku CASRAI (Research Data Mana-
gement Glossary)³, ⁴.

Taxonómia CRediT sa u nás zatiaľ vo vedeckej praxi nevyužíva. Navrhujeme túto situáciu zmeniť a zvážiť možnosti jej používania vo vydavateľskej a akademickej praxi najmä v systémoch evidencie publikačnej činnosti, v systémoch akreditácií a v hodnotení kvality výstupov a učiteľov na vysokých školách.

Pre akademikov a vydavateľov

CRediT (Contributor Roles Taxonomy) je štandardná taxonómia⁵ NISO na najvyššej úrovni širšie dostupná od roku 2020. Obsahuje 14 rolí, ktoré možno použiť na reprezentáciu rolí entít, ktorými sú zvyčajne osoby, prispievatelia resp. subjekty, ktoré sa podieľajú na vedeckej práci a na výstupoch z výskumu. Roly opisujú špecifický „kvalitatívny“ príspevok každého prispievateľa k vedeckému výstupu.

Implementácia štandardnej taxonómie podľa kódovníka CRediT ⁶ spočíva v tom, že výskumné inštitúcie by mali prideľovať roly z kódovníka tým subjektom, ktoré sa podieľajú na výskume a na publikovaní výsledkov výskumu.

Význam taxonómie

Od roku 2014 sa prijíma taxonómia prispievateľov, teda Taxonómia rolí prispievateľov, vo veľkej miere v akademickej i vydavateľskej sfére s cieľom zlepšiť prístupnosť a viditeľnosť škály príspevkov k uverejneným výstupom výskumu. Použitie taxonómie prináša množstvo dôležitých a praktických prínosov pre výskumný ekosystém v širšom zmysle. Taxonómia CRediT, ktorá sa vzťahuje na tvorivé subjekty vedeckej komunikácie, prináša určité konkrétne benefity pre vedeckú a akademickú komunitu, hlavne tým, že:

• Pomáha znižovať potenciál autorských sporov, pretože transparentne od začiatku výskumu definuje rolu osoby na výskume a publikovaní.

• Umožňuje určiť skutočný podiel osôb vo výskumnom tíme na projekte výskumu už pri tvorbe žiadosti o grant.

• Podporuje dodržiavanie autorských publikačných procesov a politík.

• Umožňuje zviditeľnenia a uznania rôznych príspevkov výskumných pracovníkov, najmä v dielach s viacerými autormi – vo všetkých aspektoch výskumu; slovom všade, kde sa uvádzajú mená autorov (vrátane analýzy údajov, štatistickej analýzy atď.).

• Podporuje recenzný proces, pretože poskytuje recenzentom informácie o osobitných odborných znalostiach osôb, ktoré sú uvedené ako prispievatelia (napríklad pri recenzovaní článku alebo monografie pred vydaním).

• Podporuje poskytovanie grantov tým, že sa financujúcim osobám umožní ľahšie identifikovať osoby zodpovedné za konkrétne výskumné produkty, vývoj alebo inovácie.

• Zlepšuje schopnosť sledovať výstupy a príspevky jednotlivých výskumných špecialistov a príjemcov grantov.

• Umožňuje jednoduchú identifikáciu potenciálnych spolupracovníkov a príležitostí na vytváranie výskumných sietí.

• Slúži ako informácia vo „vede o vede“ (v „meta-výskume“) s cieľom pomôcť zvýšiť vedeckú efektívnosť.

• Eliminuje autorské mystifikácie a presnejšie špecifikuje roly prispievateľov v štatistických výkazoch a vedecko-pedagogických charakteristikách osôb.

Nomenklatúrna taxonómia CRediT by sa mala nachádzať na všetkých publikáciách, ktoré akademická alebo iná výskumná inštitúcia zverejňuje.

Roly podľa taxonómie CRediT je možné prideľovať manuálne alebo pomocou nástrojov vydavateľského systému, v ktorom je integrovaný systém CRediT. Prakticky to znamená, že v používanom vydavateľskom systéme existuje funkcionalita, ktorá umožní vybrať a prideliť príslušné roly CRediT k menám autorov (prispievateľov).

Implikácie pre prax

V knihovníctve a bibliografii sú u nás dostatočne známe a používané kódy podľa kódovníka, ktorý je súčasťou bibliografického formátu MARC 21. Ide o kódovník desiatok rolí autorov, respektíve rolí entít, ktoré majú intelektuálnu zodpovednosť za dielo (článok, monografiu a pod.).

Roly v agende CREPČ na Slovensku

V agende CREPČ (Centrálny register evidencie publikačnej činnosti) sa používajú roly (atribúty) osoby, ktoré označujú pracovné zaradenie autora (napríklad asistent, docent, profesor a pod.), a nie jeho podiel na konkrétnom výskume alebo diele. V manuáli CREPČ⁷ v podkapitole 7.3.3 Okruhy zodpovednosti a role sa používajú na klasifikáciu rolí „autorov“ len formálne bibliografické atribúty, ktoré však de facto nevyjadrujú kvalitatívny podiel osoby na tvorbe diela.

„Každá osoba pridaná do záznamu musí byť zaradená v určitej role. Role sú rozdelené do jednotlivých, od seba nezávislých okruhov:

• Autorský okruh (rola Autor, Kritický editor, Korešpondenčný autor, Autor komentárov, sprievodného materiálu, Autor úvodu, Autor doslovu, Autor interview, Autor účastník interview, Autor fotografií, Autor ilustrácií, grafiky, Autor hudby, Autor mapy (kartograf), Autor programu, zdrojového kódu (programátor)),
• Prekladateľský okruh (rola Prekladateľ),

• Zostavovateľský okruh (rola Zostavovateľ, editor),

• Školiteľský okruh (rola Školiteľ),

• Recenzentský okruh (rola Recenzent).“

V časti 7.3.4 Percentuálne podiely v manuáli CREPČ sa spresňuje povinnosť uvádzať, ktorý „autor“ má aký percentuálny podiel na diele. Dokonca aj pri počte viac ako 25 „autorov“.

„Percentuálne podiely sa počítajú v rámci každého okruhu zodpovednosti zvlášť, okrem recenzentského a školiteľského okruhu, kde nie je možné percentuálne podiely prideľovať. V rámci každého okruhu zodpovednosti musí byť súčet percent za všetky osoby rovný 100 nezávisle od ich pracoviska. Pri nesprávnom súčte percentuálnych podielov sa zobrazí chybové hlásenie.
Percentuálne podiely sa uvádzajú pri všetkých kategóriách EPC v zmysle Vyhlášky.“

Praktický význam využitia percentuálneho určenia „autorstva“ je neznámy a navrhujeme od neho upustiť a zrušiť príslušné ustanovenie vo Vyhláške.

Roly v taxonómii CRediT⁸

Roly prispievateľov sú definované tak, aby vyjadrovali skutočný a špecifický podiel prispievateľov a výskumníkov na výskume a na publikácii výsledkov výskumu.

Konceptualizácia – rolu použijeme pri osobe, prispievateľovi, ktorý formuloval, vyjadril a zaznamenal nápady, víziu, formuloval predmet, témy, je pôvodcom zamerania výskumu alebo projektu a ktorý je osobou uvedenou ako autor publikácie. Rola vyjadruje fakt, že daná osoba vymyslela a použila jasné a stručné definície. Konceptualizácia znamená, že osoba je tvorcom konceptu diela a dielo pochádza z koncepčných myšlienok výskumného pracovníka alebo z informačného prieskumu. Konceptualizácia premieňa výskumné nápady na verejné. Tento proces nakoniec vedie k vytvoreniu zmysluplných konceptov, ktoré v konečnom dôsledku vedú k vytvoreniu vedeckej teórie.

ID: 8b73531f-db56-4914-9502-4cc4d4d8ed73

Kurátorstvo dát – rola vyjadruje činnosti správy dát, spracovanie údajov, zapisovanie poznámok (vytvorenie metaúdajov), čistenie a udržiavanie výskumných údajov (vrátane softvérového kódu, ak je to potrebné na interpretáciu samotných údajov) na počiatočné použitie a neskoršie opätovné použitie.

ID: f93e0f44-f2a4-4ea1-824a-4e0853b05c9d

Formálna analýza – rola znamená, že autor prispel aplikáciou štatistických, matematických, výpočtových alebo iných formálnych techník na analýzu alebo syntézu údajov.

ID: 95394cbd-4dc8-4735-b589-7e5f9e622b3f

Získavanie financií – rola označuje osobu, ktorá sa postarala o získanie finančných prostriedkov – napr. získanie finančnej podpory pre projekt vedúci k publikácii.

ID: 34ff6d68-132f-4438-a1f4-fba61ccf364a

Výskum – rola sa pridelí osobe, ktorá vykonávala výskum, konkrétne napríklad experimenty alebo zber údajov či dôkazov.

ID: 2451924d-425e-4778-9f4c-36c848ca70c2

Metodológia – rola sa pridelí osobe, ktorá sa na diele zúčastnila tak, že navrhla metodiky; vytvárala modely ap.

ID: f21e2be9-4e38-4ab7-8691-d6f72d5d5843

Manažment projektu – zodpovednosť za administráciu, riadenie a koordináciu plánovania a realizácie výskumnej činnosti.

ID: a693fe76-ea33-49ad-9dcc-5e4f3ac5f938

Zdroje – poskytovanie študijných materiálov, reagencií, materiálov, pacientov, laboratórnych vzoriek, zvierat, prístrojov, výpočtových zdrojov alebo iných analytických nástrojov.

ID: ebd781f0-bf79-492c-ac21-b31b9c3c990c

Softvér – programovanie, vývoj softvéru; navrhovanie počítačových programov; implementácia počítačového kódu a podporných algoritmov; testovanie existujúcich kódových komponentov.

ID: f89c5233-01b0-4778-93e9-cc7d107aa2c8

Supervízia – dohľad a zodpovednosť vedenia za plánovanie a vykonávanie výskumných činností vrátane mentorstva mimo základného tímu.

ID: 0c8ca7d4-06ad-4527-9cea-a8801fcb8746

Validácia – overovanie, či už ako súčasť činnosti alebo oddelene, celkovej replikácie/reprodukovateľnosti výsledkov/pokusov a iných výskumných výstupov.

ID: 4b1bf348-faf2-4fc4-bd66-4cd3a84b9d44

Vizualizácia – príprava, tvorba a/alebo prezentácia publikovanej práce, konkrétne vizualizácia/prezentácia dát.

ID: 76b9d56a-e430-4e0a-84c9-59c11be343ae

Písanie – Príprava, tvorba a/alebo prezentácia publikovaného diela, konkrétne písanie pôvodného prvej verzie návrhu (vrátane prekladu).

ID: 43ebbd94-98b4-42f1-866b-c930cef228ca

Písanie – recenzovanie, editovanie – Príprava, tvorba a/alebo prezentácia publikovanej práce tými, ktorí pochádzajú z pôvodnej výskumnej skupiny, konkrétne kritické preskúmanie, komentáre alebo revízie – vrátane fáz pred vydaním alebo po publikovaní.

ID: d3aead86-f2a2-47f7-bb99-79de6421164d

Roly uvedené vo vyššie uvedenej taxonómii zahŕňajú okrem iného tradičné autorské roly. Roly nie sú určené na definovanie toho, čo predstavuje autorstvo v bibliografii alebo v zmysle autorského práva, ale na zachytenie všetkých aktivít, ktoré umožňujú vydávanie vedeckých a akademických publikácií.

Odporúčania na uplatňovanie taxonómie CRediT:

1. Štandardné roly je potrebné uviesť pri všetkých osobách, ktorá sú uvedené na publikácii.

2. Pri jednej osobe je možné uviesť niekoľko rolí.

3. Ak má v príspevku rovnakú rolu niekoľko osôb, podiel osôb sa spresní atribútom „rovnaký“, „podporný“.

4. Za uplatnenie a pridelenie rolí jednotlivým prispievateľom podľa taxonómie CRediT majú spoločnú zodpovednosť všetci prispievatelia, ktorí sú so svojou rolou uzrozumení.

Aby roly CRediT mohli byť strojom čitateľné – príspevky by mali byť kódované v JATS (Journal Article Tag Suite). JATS je aplikácia NISO Z39.96-2019, ktorá definuje súbor prvkov XML a atribútov pre označovanie článkov v časopise.

ARIES system Editorial manager má integrovanú taxonómiu CRediT. Používajú ho desiatky vydavateľov v stovkách časopisov. Ide napríklad o vydavateľov: De Gruyter, Elsevier, Taylor & Francis Group, Springer, Wiley MSA, Cambridge University Press, Oxford University Press ai. Prakticky to znamená, že autorom, ktorí publikujú svoje diela v určitých časopisoch cez uvedených vydavateľov, sa v procese prihlásenia príspevku prideľujú roly z taxonómie CRediT.

CRediT je integrovaný v službe eJournalPress, ktora sa špecializuje na poskytovanie softvéru EJPress peer review software vedeckým, technickým, lekárskym a inžinierskym publikáciám. Tiež v systéme špecializovaných biologických časopisoch Cell Press (vydáva Elsevier), ako aj v PLOS, čo je neziskový vydavateľ Open Access, ktorý umožňuje výskumníkom urýchliť pokrok vo vede a medicíne tým, že usmerňuje transformáciu vo vedeckej komunikácii. CRediT je oficiálne podporovaný aj v ORCID API 3.0.

Záver

Vo vedeckej a akademickej komunikácii a praxi, ako aj v agende evidencie publikačnej činnosti, odporúčame používať pri menách autorov a prispievateľov výlučne de iure štandardné a medzinárodné kódovníky a de facto najrozšírenejšie kódovníky a taxonómie. Sú to: elementy taxonómie CRediT a kódy rolí MARC 21.

Roly a taxonómie autorov, prispievateľov najmä vo vydavateľskej open acces platforme by mali byť povinné atribúty entít podieľajúcich sa na výskume a publikovaní diela.

Roly a taxonómie by mali byť povinnými metadátami v maxi-zázname (master record) o dokumente a natrvalo by sa mali uchovávať ako „slobodne dostupné“ v repozitári. Vydavateľ derivuje potrebné metadáta na zverejnenie podľa svojej preferovanej praxe.

Roly by mali byť voľne dostupné pre ďalšie použitie výskumníkmi, redaktormi, vydavateľmi, tvorcom žiadostí o granty a pre posudzovateľov a recenzentov.

Softvér, ktorý slúži na vedecké publikovanie, by mal umožniť samostatné zaznamenanie rolí prispievateľov (autorov, pôvodcov diel) podľa niekoľkých taxonómií a kódovníkov.

Príklad použitia CRediT (na konci štúdie)⁹

AUTHOR CONTRIBUTIONS

• Tobias Hodel: Conceptualization, Formal Analysis, Funding acquisition, Investigation,
Methodo-logy, Writing – original draft, Writing – review & editing, Supervision.

• David Schoch: Data curation, Writing – review & editing, Investigation, Validation.

• Christa Schneider: Writing – review & editing.

• Jake Purcell: Writing – review & editing.

AUTHOR AFFILIATIONS

Tobias Hodel orcid.org/0000-0002-2071-6407 Digital Humanities, Walter Benjamin Kolleg, University of Bern, Switzerland

David Schoch orcid.org/0000-0002-9936-8459 Digital Humanities, Walter Benjamin Kolleg, University of Bern, Switzerland

Christa Schneider orcid.org/0000-0001-9741-0601 Digital Humanities, Walter Benjamin Kolleg, University of Bern, Switzerland

Jake Purcell orcid.org/0000-0002-7636-5669 Digital Humanities, Walter Benjamin Kolleg, University of Bern, Switzerland

Poznámky

1 Frascati Manual 2015: Guidelines for Collecting and Reporting Data on Research and Experimental Development. Dostupné: https://www.oecd-ilibrary.org/docserver/9789264239012-en.

2 ISO 5127/3 a):1981 : Information and documentation - Vocabulary - Section 3a): Acquisition, identification, and analysis of documents and data.

3 CASRAI. Slovník správy výskumných údajov - CASRAI - Bing

4 Organizácia CASRAI prestala existovať a preniesla časť svojho obsahu na euroCRIS, medzinárodnú organizáciu pre výskumné informácie (www.eurocris.org). CODATA preberá zodpovednosť za slovník správy výskumných údajov. Ďalšie informácie nájdete v https://codata.org/initiatives/working-groups/casrai-rdm-terminology/.

NISO preberá zodpovednosť za taxonómiu CRediT. Ďalšie informácie nájdete v http://credit.niso.org/.

5 Pojem taxonómia je známy hlavne z odboru biológie, jazykovedy, pedológie. V odbore knižničná a informačná veda je vhodný a používaný na pomenovanie akejkoľvek klasifikácie napríklad v digitálnych repozitároch. Možno ho považovať za synonymum pojmu klasifikácia. V súvislosti so systémom CRediT sa používa pojem taxonómia. Prvkami taxonómie sú výrazy, ktoré pomenúvajú jednotlivé roly autorov.

6 Key Milestones Achieved in CRediT-NISO Collaboration, https://www.niso.org/press-releases/2020/07/

key-milestones-achieved-credit-niso-collaboration

7 Metodika evidencie publikačnej činnosti – vykazovacie obdobie CREPČ 2020. Bratislava: CVTI, 2020. 94 s. Dostupné (8.2.2021): Metodické pokyny CREPČ pre vykazovacie obdobie 2012 (crepc.sk).

8 Roly prispievateľov CRediT pozri: Contributor Roles Defined – CRediT (niso.org).

9 Príklad je z publikácie: Hodel, T., Schoch, D., Schneider, C., & Purcell, J. (2021). General Models for Handwritten Text Recognition: Feasibility and State-of-the Art. German Kurrent as an Example. Journal of Open Humanities Data, 7/13, pp. 1–10. DOI: https://doi. org/10.5334/johd.46. Dostupné: 46-597-1-PB.pdf (unibe.ch).

KATUŠČÁK, Dušan. Cesta ku kvalitatívnemu vyjadreniu tvorivého podielu osôb vo vede a výskume prostredníctvom implementácie taxonómie CRediT. Knihovna: knihovnická revue. 2021, 32(2), 57–64. ISSN 1801-3252.

Editorial 1/2026

Renáta Krejčí Salátová — 2020-12-30T22:00:00Z

Vážení přátelé,

Novinky zahraniční knihovnické literatury tentokrát přinášejí výběr z časopisu JASIST a slovenské Knižnice.

Přejeme Vám krásné léto, v září se můžete těšit na náš e-časopis Knihovna plus. Termíny uzavírek obou časopisů najdete na našich webových stránkách.

Za redakci Renáta Krejčí Salátová

Pokrok v transkripci historických rukopisných dokumentů

Katuščák, Dušan; Pohlová, Klára; Němec, Lukáš; Říha, Vojtěch — 2020-12-30T22:00:00Z

RESUMÉ: Studie je zaměřena na pokrok v transkripci historického písemného dědictví v Česku a na Slovensku od roku 2020. Odkazuje na výzkumné aktivity, experimenty a výsledky dosažené v letech 2020–2024 v kontextu platformy Transkribus v projektu SKRIPTOR2. Zmiňuje se o českých výzkumných projektech Vysokého učení technického (VUT) v Brně, jejichž výsledkem je nástroj pro transkripci PERO. Informuje o nejnovějších modelech transkripce v platformě Transkribus. Těžiště studie spočívá v popisu postupu a experimentů při tvorbě modelů deseti českých rozličných historických rukopisných dokumentů, které v rámci projektu Studentské grantové soutěže SGS 2024 na Slezské univerzitě v Opavě provedli studenti Lukáš Němec a Vojtěch Říha. Do studie je zařazen i stručný popis tvorby modelu transkripce strojopisných dokumentů, který vytvořila jako součást projektu SGS 2023 Klára Pohlová.

KLÍČOVÁ SLOVA: modely transkripce, historické rukopisy, transkripce českých dokumentů, transkripce slovenských dokumentů, platforma Transkribus

SUMMARY: The study focuses on the progress in the transcription of historical written heritage in the Czech Republic and Slovakia since 2020. It highlights research activities, experiments and results achieved between 2020 and 2024 in the context of the Transkribus platform within the SKRIPTOR project. It also mentions Czech research projects from the Brno University of Technology, which resulted in the PERO transcription tool. In addition, it provides information about the latest transcription models available on the Transkribus platform. The study also describes the procedures and experiments in creating models of ten different Czech historical manuscript documents, which were carried out by students Lukáš Němec and Vojtěch Říha as part of the 2024 Student Grant Competition project at the Silesian University in Opava. The study also includes a brief description of the development of a transcription model for typewritten documents, created by Klára Pohlová as part of the SGS 2023 project.

KEYWORDS: transcription models, historical manuscripts, transcription of Czech documents, transcription of Slovak documents, Transkribus platform

prof. PhDr. Dušan Katuščák, PhD. (ORCID 0000-0001-7444-1077), Mgr. Klára Pohlová, Bc. Lukáš Němec, BcA. et Bc. Vojtěch Říha / Slezská univerzita v Opavě, Filozoficko-přírodovědecká fakulta, Ústav bohemistiky a knihovnictví (Silesian University in Opava, Faculty of Philosophy and Science, Institute of the Czech Language and Library Science), Masarykova třída 343/37, 746 01 Opava

1 Úvod (Dušan Katuščák)

Staré a vzácné tisky, strojopisy, a hlavně rukopisy zpravidla nelze uspokojivě transkribovat pomocí nástrojů optického rozpoznávání písma (OCR). Přichází na pomoc umělá inteligence. Ve snahách zpřístupnit historické písemné dědictví z digitálních repozitářů se pozornost výzkumníků koncentruje na transkripci a strojové učení s použitím konvolučních neuronových sítí. Jedná se o proces, ve kterém se pořízený obrázek „mění“ na text. Tedy pixely se „mění“ na byty (bajty). V posledních pěti letech se k transkripci používají různé platformy a nástroje open source i komerčně zaměřené nástroje a služby. Náš zájem o problematiku transkripce byl podnícen vědeckým evropským projektem základního výzkumu READ, který se realizoval díky programu Horizon 2020. Autorem a koordinátorem projektu byl prof. G. Mühlberger z Univerzity v Innsbrucku. Projekt READ byl financován Evropskou unií částkou 8,2 milionu EUR. Financování skončilo 30. 6. 2019. V současnosti projekt pokračuje na bázi sdružení READ-COOP (READ, 2024). Začátkem roku 2024 měly aplikace Transkribus přes 400 interaktivních uživatelů denně. Uživatelé do systému nahráli denně v průměru 25 tisíc digitalizátů a vytvořili 15 modelů pro rozpoznávání textu. Statistiky uvádějí, že od roku 2015, kdy platforma začala působit, bylo zpracováno přes 51,5 milionu digitálních faksimilií a vytvořeno cca 25 560 modelů, na kterých pracovalo přes 171 307 lidí na celém světě (Nockels et al., 2024).

Jelikož jsem byl jedním ze tří hodnotitelů projektu READ pro Evropskou komisi, chtěl jsem vědět, co posuzuji. Začal jsem se proto o problematiku transkripce podrobněji zajímat. Z praxe digitalizace jsem věděl, že zatímco optické rozlišení tištěného písma (OCR) v procesu digitalizace dostatečně zvládá například vynikající nástroj OCR ABBY FineReader3, pak rozpoznávání textů v historických tištěných dokumentech, rukopisech a strojopisech je nedostatečné a výsledky transkripce jsou neuspokojivé. Sám jsem od roku 2018 věnoval tisíce hodin experimentům a tvorbě modelů v platformě Transkribus. Zpočátku to byl entuziasmus a osobní iniciativa. O výsledcích jsem informoval odbornou veřejnost v různých prezentacích, zvaných přednáškách a publikacích (Katuščák, 2020a; Katuščák, 2020b; Katuščák, 2022a).

V roce 2020 jsem inicioval projekt SKRIPTOR (Katuščák, 2022b). Díky porozumění historiků a archivářů z Katedry historie na Univerzitě Mateje Bela v Banské Bystrici a zvláště doc. Imricha Nagye jsme podali projekt a získali jsme podporu 170 000 eur z Agentury na podporu vědy a výzkumu pro projekt, který se realizoval v letech 2020–2024. Naše úsilí jsme koncentrovali na zvládnutí platformy Transkribus a tvorbu modelů transkripce. Autorské privátní modely výzkumníků jsme nakonec zpracovali v agregovaných supermodelech pro transkripci historických rukopisů s chybovostí CER4 5,30 % (SUPERMODEL_M1, 2024). Tento model úspěšně ověřil Imrich Nagy na transkripci latinského historického rukopisu Acta comitatus Nitriensis sedis iudiciariae s mírou chybovosti jen 2,20 % (Nagy, 2024). Pro transkripci historických tisků a strojopisů byl vyvinut původní supermodel (SUPERMODELP&T1, 2024) s chybovostí 1 %.

Ve výzkumu SKRIPTOR, v projektech SGS (Katuščák, 2024) a diplomových pracích (Smida, 2023; Pohlová, 2024) preferujeme platformu Transkribus, kterou osobně považuji za bezkonkurenčně nejlepší na světě.

V Česku dominuje ambiciózní nástroj PERO (Žabička, 2023; Zavřelová, 2020), který se vyvíjel v rámci výzkumu na VUT v Brně pod vedením Michala Hradiše (Hradiš et al., 2024) v letech 2018–2022. Tým poskytuje volně dostupný nástroj transkripce i komerční služby transkripce. Nejnovější OCR motory jsou dostupné na pero-ocr.fit.vutbr.cz. OCR motory jsou dostupné také přes API spuštěné na pero-ocr.fit.vutbr.cz/api, github repository.

Existují i jiné nástroje transkripce, nicméně pro jejich důkladné srovnání a ohodnocení je nutná metaanalýza s jasně stanovenými kritérii hodnocení a následnou identifikací nejlepší dostupné technologie. Taková metaanalýza však není předmětem této studie.

Základem automatické transkripce jsou kvalitní modely. Jen platformy a nástroje, které mají zabudované dobré modely, jsou schopny produkovat přijatelné až excelentní výsledky transkripce s chybovostí pod 8–5 % CER, čehož lze dosáhnout pouze provedením množství experimentů, zkoušení, nastavování parametrů segmentace textu apod. (Katuščák et al., 2023). Modely tedy slouží k transkripci historických textů, přičemž se pro tvorbu modelů využívá umělá inteligence. Pro vytvoření modelu je třeba stroj naučit, co má dělat. Strojové učení probíhá tak, že se manuálně připraví tréninkový set (Train set)5 a validační set (Validation set). Strany textu je třeba ručně přepsat co nejpřesněji do kvality GT (Ground Truth)6. Následně se spustí proces trénování, cvičení stroje. Výsledkem trénování je MODEL. Na základě dílčích modelů lze pak připravit univerzální supermodely.

V platformě Transkribus bylo v roce 2024 k dispozici mnoho veřejně dostupných (237) a privátních (275) modelů, které však zatím nejsou vhodné pro západoslovanské jazyky, resp. texty naší provenience. K vytvoření těchto supermodelů byly zapotřebí pro trénování miliony slov. K dispozici je například model Titan (TITAN, 2023) pro německé, anglické, holandské, francouzské, finské a švédské rukopisné texty 16.–20. století. Existuje také velmi kvalitní model pro transkripci němčiny The German Giant (GIANT, 2023) vytvořený na základě 86 345 stran a 15 420 976 slov. Efektivnost transkripce německého rukopisu jsme ověřili v projektu SGS v roce 2022. Předmětem transkripce byla německá rukopisná kuchařská kniha z roku 1667 (KACH, 1667) o 876 stranách. Je zřejmé, že pokud chceme mít pro transkripci historických rukopisů západoslovanské provenience (bohemika, slovacika, polonika...) použitelný nástroj, čeká nás množství trpělivé práce na tvorbě vlastních modelů, které se stanou součástí větších (GIANT, 2023) supermodelů.

Usilovali jsme o přenesení poznatků a zkušeností do vzdělávání, a sice do předmětu digitalizace na Slezské univerzitě v Opavě. Podařilo se nám získat podporu Studentské grantové soutěže (SGS) v letech 2022–2024. V projektu SGS (Katuščák, 2024) jsme se zaměřili na české historické rukopisy psané kurentem.

Vycházeli jsme z hypotézy, že v Česku zatím není k dispozici dostatečně efektivní agregovaný model automatické transkripce, který by byl vytvořen na dostatečně velkém množství stran v kvalitě GT, jež by bylo možno použít pro tvorbu lepších modelů transkripce. Skvělou práci v tomto směru vykonává Anna Michalcová (2024). Důsledkem absence nástrojů automatické transkripce je, že historické dokumenty knihoven, muzeí, archivů a dalších institucí jsou sice digitalizovány, avšak jsou obvykle dostupné pouze jako digitální faksimile, obrázky (digitalizáty) bez transkripce. Tato vědecká úloha je spíše úkolem pro národní instituce než pro malé projekty typu SGS. Cílem daného malého projektu SGS bylo přispět k řešení problému transkripce a připravit odborníky, kteří postupně budou řešit důležitý úkol týkající se zpřístupnění historických dokumentů z českých a slovenských archivů, knihoven, muzeí apod.

V dalších kapitolách jsou stručně popsány aktivity studentů Oddělení knihovnictví Filozoficko-přírodovědecké fakulty Ústavu bohemistiky a knihovnictví Slezské univerzity v Opavě.

2 Tvorba modelů transkripce podle vybraných rukopisných náboženských dokumentů. Cesta k modelu transkripce Agreg-8 (Vojtěch Říha)

V oblasti automatické transkripce rukopisů došlo v nedávné době k významnému pokroku díky vytvoření funkčního studentského supermodelu, který dokáže transkribovat západoslovanské rukopisné texty z období 18.–20. století. Tento supermodel s názvem CZECH supermodel_SGS (ID 220865), fungující na bázi nástroje Transkribus, vznikl sloučením několika dílčích modelů, které vyvinuli studenti Slezské univerzity v Opavě.

Model Agreg-8 (207993), připravený studentem Vojtěchem Říhou, je trénovaný na rukopisném materiálu pěti různých sbírek, přičemž cílem bylo získat sadu podobných dokumentů, které by v konkrétních rysech přispěly k celistvosti modelu (časový rozsah 18. až 19. století, tematika modliteb a písní z katolického prostředí). Klíčovým aspektem však byla podobnost písma jednotlivých písařů, která zajistila kvalitní výsledek fungující v případě vybraného rukopisného stylu (viz obrázek 1).

Obr. 1 Koláž s ukázkami rukopisných sbírek (vlastní koláž autora, části obrázků převzaty z databáze Manuscriptorium)

Vybrané sbírky jsou dostupné v digitální knihovně Manuscriptorium:

1. Česká modlitební kniha (ČESKÁ, 1733–1766)

2. Cesta Svatocellenská (CESTA, 1733–1766)

3. Radostná cesta (RADOSTNÁ, 1829–1884)

4. Modlitby, písně a litanie (MODLITBY, 1826)

5. Modlitební knížka (MODLITEBNÍ, 1700–1750)

Trénování modelu Agreg-8 probíhalo na 250 trénovacích cyklech 21 hodin a 37 minut. V procesu byl kladen důraz na kvalitní přepis, proto byla prováděna několikerá kontrola manuálně transkribovaného textu. Celkových 454 stran bylo poté označeno kvalitou ground truth, neboli „základní pravda“, a tím zahrnuto do výsledného modelu. V trénovací sadě je obsaženo 42 842 slov, validační sada čítá 3 156 slov, souhrnně tak model dosahuje bez dvou slov počtu až 46 tisíc. Výsledná chybovost modelu (CER) se pohybuje okolo 0,4 % na trénovací sadě, na validační sadě pak 2,86 % (viz obrázek 2).

Obr. 2 Profil modelu Agreg-8 (archiv autorů)

Jinými slovy, při spuštění automatické transkripce se přepíše více než 97 znaků ze 100 znaků správně, což indikuje poměrně vysokou přesnost přepisu v případě konkrétních pěti zahrnutých sbírek. Je samozřejmé, že u jiných rukopisů nebude úspěšnost tak vysoká. Model Agreg-8 jsme nicméně experimentálně aplikovali na další vybraný rukopis nezahrnutý do žádného z datasetů a chybovost CER zůstala poměrně nízká (okolo 5 %). Průběh trénování lze sledovat na křivce učení, která ukazuje vstupní přesnost dat, neboť již po úvodních deseti epochách, jinými slovy trénovacích cyklech, model dosahoval chybovosti okolo 10 % a konzistentně se zlepšoval (viz obrázek 2).

Zaměřme se nyní na praktické možnosti při zpracovávání rukopisných dokumentů, neboť ve srovnání se starými tisky či strojopisem mají rukopisy zcela odlišnou genezi. Diference jednotlivých znaků je u ručně psaného dokumentu mnohem větší, tudíž je pro umělou inteligenci daleko obtížnější texty rukopisu rozpoznat. Mezi veřejnými modely na platformě Transkribus zatím nemáme k dispozici řešení pro české bohemikální dokumenty vyjma projektu Old Czech Handwriting (Michalcová, 2022) a modelu Moravian Land Records (Schwarz, 2024). V současné době je tak pro transkripci vlastních dokumentů nutné trénování nového modelu, z širšího hlediska pak vyvstává potřeba vytvořit robustnější agregované modely nejen pro české rukopisy. Při transkripci je velmi důležitá samotná příprava, zvolení metod a přístupů, také však samotný proces, během kterého se výzkumník snaží aktivně reagovat na výsledky dílčích vlastních modelů a postupně je vylepšovat. Samotné trénování tak nespočívá pouze v přidávání dalších textových dat, byť tento postup znamená pro zdokonalení modelu značný přínos. Klíčovou činností se však stává celková optimalizace. Při tvorbě modelu HTR (Handwritten Text Recognition, rozpoznávání ručně psaného textu) je třeba dbát na několik zásadních aspektů. Výše zmíněný model Agreg-8 zde poslouží jako vzor.

Uvažme situaci, při níž jsme zvolili vhodný dokument k digitalizaci a zároveň zajistili kvalitní nasnímání všech stran. Operujeme zatím s obrázky, s množstvím pixelů, nikoli však s dokumentem, který obsahuje editovatelnou textovou složku, a proto je důležitá automatická transkripce. V současné době platforma Transkribus nenabízí velké množství modelů HTR, z tohoto důvodu se dále v textu věnujeme dílčím krokům, které vedou k tvorbě vlastního řešení.

Prvním krokem je tedy segmentace, jejíž pomocí dáváme formu celému obrázku, rozdělíme plochu na textové, případně obrázkové regiony a definujeme pozici textu, jinými slovy vytvoříme pro následnou automatizaci vzor pro rozpoznání jednotlivých řádků. V současné době existují již pokročilé segmentační modely, jež velkou část udělají automaticky v základu, nelze se však na tento postup nekriticky spoléhat. Kvůli nedokonalé segmentaci začínají vznikat první nepřesnosti, které se snažíme eliminovat vhodným nastavením. Není tedy zvykem provádět celou segmentaci manuálně, nýbrž postupným testováním nastavit parametry automatizace tak, aby fungovala pokud možno co nejpřesněji v rozsahu celého dokumentu. Případné chybné segmenty je pak nutné manuálně upravit. Možnosti nastavení automatické segmentace na dokumentu Česká modlitební kniha (ČESKÁ, 1733–1766) v prostředí platformy Transkribus eXpert na praktickém příkladě:

V prvé řadě vybíráme segmentační model. Je tedy důležité sledovat vlastnosti textu v celém dokumentu a dle toho zvolit variantu modelu. V případě nahodilého směru textových čar je vhodné aplikovat model tolerující směrové odchylky, jinak je tomu u dokumentů s rozložením homogenním, kde se vyplatí konzistentní segmentační modely. Běžnými problémy, se kterými se někdy setká prakticky každý, jsou nesprávně definované řádky, vynechané řádky, rozdělená slova apod.

V druhé řadě lze tedy experimentovat s nastavením základní čáry (tzv. baseline) a jejími parametry tak, abychom se vyhnuli nepřesnostem. Detekuje-li algoritmus jakýkoli rušivý element jako základní čáru, nabízí se zvýšit minimální délku této čáry tak, aby se na šum detekce nevztahovala. Řádek rozdělený do několika samostatných segmentů můžeme opravit snížením maximální vzdálenosti pro jejich slučování. Ačkoli se snažíme vstupní data importovat v co nejvyšší kvalitě, nemáme vždy k dispozici obrázky s požadovaným rozlišením, tudíž lze v nastavení pracovat také se škálováním obrázků. Na příkladu níže můžeme vidět výsledek segmentace před nastavením a snímek po optimalizaci parametrů (viz obrázek 3).

Obr. 3 Porovnání segmentace před a po úpravě parametrů (Manuskriptorium, upraveno)

Po úspěšně zvládnuté segmentaci se dostáváme k samotné transkripci, v našem případě ve tvorbě modelu pro daný dokument. Hlavním specifikem při práci s rukopisnými dokumenty je větší variabilita jednotlivých písmen. Různí písaři přirozeně zapisovali konkrétní znaky odlišnými způsoby, rukopisný styl se proměňoval i u jednoho autora během jeho života. Problém různosti zápisu znaků ve velké míře zasahuje také do každého dokumentu jednotlivě. Ať už vlivem nečitelnosti snímku nebo nepřesnosti pisatele velmi snadno nastane situace, ve které jsou si dvě různá písmena tak podobná, že by bez kontextu nebylo možné znaky od sebe rozeznat. Nejen v českých rukopisných dokumentech pak narážíme také na problém nečitelné diakritiky, která může být v jednom dokumentu psána mnohými způsoby (viz obrázek 4).

Obr. 4 Proměnlivost zápisu znaku „u“ (archiv autorů)

Dobová gramatika nebyla striktně vymezena jako dnes, jazyková norma nebyla dostatečně ustálena, jednotliví písaři si vytvářeli vlastní pravidla nebo psali zcela bez pravidel. Konkrétně psaní diakritických znamének pak nemuselo mít pouze funkci distinktivní v oblasti délky fonémů, nýbrž mohlo sloužit k rozlišení jednotlivých písmen od sebe navzájem. Na obrázku výše můžeme vidět písmeno „u“ v rozličných variantách (někde háček, kroužek, čárka, tečka, půlměsíc, vlnka, stříška apod., jinde dokonce diakritika chybí, ačkoli by dle dnešní gramatiky z hlediska kvantity slovo vyžadovalo kroužek). Při transkripci takového textu je pak nutné vytvořit jednoduché pravidlo, podle kterého budeme při trénování postupovat, aby trénovaný model dokázal znak správně vyhodnotit. Jinými slovy, není potřeba hledat alternativu ke každé grafické anomálii, naopak je nezbytné snažit se jednotlivé znaky koordinovat a integrovat nejen podle jejich vzhledu, ale také podle jejich významu. Nemožnost dosažení 100% přesné transkripce u rukopisných dokumentů dokazuje také problematika zápisu písmen „i“ a „y“. Nejen že se dobová gramatika značně odlišovala od současné, ale také docházelo k netradičním zápisům znaků, které by nebyly u tištěných dokumentů možné (viz obrázek 5).

Obr. 5 Problematika podobnosti písmen "i" a "y" (archiv autorů)

Proces samotného trénování je přímo ovlivněný kvalitou manuálně přepsaných dat. Všechny strany zahrnuté jak do trénovací, tak do validační sady, by tedy měly být v kvalitě ground truth, jak již bylo řečeno výše. Zpětně pak při hodnocení dílčích modelů vycházíme z validační sady, jejíž chyby nám podávají informace o problémech modelu. Vedle další korekce a dalšího přidávání dat se však nabízí možnost experimentovat s parametry tréninku, jedním z nich je například výška řádku. Na příkladech níže (viz obrázek 6) lze sledovat dílčí model ČMK-70, u kterého jsme při tréninku s výškou řádku experimentovali. Konkrétně jsme zvýšili základní nastavení 128 pixelů na hodnotu 140 pixelů a poté až na 155 pixelů. Výsledky vykazují menší chybovost při nastavení parametru výšky řádku na číslo 140 pixelů, protože další zvyšování již začalo při transkripci operovat s vedlejšími řádky.

Obr. 6 Experiment s výškou řádku u modelu ČMK-70 (128px, 140px, 155px) (archiv autorů)

Některé rukopisné dokumenty mají na konkrétních místech v důsledku vybledlého inkoustu nebo poškozeného papíru těžko rozpoznatelná slova. Pro vyšší kvalitu modelu tak byla některá místa označena tagem „unclear“, aby se vynechaly nejednoznačnosti, které by učily model nepřesné transkripci. V trénovacím datasetu byly takto označené části z modelu vyřazeny. Vedle toho jsme provedli experiment s rozšířením obrazových dat (image data augmentation). Jedná se o alternativní způsob navýšení rozmanitosti znaků, kdy se stávající obrazová data konkrétními technikami upraví, což má následně efekt dalšího snížení počtu chyb při automatické transkripci. Významnou augmentační technikou jsou fotometrické úpravy, tzn. změna kontrastu, jasu, ostrosti, šumu nebo úprava barevnosti apod. V našem experimentu jsme takto rozšířili méně obsáhlý dílčí model ČMK-20. Přidáním snímků s upraveným jasem a kontrastem bylo dosaženo významného snížení chybovosti, výsledky tak ukázaly, že je tato technika přinejmenším v začátcích trénování užitečným doplněním (viz obrázek 7).

Obr. 7 Argumentace obrazových dat modelu u ČMK -20 (archiv autorů)

Dalšími augmentačními technikami jsou geometrické transformace v podobě rotací, ořezů nebo škálování původních dat. Zajímavou a účinnou metodou rozšiřování je však také použití deformací, tzn. zvýšení či snížení výšky nebo délky konkrétních obrázků. Tento způsob augmentace dat byl použit v procesu trénování modelu Agreg-8, kam jsme zahrnuli snímky s upravenou výškou (změny na 80 %, 90 %, 110 % a 120 %). Výsledek tohoto experimentu lze sledovat na celkovém vývoji modelu Agreg, konkrétně porovnáním modelů Agreg-5 a Agreg-6, který již obsahuje data včetně augmentace (viz obrázek 8).

Obr. 8 Celkový vývoj úspěšnosti a počtu slov modelu Agreg (archiv autorů)

Na grafu výše (obr. 8), který ve sloupcové části ukazuje snižující se chybovost znaků a ve spojnicové části zvyšování počtu slov, lze také dokumentovat již popsanou změnu výšky řádků, se kterou jsme experimentovali mezi verzí Agreg-4 a Agreg-5. První verze Agreg-1 sdružovala dva pracovní modely „ČMK“ (data z České modlitební knihy) a „RC“ (data z Radostné cesty) a sloužila jako jádro celého tréninku. K tomuto modelu jsme postupně přidávali další data, další rukopisné sbírky s modlitební tematikou (Cesta Svatocellenská a Modlitby, písně a litanie). Mezi verzí modelu Agreg-6 až Agreg-8 lze poté sledovat přidání posledního rukopisného dokumentu Modlitební knížka.

3 Tvorba modelů transkripce na rukopisech J. H. A. Gallaše, F. Poláška a O. Jaroše (Lukáš Němec)

Cílem práce studenta Lukáše Němce bylo vytvořit na základě pečlivě vybraných rukopisů model, který by si uměl poradit s rukopisnými vzorky z 2. poloviny 18. století až do 1. poloviny století dvacátého, resp. dokázal by přečíst ručně psané texty západoslovanské provenience od dob národního obrození až do první republiky. Využití takového modelu nabízí široké spektrum možností. Archivy obsahují rozsáhlé množství textových materiálů z uvedeného období a použití tohoto modelu by mohlo výrazně usnadnit práci badatelům. Uplatnění lze nalézt například při analýze legionářských dopisů z období první světové války, válečných deníků vzniklých během bojů na východní frontě nebo při studiu rukopisných fragmentů a opomíjených textů méně známých či regionálních autorů českého národního obrození. Využití tohoto modelu je rovněž velmi přínosné při zpracování a analýze různých rodových, obecních či spolkových kronik, matrik, stejně jako historických katastrálních a pozemkových knih.

Pro tvorbu modelu byly z několika dalších možných rukopisných dokumentů selektivně vybrány tyto:

1. Gallaš, Josef Heřman Agapit [Rukopis]: Mytické povídky o bozích a bohyních moravských Slovanů. (Gallaš, 1820)

2. Gallaš, Josef Heřman Agapit: [Rukopis]. Fyzické památky města Hranice a okolí. (Gallaš, 1808–1811)

3. Gallaš, Josef Heřman Agapit [Rukopis] Walaši v kraji Přerovském (Gallaš, 1801–1804)

4. Polášek, František [Rukopis]: Pravé poznání Boha aneb troje hodinky o dokonalostech božských [Rukopis] (Polášek, 1800–1900)

5. Jaroš, Otakar [Rukopis]: Nauka o terénu [Školní sešit, čtverečkovaný/linkovaný papír]. (Jaroš)

Josef Heřman Agapit Gallaš, původem z Hranic, patří mezi tamější nejvýznamnější rodáky, byl vojenským polním lékařem a zakladatelem první hranické knihovny. František Polášek, katolický kněz, pocházel z městečka Příbor v okrese Nový Jičín. Otakar Jaroš, voják a válečný hrdina, patřil k významným studentům hranické vojenské akademie.

Při výběru vzorků jsme si stanovili několik podmínek s cílem zajistit co největší univerzálnost modelu, aby byl výběr autorů, rukopisů i témat co nejrozmanitější a nebyl striktně omezen pouze na jednu žánrovou oblast, například náboženství nebo literaturu.

Klíčovým bylo zaměřit se na autory spojené s naším regionem, protože jsme chtěli pracovat s texty, které jsou místně příslušné oblasti, kde žijeme nebo působíme a ke které máme citovou vazbu. Domníváme se, že tento záměr se nám podařilo naplnit beze zbytku, protože námi provedený výběr osobností je skutečně „multižánrový“ a zároveň se vztahuje k našemu regionu.

Práce na jednotlivých rukopisných dokumentech

Jedním z našich cílů bylo, aby alespoň některá z děl prošla celým procesem digitalizace, tj. od nasnímání digitalizátů přes vytvoření modelu, který by byl schopen textový obsah umístěný na nasnímaném obrázku přečíst, až po archivaci digitálních kopií v některém z repozitářů. To se povedlo u dvou Gallašových spisů (Mytické povídky o bozích a bohyních a Fyzické památky města Hranice a okolí) a obou rukopisů Otakara Jaroše. Uvedené rukopisy byly nasnímány zařízením ScanTent a pomocí aplikace DocScan nahrány do prostředí nástroje Transkribus, kde jsme s nimi dále pracovali na vytvoření modelu.

Obr. 9 Zařízení ScanTent, snímání rukopisu (archiv autora)

První rukopis, na kterém jsme začali pracovat, byly Gallašovy Mytické povídky o bozích a bohyních (viz obrázek 10). Rukopis se vyznačuje počínající degradací papíru a častým vypadáváním inkoustu. To vedlo k částečnému vyblednutí původního textu, který je navíc poměrně obtížně čitelný, což výrazně ztížilo proces osvojování si čtení dobového rukopisu. Gallašovy texty mají několik specifik, mezi něž patří časté gramatické chyby (obrázek 12), dále psaní podstatných jmen velkými písmeny, což byl zlozvyk pocházející patrně z němčiny, a nestálost v grafické realizaci některých fonémů, např. „š“; „á“; „ú“; „ž“ a „g“.

Model nazvaný Mystic Absolut (ID 210053) jsme vytvořili na základě 120 stránek GT s celkovým počtem kolem 23 tisíc slov na 4 470 řádcích a deklarovanou chybovostí 8,3 % na ověřovací sadě. Bohužel lepší výsledek i přes maximální snahu nebyl možný z důvodů uvedených výše. Teprve použití agregovaného modelu Finale 2.0, o němž se podrobněji zmíníme níže, vedlo ke snížení chybovosti při rozpoznávání textu. Tento výsledek byl způsoben schopností agregovaného modelu efektivněji zpracovávat i méně časté grafémy, k jejichž přesnější identifikaci přispěly dílčí modely, které tyto grafémy zahrnovaly (obrázek 10 a 11).

Obr. 10 Model Mystic Absolut s chybovostí 8,3 % (archiv autora)

Obr. 11 Agregovaný model Finale 2.0 s chybovostí 6,5 % (archiv autora)

Obr. 12 Ukázka rukopisu Mytické povídky o bozích a bohyních (MZA Brno)

Obr. 13 Ukázka různých způsobů psaní grafémů a proměnlivého sklonu písma (archiv autora)

Druhý Gallašův rukopis Fyzické památky města Hranice (viz obr. 14) představoval úplně odlišný typ písma než vzorek první (obr. 13). Písmo bylo na první pohled úhlednější a čitelnější, avšak obsahovalo více písařských stylů, vzniklých patrně podle toho, jak unavená byla ruka. Zde jsme řešili prosvítání textu z protilehlých stránek a zasahování psaných grafémů do spodní části osnovy. Tento nešvar, kdy model někdy detekoval grafém jako další textovou linku, byl částečně odstraněn drobnou úpravou výšky řádku (ze 128 na 140 px), avšak stále je nutná částečná úprava textu, týká se zhruba 1 % všech možných znaků na stránce.

Obr. 14 Ukázka rukopisu Fyzické památky města Hranice a okolí (MZA Brno)

Na základě tohoto rukopisu, který obsahoval kolem 20 tisíc slov na 3 074 řádcích, byl vytvořen dílčí model Physical Absolut (ID 241489) s chybovostí 5,3 % v ověřovací sadě.

Jak je patrno z obr. 15, na třetím rukopisném vzorku z pera J. H. A. Gallaše Walaši v kraji přerovském byla pozoruhodná skutečnost, že ač je rukopis velmi odlišný od předešlého Gallašova rukopisu, model vytvořený na jeho základě pro tento typ písma velice dobře fungoval. Bohužel zde byly velké problémy s rozeznáváním diakritiky, vyžadující ruční korekci u grafémů „u“, „ů“, „ú“, „e“ a „ě“ (tento problém byl vyřešen agregovaným modelem Finale 2.0).

Obr. 15 Ukázka rukopisu Walaši v kraji přerovském (zdroj Manuskriptorium)

Na bázi uvedeného rukopisu byl po vložení 16 tisíc slov na 2 600 textových linkách vytvořen model Walachian Absolut (ID 211773) s chybovostí 5 %. U rukopisu F. Poláška Pravé poznání boha aneb troje hodinky o dokonalostech božských (viz obr. 16) jsme při práci čelili výzvě spojené se třemi odlišnými druhy písma, přičemž dva z nich byly v textu zastoupeny jen v omezené míře. Tato skutečnost způsobovala občasné problémy s přesnou detekcí grafémů během procesu automatického rozpoznávání textu. Problém se však podařilo vyřešit za pomoci agregovaného modelu Finale 2.0. Agregovaný model totiž obsahoval jiné rukopisné vzorky s podobnými typy textu, což umožnilo lepší identifikaci méně častých grafémů a zvýšilo celkovou přesnost rozpoznávání.

Obr. 16 Ukázka rukopisu Pravé poznání boha (zdroj: Manuskriptorium)

Tento dílčí model nazvaný Franz II. je ze všech dílčích modelů nejmenší (nejméně robustní), neboť k jeho vytvoření bylo použito pouze pěti tisíc slov, což je považováno za spodní hranici pro počet vložených slov. I přes tento „handicap“ jeho chybovost činila solidních 7,5 %.

Rukopisy Otakara Jaroše představovaly skutečnou výzvu. Školní sešity s rukopisnými vzorky nesly známky degradace, pravděpodobně způsobené nevhodným skladováním v prostorách vojenského muzea s vysokou vlhkostí. Tato degradace byla dále umocněna značným vyblednutím inkoustu na některých stránkách a skutečností, že text byl napsán na čtverečkovaný papír, což komplikovalo jeho čitelnost. Všechny výše uvedené skutečnosti představovaly při procesu snímání digitalizátů pomocí zařízení ScanTent závažný problém. Aplikace DocScan měla v automatickém režimu velké problémy se zaostřením snímku (aplikace vyfotila snímek, aniž by došlo k jeho kvalitnímu zaměření). To mohlo být způsobeno například tím, že optika fotoaparátu nedokázala dostatečně rychle zaměřit osvětlený předmět umístěný na tmavém pozadí. Proto bylo nutno přistoupit k použití ručního módu – snímek jsme zhotovili až po kontrole zaostření. Následně jsme provedli jemnou korekci snímku pomocí nástroje Zoner za účelem optimálního vyvážení kontrastu tak, aby bylo písmo zřetelné a dobře čitelné a zároveň linky čtverečkovaného papíru nebyly příliš zvýrazněné, což byl, jak se později ukázalo, další problém.

Obr. 17 Snímek pořízený v automatickém módu s patrnou neostrostí grafémů (archiv autora)

Obr. 18 Snímek upravený pomocí software Zoner (archiv autora)

Před zahájením ručního vkládání textu jsme provedli experimentální testování dostupných modelů. Vybrali jsme model Moravian Land Records s udávanou chybovostí 6,4 %. Nepřesvědčivé výsledky schopností automatického rozpoznávání rukopisných znaků u uvedeného modelu (viz obr. 19) nás však přesvědčily o nutnosti vytvořit vlastní model pro dosažení vyšší přesnosti.

Práce na něm začala ruční segmentací stránky spolu s vkládáním textu, kdy jsme se potýkali se skutečností, že písmo, ač na první pohled úhledné, bylo špatně čitelné, a to zejména díky podobnosti grafémů „a“, „o“, „m“, „n“, „e“.

Obr. 19 Výsledek použití modelu Moravian Land Records s chybovostí 6,4 % (archiv autora)

Po ručním přepisu 15 332 slov na 2 016 základních linkách-řádcích jsme vytvořili první model, který vykazoval chybovost 10,88 % na ověřovací sadě, a to zejména u výše uvedených znaků.

Obr. 20 Parametry prvního modelu (archiv autora)

Obr. 21 Parametry dalšího modelu (archiv autora)

Z důvodu poměrně vysoké chybovosti (kolem 11 %) jsme pokračovali v ručním vkládání slov, aniž bychom vytvořený model použili při rekognici textu. Další model, nazvaný Ota13, vytvořený po vložení 21 272 slov na 3042 základních linkách, vykazoval chybovost 9,11 % na ověřovací sadě (viz obr. 21). Ten jsme již zkusili použít pro rozpoznávání textu na dalších stránkách rukopisu. Tento model však vykazoval určité nestandardní projevy, se kterými jsme se u jiných rukopisů nesetkali. Konkrétně docházelo k nesprávné segmentaci textu, při níž byly hlavní řádky rozdělovány na několik menších dílčích řádků (viz obr. 22).

Stejný model byl experimentálně vyzkoušen i na jiném rukopisu Otakara Jaroše, a to s diametrálně odlišným výsledkem, který nám dokázal funkčnost modelu a utvrdil nás v domněnce, že problémem bude pravděpodobně čtverečkovaný papír.

Obr. 22 Ukázka chybné segmentace modelu (archiv autora)

Obr. 23 Ukázka funkčnosti modelu na rukopisu stejného autora, avšak na jiném než čtverečkovaném papíru (archiv autora)

Jelikož jsme plánovali využít rukopis na čtverečkovaném papíru pro vytvoření dílčího modelu automatické transkripce jako součást budoucího agregovaného modelu Finale 2.0, rozhodli jsme se řešit problém chybné segmentace aplikací specializovaného modelu pro rekognici základních linek. Tento model, nazvaný Basiclines II, byl vytvořen na základě 3 088 ručně vložených základních linek s níže uvedenými parametry, přičemž jeho funkčnost byla následně ověřena (viz obr. 25).

I když chybovost na ověřovací sadě byla 11,25 %, segmentaci linek Jarošova rukopisu model Basiclines II prováděl bezchybně nebo pouze s minimem chyb, které byly odstraněny drobnou ruční korekcí. Proto následoval postup, kdy byl nejprve použit model Basiclines II určený pro segmentaci základních linek a pak provedena rekognice textu pomocí modelu Ota13 a vytrénování dalších modelů.

Obr 24 Parametry modelu pro segmentaci základních linek (archiv autora)

Obr. 25 Výsledek experimentu s využitím segmentace při rekognici stránky s použitím modelu Ota13 (archiv autora)

Závěr našeho experimentu hovoří jednoznačně. V případě, že budeme provádět automatickou transkripci rukopisu psaného na podobně nestandardním podkladu a aplikovaný model bude vykazovat výše uvedené anomálie, doporučujeme zvážit následující postup:

1. S použitím většího množství již přepsaných stránek vytvořit model pro segmentaci základních linek, popř. využít stávající Basiclines II.

2. Upravit parametry pro segmentaci stránky s využitím parametrů uvedených na obrázku 24.

3. Správnost parametrů experimentálně ověřit na vybraných stránkách.

4. Aplikovat segmentační model na libovolné množství stran.

5. Pokračovat v transkripci textu metodou ručního vkládání textu nebo pomocí stávajícího modelu.

Konečný model Jarošova rukopisu byl nazván Ota14 (ID 182965) a byl vytvořen na bázi 25 tisíc slov a 3 743 textových linek. Deklarovaná chybovost modelu je 7 % na ověřovací sadě. Vytvořením modelu Ota14 jsme završili proces tvorby jednotlivých modelů. Po dokončení této fáze jsme přistoupili k integraci všech dílčích modelů do jednoho komplexního a univerzálního modelu, který jsme pojmenovali Finale 2.0 (ID 213733). Tento agregovaný model představuje vyvrcholení naší práce, zahrnující veškeré získané poznatky a optimalizace, které jsme aplikovali během vytváření jednotlivých modelů. Model Finale 2.0 byl vytvořen tak, aby dosáhl pokud možno co nejvyšší přesnosti při zpracování širokého spektra rukopisných textů.

Obr. 26 Parametry modelu Finale 2.0 (archiv autora)

Na závěr naší práce jsme provedli malý experiment zaměřený na ověření schopností modelu Finale 2.0 při zpracování rukopisného textu, který byl náhodně vybrán z obsáhlého digitálního archivu Manuscriptorium. Vybraný rukopis nebyl do procesu vytváření modelu nijak zahrnut, což znamená, že model s tímto konkrétním písmem ani jeho charakteristickými znaky nemá žádnou předchozí zkušenost. Cílem bylo ověřit, jak si model poradí s neznámým materiálem a do jaké míry je schopen generalizovat své schopnosti při čtení textů, které nejsou součástí jeho tréninkového datasetu (viz obr. 27). Vybrali jsme rukopis Rozličné písně starožitné (1799).

Obr. 27 Ukázka schopnosti modelu Finale 2.0 na jemu neznámém rukopisném vzorku (archiv autora)

Námi představený model tvoří nedílnou součást širšího a komplexnějšího agregovaného modelu s názvem CZECH supermodel_SGS. Tento agregovaný model dosahuje chybovosti pouhých 5,8 % na ověřovací sadě. Jeho vývoj byl realizován ve spolupráci s kolegy ze Slezské univerzity v Opavě. Domníváme se, že dosažené výsledky představují významný krok kupředu v oblasti automatického rozpoznávání rukopisných textů západoslovanského původu. Naše práce tak přispívá nejen ke zlepšení technologického zpracování historických textů, ale také k rozšíření možností jejich vědeckého zkoumání.

4 Transkripce strojopisných dokumentů (Klára Pohlová)

Pro bohemikální strojopisné dokumenty ještě stále neexistuje spolehlivý nástroj, který by byl schopný vykonat jejich automatickou transkripci. O to více se zde tedy poukazuje na potřebu vytvoření specifického modelu, použitelného pro strojopisné dokumenty. Cílem experimentu bylo ověřit existující veřejně dostupné modely transkripce strojopisu, případně vytvořit nový model transkripce strojopisných dokumentů vhodný pro budoucí použití.

Ověření existujících veřejných modelů transkripce strojopisu Databáze platformy

Transkribus nabízí veřejné modely pro práci se strojopisnými dokumenty, většina z nich však nepracuje s češtinou, její gramatikou a interpunkčními znaménky. Ve výsledku je tedy text špatně rozpoznán a chybovost pak příliš velká, než abychom mohli přepis vyhlásit za úspěšný.

Vytvoření základní modelové báze vzorku strojopisných dokumentů s různými typy písma

Prvním krokem bylo hledání (heuristika) vhodných tiskopisů, které by byly vhodné pro pozdější použití při tvoření nového obecného použitelného modelu. Cílem tedy bylo najít zhruba 10 různých strojopisů s různými typy/fonty písma. Za tímto účelem byl vybrán Státní okresní archiv Jeseník, kde tiskopisy tvoří více jak polovinu veškerého archivního fondu.

Ukázky písma ve vybraných dokumentech (obr. 28 a 29):

Obr. 28 Ukázka písma dokumentu NAD 197 (archiv autora)

Obr. 29 Ukázka písma dokumentu NAD 595 (archiv autora)

Práce v platformě Transkribus

Skeny textů byly nahrány do platformy Transkribus. Nejprve byla provedena segmentace řádků, kdy každý segmentovaný řádek se přesně dle originálu přepisuje pod segmentovanou část textu. Přepsáno bylo cca 4–6 stran textu. Dále proběhla kontrola segmentace u všech nahraných dokumentů. Ve většině případů byla segmentace správná, upravit ji bylo potřeba u minima stran. Nejvíce „náchylné“ ke špatné segmentaci byly strany, které měly text po stranách lehce rozmazaný, a tedy hůře čitelný. Bylo potřebné segmentovaný řádek prodloužit o neoznačený text.

Obr. 30 Špatně provedená segmentace u konce řádků textu (archiv autora)

Dalším krokem bylo zahájení přepisu metodou HTR, použit byl model Stroj1, který byl vytvořen na základě manuálně přepsaných stran, které již měly status GT, tedy Ground Truth. Tento krok je důležitý, pokud chceme docílit vytvoření vlastního modelu transkripce. Každá přepsaná strana prošla důkladnou kontrolou, chyby a rozdíly se manuálně přepsaly do správného tvaru dle originálu.

Ověření dostupných modelů

Byla vyzkoušena i možnost použít již existující modely strojopisných dokumentů, které má Transkribus ve své paměti. V případě úspěšnosti by nebylo potřeba tvořit nový model. Bohužel tyto pokusy úspěšné nebyly, a to vzhledem k tomu, že žádný z modelů neumí pracovat s českou diakritikou. Např. model 56926, byť je určen pro dokumenty psané psacím strojem, měl s textem v českém jazyce značný problém a výsledky jsou naprosto nepoužitelné:

Obr. 31 Text přepsaný s použitím modelu 56926 (archiv autora)

Tvorba vlastního modelu transkripce strojopisu

Z výše uvedených výsledků je zřejmé, že žádný z již dostupných modelů není ideálně použitelný pro texty v českém jazyce a je potřebné vytvořit vlastní model. Pro vytvoření nového modelu bylo rozhodnuto využít modely a data již existující a ověřené. Na jejich základě byl vytvořen a vytrénován model s označením 58379 Slovak and Czech Typewriting, který je nyní uložen v systému Transkribus jako veřejný model. Aktuálně je jeho chybovost (CER) 4,10 %, což je určitě výsledek, s nímž lze pracovat.

Nový model byl otestován na dvou vybraných dokumentech, jak v českém, tak německém jazyce.

Obr. 32 Přepisy nově vytvořeným modelem 58379 (archiv autora)

Výsledky jsou nadmíru úspěšné. Chybovost, CER, vychází 0,08. Text je tedy přepsán na 99,92 % správně (např. u slova „angeschafft/angeschafft.“ chybí tečka, slovo „aud bylo nahrazeno /auf.

Jako druhá se zkoušela první dvojstrana dokumentu psaného v českém jazyce, NAD 214, viz obr. 33:

Obr. 33 Přepisy vytvořeným modelem 58379 s nulovou chybovostí (archiv autora)

Zde je chybovost transkripce relativně nového strojopisu v podstatě nulová, text byl přepsán bez chyby, CER je tedy 0,00 %.

5 Závěr

Výzkumníci v projektu Studentské grantové soutěže (SGS) zvládli v průběhu několika měsíců práci v platformě Transkribus. Osvojili si metody přípravy, nahrávání, segmentace a provedli množství dílčích experimentů při tvorbě vlastních modelů transkripce. Získali znalosti, dovednosti a cenné know-how v transkripci rukopisů. Lukáš Němec vytvořil na základě pěti rukopisných dokumentů model Finale 2.0 (ID: 213733) s chybovostí CER jen 6,56 %. Vynikající práci odvedl rovněž Vojtěch Říha, když jeho model model Agreg-8 (ID: 207993) vykazoval chybovost pouhých 2,86 %. Do studie jsme také zařadili také popis a výsledky přípravy modelu ID 58379 pro transkripci strojopisných dokumentů Kláry Pohlové (Pohlová, 2024) z projektu SGS v roce 2023 (s chybovostí jen 4,10 %). Její parciální model ID 58379 byl pak zahrnut do supermodelu ID78289 (SUPERMODELP&T1, 2024).

V projektu SGS 2024 jsme nakonec vytvořili agregovaný CZECH supermodel_SGS (ID 220865) na základě výše uvedených parciálních modelů, které připravili studenti Lukáš Němec a Vojtěch Říha, a to s chybovostí jen 5,86 %. S naším modelem lze transkribovat podobné rukopisy s přesností 94,17 %. Základem supermodelu CZECH supermodel_SGS je:

1. parciální model, jehož autorem je student Lukáš Němec. Jedná se o model Finale 2.0 (ID: 213733). Byl vytořen na základě menších vlastních pěti pracovních modelů: Physical Absolut (ID 213213); Walachian Absolut (ID 211773); Mystic Absolut (ID 210053); Franz II. (ID 204714); Ota 14 (ID 182965);

2. parciální model, jehož autorem je student Vojtěch Říha. Jedná se o model Agreg-8 (ID: 207993);

3. 15 rukopisných stran v kvalitě Ground Thruth (GT) z dokumentu Protokoly Matice slezské (ID:1663382).

Obr. 34 Czech Supermodel SGS (archiv autorů)

Literatura

CESTA, 1733–1766. Cesta Svatocellenská. Online. 1733–1766. Josef Jan HÁJEK (písař). In: Jindřichův Hradec: Muzeum Jindřichohradecka, RK 037. Dostupné z: https://new.manuscriptorium.com/hub/catalog/default/detail/single/manuscriptorium%7CAIPDIG-MJ____RK_037______3GYFBF3-cs?lang=cs. [cit. 2025-04-03].

ČESKÁ, 1733–1766. Česká modlitební kniha. Online. 1733–1766. In: Jindřichův Hradec: Muzeum Jindřichohradecka, RK 071. Dostupné z: https://new.manuscriptorium.com/hub/catalog/default/detail/single/ manuscriptorium%7CAIPDIG-MJ____RK_071______176AYW2-cs?lang=cs. [cit. 2025-04-03].

GALLAŠ, Josef Heřman Agapit, 1801–1804. Walaši v kraji Přerovském. Online. 1801–1804. Dostupné z: https://new.manuscriptorium.com/apis/resolver-api/cs/catalog/default/detail/manuscriptorium%7CKNM___ NMP___II_F_12_____1PU4RI1-cs. [cit. 2025-04-03].

GALLAŠ, Josef Heřman Agapit, 1808–1811. [Fyzické]. Památky města Hranice a okolí [Rukopis]. In: MZA Brno, G 11 Sbírka rukopisů Františkova muzea Brno, sign. 658, čeština, latina, papír, rukopisná kniha, originál, vázáno v tvrdých deskách, šířka 215 mm, výška 270 mm, pův. pag. 236, nová fol. 128; stará sign.: Schr. 223, pův. 288, červ. 1808–1811. Podle L. Scholze (2006) je Gallašův rukopis Památek dnes uložen v Moravském zemském archivu v Brně (fond E6, kart. 490, sign. Oa7–12), je rozdělen na tři „epochy“ (tj. díly), z nichž epocha třetí se dělí na čtyři samostatné svazky. In. Libor Scholz, Památk.

GALLAŠ, Josef Heřman Agapit, 1820. Mytické povídky o bozích a bohyních moravských Slovanů [Rukopis]. In: MZA Brno, G 11, sign. 838, čeština, papír, rukopisná kniha, originál, vázáno v tvrdých, polokožených deskách, šířka 195 mm, výška 250 mm, stopy po pův. pag., starší fol. 125; stará sign.: Schr. 224, pův. 287, červ. 1820.

GIANT, 2023. The German Giant I. Online. 20. March 2023. Dostupné z: https://app.transkribus.org/models/ text/50870. [cit. 2025-04-03].

HRADIŠ, Michal et al, 2024. DCGM / pero-ocr. Online. 16. 12. 2024. Dostupné z: https://github.com/DCGM/ pero-ocr. [cit. 2025-04-03].

JAROŠ, Otakar. Nauka o terénu, školní sešit, čtverečkovaný papír/linkovaný papír [školní sešit] Uloženo v: Historická expozice 71. mech. praporu „Sibiřského“ v Hranicích. Zapůjčeno z pozůstalostní sbírky rodiny. In: Uloženo v: Historická expozice 71. mech. praporu „Sibiřského“ v Hranicích. Zapůjčeno z pozůstalostní sbírky rodiny. Digitalizát vytvořen s laskavým svolením kurátora muzea nrtm. Radima Cába.

KACH, 1667. Kach und Einmachbuch von Allerley Eingemachten Sachen von Zucker, Hänig und al/er Friichten, auch und erschiedlicher gueten Speisen [Rukopis]. Online. 1667. Projekt SGS Slezská univerzita v Opavě. Dostupné z: https://beta.transkribus.eu/collection/114429/doc/1154832/detail/6?view=combined&key=CDKKPGCBSBLBOOPSZHXFRUMI. [cit. 2025-04-03].

KATUŠČÁK, Dušan, 2020a. Digital humanities a automatická transkripcia rukopisných textov. Online. Dostupné z: https://itlib.cvtisr.sk/clanky/clanek3698/. [cit. 2025-04-03].

KATUŠČÁK, Dušan, 2020b. Najnovšie poznatky z výskumu automatického rozpoznávania textov historických dokumentov. In: Sborník z konference konané ve dnech 11.–13. 2. 2020. Online. Dostupné z: http://k21.fpf.slu.cz/wp-content/uploads/2020/12/Sbornik_K21_2020_RC.pdf. [cit. 2025-04-03].

KATUŠČÁK, Dušan, 2022a. Metodológia a metodika transkripcie historických textov. Online. Projekt APVV UMB Skriptor. ISBN 978-80-557-2020-3. Dostupné z: http://dx.doi.org/10.24040/2022.9788055720203. [cit. 2025-04-03].

KATUŠČÁK, Dušan, 2022b. Umelá inteligencia pomáha sprístupňovať písomné dedičstvo. Online. Knihovna: knihovnická revue. Roč. 33, č. 2. ISSN 1802-8772. Dostupné z: https://knihovnarevue.nkp.cz/archiv/2022-2/recenzovane-prispevky/umela-inteligencia-pomaha-spristupnovat-pisomne-dedicstvo. [cit. 2025-04-03].

KATUŠČÁK, Dušan, 2022c. Výkladový slovník pojmov a termínov [platforma Transkribus]. Online. ISBN 978-80-557-2020-3. Dostupné z: https://dx.doi.org/10.24040/2022.9788055720203. [cit. 2025-04-03].

KATUŠČÁK, Dušan, 2024. Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu. [Projektová žádost SGS SU Opava]. Opava: Slezská univerzita, s. 3, Projektová žádost Studentská grantová soutěž, Slezská univerzita.

KATUŠČÁK, Dušan a NAGY, Imrich, 2020. Inovatívne sprístupnenie písomného dedičstva Slovenska prostredníctvom automatickej transkripcie historických rukopisov. Katedra histórie, Univerzita Mateja Bela. Banská Bystrica: Univerzita Mateja Bela a Štátna vedecká knižnica. Agentúra na podporu vedy a výskumu SR; Vedecký projekt aplikovaného výskumu; Projekt podporený 170 000 Eur. APVV-19-NEWPROKECTZ-17816.

KATUŠČÁK, Dušan a NAGY, Imrich et al., 2023. Automatická transkripcia historických dokumentov: metodická príručka na prácu s platformou Transkribus. Online. 1. vyd. Banská Bystrica: Belianum. Vydavateľstvo Univerzity Mateja Bela v Banskej Bystrici. ISBN 978-80-557-2070-8. Dostupné z: https://doi.org/10.24040/2023.9788055720708. [cit. 2025-04-03].

KATUŠČÁK, Dušan a NAGY, Imrich et al., 2024. Automatická transkripcia historický ch dokumentov v prostredí webovej aplikácie Transkribus: metodická príručka pre účastníkov workshopu. Online. ISBN 978-80-557-2143-9. Dostupné z: https://dx.doi.org/10.24040/2024.9788055721439. [cit. 2025-04-03]. MICHALCOVÁ, Anna, 2022. Padeřovská bible. Old Czech Handwriting [dataset]. Anna Michalcová s kolektivem. ID modelu: 58856.

MICHALCOVÁ, Anna et al., 2024. HTR Winter School 2023/2024 – Medieval Czech – New Testament of Martin Lupáč (ONB Cod. 3304) [dataset]. Online. 5. 2. 2024. Výber polodiplomaticky prepísaných textov z Nového zákona Martina Lupáča (1440, 320 × 210 mm, staročeština). Texty prepísali účastníci Zimnej školy HTR 2023/2024 vo Viedni. Dostupné z: https://zenodo.org/records/10619017. [cit. 2025-04-03].

MODLITBY, 1826. Modlitby, písně a litanie. Online. 1826. František PICHLER (písař). In: Brno: Moravské zemské muzeum, ST 2193. Dostupné z: https://new.manuscriptorium.com/hub/catalog/default/detail/single/manuscriptorium%7CAIPDIG-MZM___ST_2193_____2VNLSIA-cs?lang=cs. [cit. 2025-04-03].

MODLITEBNÍ, 1700–1750. Modlitební knížka. Online. 1700–1750. In: Jindřichův Hradec: Muzeum Jindřichohradecka, RK 087. Dostupné z: https://new.manuscriptorium.com/hub/catalog/default/detail/single/manuscriptorium%7CAIPDIG-MJ____RK_087______0RCYAF8-cs?lang=cs. [cit. 2025-04-03].

NAGY, Imrich, 2024. Model ID: 197573. [transkribus expert]. SKRIPTOR_Acta comitatus Nitriensis sedis iudiciariae final.

NOCKELS, Joseph, GOODING, Paul a TERRAS, Melissa, 2024. Are Digital Humanities platforms facilitating sufficient diversity in research? A study of the Transkribus Scholarship Programme. In: Digital Scholarship in the Humanities. Online. 16. 04. 2024. ISSN 2055-768X. Dostupné z: https://doi.org/10.1093/llc/fqae018. [cit. 2025-04-03].

POHLOVÁ, Klára, 2024. Automatická transkripce strojopisných dokumentů psaných v českém jazyce. Online, diplomová práce. Dostupné z: https://theses.cz/id/upmh25/?lang=sk. [cit. 2025-04-03].

POLÁŠEK, František, 1800–1900. Pravé poznání Boha aneb troje hodinky o dokonalostech božských [rukopis]. Manuscriptorium. Online. [Datum: 15. 12. 2024]. Dostupné z: https://new.manuscriptorium.com/apis/ resolver-api/cs/catalog/default/detail/manuscriptorium%7CVMO___-VMO___K_24073_____0U6ABL2-cs. [cit. 2025-04-03].

RADOSTNÁ, 1829–1884. Radostná cesta. Online. František PICHLER (písař). In: Brno: Moravské zemské muzeum, ST 2272. Dostupné z: https://new.manuscriptorium.com/hub/catalog/default/detail/single/manuscriptorium% 7CAIPDIG-MZM___ST_2272_____1CKG86B-cs?lang=cs. [cit. 2025-04-03]. READ, 2024.

READ COOP Transkribus. Online. Dostupné z: https://readcoop.eu/. [cit. 2025-04-03].

ROZLIČNÉ, 1799. Rozličné písně starožitné. In: Moravská zemská knihovna v Brně pod signaturou RKP-0048.022. Dostupné z: https://new.manuscriptorium.com/hub/catalog/default/detail/single/manuscriptorium%7CMZ K -MZKB RKP_0048_0222RSPJ43-xx?lang=cs. [cit. 2025-04-03].

SCHWARZ, Johannes Georg, 2024. Moravian Land Records [Dataset]. In: Dokumenty pocházejí převážně z MZA Brno and SOkA Znojmo. CER Training 5,40 %, CER Validation 6,40 %. Tento model je jak pro češtinu, tak pro němčinu. ID modelu: 66429.

SMIDA, Matej, 2023. Možnosti automatickej transkripcie v platforme Transkribus na príklade správ o vybavovaní sťažností občanov v období komunistickej diktatúry. Online, diplomová práce. ISSN 1336-9148 a ISSN 2453-7845. Dostupné z: https://doi.org/10.24040/ahn.2023.26.01.125-148. [cit. 2025-04-03].

SUPERMODEL_M1, 2024. Slovak Supermodel M1 (SSM1) [Dataset]. Zenodo. Online. 1. ver., 24. 4. 2024. Jazyky zdrojových dokumentov: Slovak, Latin, Hungarian, Czech. Autori použitých datasetov: Katuščák, D., Nagy, I., Maliniak, P., Kurhajcová, A., Tomeček, O., Kunec, P., & Bôbová, M. ID modelu Transkribus: ID63569. Dostupné z: https://doi.org/10.5281/zenodo.11109087. [cit. 2025-04-03].

SUPERMODELP&T1, 2024. Slovak Supermodel P&T1 (SSPT1). Datasety projektu SKRIPTOR Univerzity Mateja Bela (First version (20240520)) [dataset]. Online. 20. 5. 2024. Autori parciálnych datasetov GT: Katuščák, D., Nižníková, L., Mikušková, M., Halfarová, N., Gajdošová, T., Málková, L., Taufrová, N., Nagy, I., Kováčová-Pohlová, K., Šmida, M., & Kociánová, N. ID modelu Transkribus: ID78289. Dostupné z: https://doi.org/10.5281/zenodo.11218527. [cit. 2025-04-03].

TITAN, 2023. The Text Titan I (Super model). Transkribus. Online. 5. 4. 2023. Dostupné z: https://app.transkribus.org/models/text/51170. [cit. 2025-04-03].

ZAVŘELOVÁ, Alžběta, 2020. Projekt PERO – OCR pro historické texty. Duha: Informace o knihách a knihovnách. Online. Roč. 34, č. 4. ISSN 1804-4255. Dostupné z: http://duha.mzk.cz/clanky/projekt-pero-ocr-pro-historicke- texty. [cit. 2025-04-03].

ŽABIČKA, Petr, 2023. Implementácia umelej inteligencie ako odpoveď na nové výzvy inovatívnych digitálnych služieb. Rozhovor: Petr Žabička – Tomáš Fiala. Online. ItLib, Informačné technológie a knižnice. Špeciál 2/2023. Dostupné z: http://doi.org/10.52036/1335793X.2023.SC2.5-12. [cit. 2025-04-03].

Poznámky

1 Studie vznikla díky projektu Studentské grantové soutěže (SGS) 2024 na Slezské univerzitě v Opavě, Filozofickopřírodovědecké fakultě, Ústavu bohemistiky a knihovnictví, Oddělení knihovnictví.

2 Odkaz na článek o projektu SKRIPTOR: https://knihovnarevue.nkp.cz/archiv/2022-2/recenzovane-prispevky/umela- -inteligencia-pomaha-spristupnovat-pisomne-dedicstvo

3 Odkaz na webové stránky OCR ABBY FineReader: https://pdf.abbyy.com/

4 CER (Character Error Rates). Míra chybovosti znaků (srovnává pro danou stranu celkový počet znaků (n) včetně mezer s minimálním počtem vložení (i), nahrazení (s) a vymazání (d) znaků, které jsou potřebné k získání výsledku Ground Truth. Jedná se tedy o chyby v porovnání s přesným, referenčním textem. Vzorec pro výpočet CER je následující: CER = [(i + s + d) / n ]*100. Každá malá chyba v přepisu je statisticky plnohodnotná chyba. Obecně lze konstatovat, že: a) je-li hodnota chybovosti znaků CER nižší než 10 %, což je 10 a méně chyb na sto znaků, tak výsledek transkripce je dobrý, čitelný a, je-li to účelné, je možné další editování výstupu; b) je-li míra chyb znaků CER ≤ 5 %, je výsledek transkripce velmi dobrý; c) je-li míra chyb znaků CER nižší než 3 %, lze výsledky transkripce považovat za vynikající a míra chyb znaků CER nižší než 2,5 % za excelentní.

5 Train set. Pomocí nástroje Transkribus Expert Client je možné cvičit (trénovat) model rozpoznávání rukopisného textu, aby bylo možné transkribovat automaticky sbírky dokumentů. Model je výsledkem cvičení, proto je při jeho tvorbě třeba cvičit tak, aby stroj rozpoznal určitý styl psaní v zobrazovaných obrázcích dokumentů a poskytl víceméně přesný přepis. Ke cvičení (TRAIN) modelu je zapotřebí 5 000 až 15 000 slov (přibližně 25–75 stran) přepsaného materiálu. Přepis se získá manuálním přepisem řádek po řádku přesně podle předlohy

6 Ground Truth (GT. základní pravda) jsou přesné a ověřené údaje, které se používají pro trénování modelů strojního učení, jako jsou modely používané pro automatické přepisy v Transkribusu.

KATUŠČÁK, Dušan; POHLOVÁ, Klára; NĚMEC, Lukáš; ŘÍHA, Vojtěch. Pokrok v transkripci historických rukopisných dokumentů. Knihovna: knihovnická revue. 2025, roč. 36, č. 1, s. 5–30. ISSN 1801-3252.

Úvodník 2020/2

Renata Salátová — 2020-12-07T14:55:00Z

Vážení přátelé,

předkládáme vám druhé číslo časopisu Knihovna: knihovnická revue v tomto roce. Přináší pět recenzovaných příspěvků, jeden nerecenzovaný, recenzi a dvě stálé rubriky – Tipy z Knihovny knihovnické literatury a Novinky zahraniční knihovnické literatury.

V prvním článku nás autor uvádí do světa starých map, které jsou součástí našeho kulturního dědictví a současně jsou specifickými informačními zdroji. Zaměřuje se především na Virtuální mapovou sbírku a portál Charte-antiquae.cz, který zpřístupňuje databázi digitalizovaných starých kartografických děl (map, atlasů i glóbů) a současně obsahuje řadu nástrojů pro práci s těmito díly, pro prohlížení, vyhledávání v nich, porovnávání map apod. Dále se věnuje zásadám/doporučením určeným pracovníkům paměťových institucí, jak postupovat při digitalizaci mapových sbírek. Popisuje nejbohatší mapové sbírky v České republice a stav jejich digitalizace. Především jde o naši nejrozsáhlejší mapovou sbírku uloženou v Ústředním archivu zeměměřictví a katastru, která čítá cca 50 000 mapových listů, a další významné sbírky map v jiných institucích (Přírodovědecká fakulta Univerzity Karlovy, archivy, Národní knihovna ČR ad.). V článku jsou vysvětleny důležité pojmy spojené s vývojem mapování na našem území: císařský povinný výtisk, reambulované mapy, stabilní katastr, indikační skici, topografické mapy, II. a III. vojenské mapování, georeferencování apod.

Druhý článek je teoretickou reflexí entity dílo jako entity knihovnické ontologie FRBR. Autor, vyučující na Masarykově univerzitě, ukazuje možnosti využití výsledků českých literárněvědných škol (strukturalismus – Mukařovský, Červenka, teorie fikčních světů – Doležel, Fořt) pro vývoj knihovnické ontologie dílo; dokládá, že by knihovní věda měla být schopna modelovat nejen svět aktuální, ale i svět fikční. Formuluje důvody, proč se studie FRBRoo nehodí pro knihovny, ale pro jiné paměťové instituce ano. Vysvětluje, proč si pro danou studii vybral naopak právě model FRBR. V první části příspěvku popisuje, co je dílo, a jaké postoje může člověk k dílu zaujmout. Na to navazuje funkcemi jazyka, autorem díla, zveřejněním díla, uměleckým a intelektuálním obsahem díla. V další části se věnuje několika modelům fikčních světů a popisuje je.

Kolektiv autorů z Oddělení pro standardy NK ČR se věnuje další vrstvě kulturního dědictví, a to nejstarším zvukovým záznamům/médiím ve formě fonoválečků a šelakových gramofonových desek. Příspěvek stručně popisuje vznik a historii těchto nosičů a přístup Národní digitální knihovny k ochraně jimi nesené informace a především standardy digitalizace. Důraz je kladen na metadata a metadatové soubory. Na záchranu fonoválečků a šelakových desek se zaměřuje projekt Nový fonograf. Součástí tohoto projektu je také vytvoření národního standardu pro digitalizaci těchto nosičů a příprava na jejich dlouhodobé uložení. Pozornost autorů je soustředěna zvláště na metadatový popis digitálních dokumentů a použití vhodných archivních formátů. Předkládají specifika metadat, digitální ochrany dokumentů podle zásad digitalizace NK ČR. Věnují se rozdílům mezi popisem gramofonových desek a fonografických válečků. Dále se zaměřují na formáty, které jsou vhodné pro dlouhodobou archivaci a pro zpřístupnění.

Další studie představuje svět fondů slovanských literatur, které jsou uloženy v Knihovně Národního muzea. Charakterizuje prameny, které byly relevantní pro výzkum těchto sbírek (archivní materiály uložené v Archivu Národního muzea, přírůstkové seznamy knihovny, různé typy výročních Zpráv, Inventář archivních fondů, tzv. Ruční katalog rukopisů slovanského oddělení, Časopis Národního muzea (tzv. Muzejník) apod.). Zaměřuje se na vznik slovanských fondů Národního muzea (stručně upozorňuje na odlišnosti Slovanské knihovny Národní knihovny ČR), důvody jejich založení, složení fondů, osobnosti, které se o jejich budování zasloužily, akvizici slovanských fondů a jejich další osudy v Knihovně Národního muzea.

Závěrečný článek této části předkládá atributy souborových (archivačních) formátů pro dlouhodobé uchování. V příspěvku jsou popsány postupy v několika zahraničních institucích (Kongresová knihovna, knihovna Harvardovy univerzity, NARA, KOST-CECO a Britská knihovna) a následně v Národní knihovně České republiky. Každá výše jmenovaná instituce klade důraz na jiná hodnoticí kritéria pro vhodnost formátu. Autoři je porovnávají a na základě těchto analýz navrhují kritéria a postupy pro hodnocení formátů v praxi Národní knihovny ČR.

Článek polských kolegů je věnován výzkumu časopisů pro děti a mládež vydaných v období 1824–1918. Časopisy jsou rozděleny do skupin: vědecké, společensko-politické, umělecko-literární, školní a harcerské. Na základě průzkumu fondů knihoven ve Varšavě, Krakově, Poznani, Gdaňsku, Vratislavi, Vilně a Lvově vznikla elektronická báze obsahující 1827 ročníků časopisů (ne úplných), jež je základem pro další zkoumání. Studie se zaměřuje na časopisy pro mladší (5–10 let) a starší děti (10–16 let). Autoři popisují, co všechno v dějinách Polska formovalo tyto časopisy: od obecných politicko-ekonomických podmínek, tehdejší výchovné a vzdělávací koncepce, aktuálních literárních a uměleckých proudů po cenzuru, ale také politická a jazyková situace po rozdělení Polska – i vydávání dětských časopisů se lišilo v každém ze tří záborů (ruského, pruského a rakouského) na tehdejším polském území.

Číslo doplňuje recenze nového slovenského výkladového slovníku informační vědy, kterou – s názvem Chrestomatia informačnej vedy – napsal prof. Dušan Katuščák. Následuje devět knižních tipů z fondů Knihovny knihovnické literatury, a to jak domácí, tak zahraniční provenience, a rubrika Novinky zahraniční knihovnické literatury. V ní přinášíme mj. zkrácený překlad článku o výsledcích mezinárodního srovnávacího výzkumu zaměřeného na vnímání některých nových funkcí či rolí veřejných knihoven (knihovny jako komunitní centra, místa setkávání, místa pro veřejnou debatu) ve srovnání s rolemi tradičními a na hledání argumentace pro podporu knihoven. Výzkum se uskutečnil v několika evropských zemích.

Milí čtenáři, jsme rádi, že jste s námi v této nelehké době. Věřme, že bude lépe.

Nezapomeňte prosím na termíny uzávěrek, které naleznete na našich stránkách https://knihovnarevue.nkp.cz/terminy pro Knihovnu: knihovnickou revue a pro Knihovnu plus https://knihovnaplus.nkp.cz/terminy.

Děkuji všem, kteří se na tvorbě tohoto čísla podíleli. Přeji krásný advent a vůbec zimní čas. Hlavně hodně zdraví!

Za redakci

Renáta Salátová

STEINEROVÁ, Jela a Miriam ONDRIŠOVÁ a kol. Informačná veda: Výkladový slovník. Bratislava: Univerzita Komenského, 2020. 278 s. ISBN 978-80-223-4866-9.

Dušan Katuščák — 2020-12-07T14:55:00Z

Prof. PhDr. Dušan Katuščák, PhD. Slezská univerzita Opava. Filozoficko-přírodovědná fakulta. Ústav bohemistiky a knihovnictví.

Chrestomatia informačnej vedy na spôsob slovníka

Univerzita Komenského v Bratislave vydala zaujímavú vedecko-odbornú publikáciu určenú najmä pre študentov v odbore knižnižné a informačné štúdiá. Ide o výkladový slovník. Editorkou diela je profesorka Jela Steinerová, ktorá je aj autorkou väčšiny hesiel, a inžinierka Miriam Ondrišová. Autormi ďalších hesiel sú prof. PhDr. Jaroslav Šušol, PhD., doc. PhDr. Pavol Rankov, PhD., doc. PhDr. Lucia Lichnerová, PhD., PhDr. Ľudmila Hrdináková, PhD., Mgr. Marta Špániová, PhD., Mgr. Katarína Buzová, PhD., Mgr. Andrea Hrčková, PhD. Slovník je jedným z výstupov vedeckého projektu a grantu Agentúry na podporu vedy a výskumu a sústreďuje výklady najzávažnejších pojmov a termínov, ktorých autori sa usilujú modifikovať a vysvetliť tradičné chápanie informačnej vedy so zreteľom na aktuálne trendy v odbore v posledných desaťročiach. Ak hovoríme o chrestomatii, tak chceme vyjadriť fakt, že ide o súbor autorských textov odborníkov, pričom jednotlivé texty výkladov vyjadrujú v rôznej miere buď výsledky osobného bádania alebo autorské kompilácie s cieľom vysvetliť isté pojmy a termíny.

Rozhodne je potrebné vyzdvihnúť, že autormi jednotlivých výkladov hesiel sú výlučne vedecko-pedagogickí pracovníci Katedry knižničnej a informačnej vedy Filozofickej fakulty Univerzity Komenského v Bratislave. V úvode je informácia, že tento slovník nadväzuje na terminologický a výkladový slovník Informačná veda, ktorý sme vydali na bratislavskej katedre v roku 1998 (Dušan Katuščák, Marta Nováková, Marta Matthaeidesová a kol.). Práve vydaný slovník však predstavuje celkom nové dielo. Má odlišnú koncepciu, rozsah, kompozíciu hesiel, všeobecnejšiu úroveň výkladov, aktuálnejšie výklady a autorské interpretácie pojmov a termínov.

Poslaním slovníka je poskytnúť „základnú orientáciu pre odborníkov, študentov a mla dých vedeckých pracovníkov, ktorí vstupujú do štúdia informačnej vedy“.

Výkladový slovník modeluje informačnú vedu pomocou stovky pojmov a termínov z oblasti knižničnej a informačnej vedy. Na najvyššej úrovni sú v slovníku výklady pojmov týkajúce sa teórie informačnej vedy, organizácie poznania, informačného prieskumu, správania, architektúry, zdrojov, gramotnosti, služieb, bibliometrie a infometrie.

Koncepcia slovníka je jasná a zrozumiteľne vysvetlená a každé heslo má svojho autora. Slovník predstavuje dobrý čin a snahu predstaviť v danom čase syntézu a úroveň akademického myslenia o odbore.

Každý pokus o syntézu poznatkov o odbore informačná veda je vítaný a užitočný, pretože znamená súhrn myšlienok, teórií, metateórií a prístupov, ktoré sú charakteristické nielen pre jedno akademické pracovisko, ale môžu mať aj širšiu platnosť a využitie. Snaha o vymedzenie pojmu informačná veda je dôležitá okrem iného aj z toho dôvodu, že vo všeobecne dostupnej wikipédii sa nachádzajú rozličné výklady pojmu informačná veda, a preto je vymedzenie pojmu stále aktuálne a potrebné.

Pre zaujímavosť uvedieme, ako sa pojem informačné veda vykladá vo wikipédii v češtine, angličtine a slovenčine. Ten rozptyl výkladov je skutočne dosť veľký a otázka akéhosi zjednocujúceho výkladu najmä pre vzdelávacie účely je naliehavá, aby študenti a odborníci mali k dispozícii nejaký výklad, ktorý bude jasný a zrozumiteľný všetkým.

Cze wiki: „Informační věda ... je v nejširším pojetí chápána jako obecná věda o infor maci (fyzikální, biologické, kulturní), v užším významu pak jako věda interdisciplinárního charakteru zabývající se zákonitostmi procesů vzniku, zpracování, měření, kódování, ukládání, transformace, distribuce a recepce informací ve společnosti. Jejím cílem je zabezpečit a racionalizovat sociální informační a komunikační procesy.“

Eng wiki: „Informačná veda (tiež známa ako informačné štúdiá) je akademická ob lasť, ktorá sa primárne zaoberá analýzou, zhromažďovaním, klasifikáciou, manipuláciou, ukladaním, vyhľadávaním, pohybom, šírením a ochranou informácií. Odborníci v odbore i mimo neho študujú aplikáciu a využitie poznatkov v organizáciách spolu s interak ciou medzi ľuďmi, organizáciami a akýmikoľvek existujúcimi informačnými systémami s cieľom vytvoriť, nahradiť, vylepšiť alebo porozumieť informačným systémom. Historicky je informačná veda spojená s počítačovou vedou, psychológiou, technológiou a spra vodajskými agentúrami. Informačná veda však zahŕňa aj aspekty rôznych oblastí, ako sú archívna veda, kognitívne vedy, obchod, právo, lingvistika, muzeológia, manažment, matematika, filozofia, verejná politika a spoločenské vedy.“

Slo wiki: „Informačná veda je v najširšom ponímaní veda o informácií (napríklad fyzi kálnej, biologickej, kultúrnej). V užšom ponímaní ide o vedu interdisciplinárneho charakteru, ktorá sa zaoberá zákonitosťami procesov vzniku, spracovania, merania, kódovania, ukladania, transformácie, distribúcie a recepcie informácií v spoločnosti.“

Ukazuje sa, že o výklady pojmu informačná veda nie je núdza. Ale, asi to tak má byť. Výkladov máme mnoho, problém jednotného výkladu však zostáva a môže byť predmetom ďalších akademických úvah a prístupov. V skutočnosti však ani v uvedených výkladoch, ani v slovníku nejde ani tak o informačnú vedu, ale o knižnično-informačnú vedu, respektíve dokumentáciu.

Výkladový slovník nanovo vyvoláva otázky, ktoré sa týkajú jadra nášho odboru. V medzinárodnom kontexte sa pojem knižničná a informačná veda používa v prostredí vysokoškolského vzdelávania ako Library and Information Science. V odbornej komunikácii sa označuje skratkou LIS. Postupne sa stabilizovalo jadro knižničnej a informačnej vedy, ktoré tvoria najmä tieto disciplíny, a to v podstate tak, ako ho vymedzuje aj posudzovaný bratislavský výkladový slovník: vyhľadávanie a získavanie informácií, manažment knižníc, organizácia znalostí, knihovnícke štúdiá, informačná architektúra, informačné správanie, informačný prieskum, informačné systémy a služby, vedecká komunikácia, digitálna gramotnosť, bibliometria a scientometria, informačná spoločnosť, kultúrne dedičstvo, interakcia človek-počítač, správanie používateľov, digitalizácia.

Som presvedčený, že v týchto časoch plných zmien, výziev, príležitostí a lákadiel by sa náš odbor knižničné a informačné štúdiá (a veda) mal držať svojej podstaty, za ktorú považujem „zaznamenanú informáciu a poznatok“. Inými slovami ide o informáciu alebo poznatok zaznamenaný na nejakom nosiči. Ide teda o dokument a jeho hlavné formy: text, obraz, zvuk, audiovizuálny dokument, pretože v knižniciach a iných informačných inštitúciách už dávnejšie knihovníci a informační špecialisti zďaleka nepracujú len s textovými dokumentmi, ale aj s obrazovými, zvukovými a audiovizuálnymi dokumentmi, a to v analógovej aj digitálnej forme.

Na druhej strane je možné hovoriť o tom, čo potvrdzujú aj vyššie uvedené výklady z wikipédie o akejsi plávajúcej identite nášho odboru. Odbor knižničných a informačných štúdií a knižnično-informačnej vedy má, takpovediac, flexibilnú, plávajúcu identitu. Hranice, ako aj vedecké a vzdelávacie rámce, nie sú také ostré a výrazné, ako ich poznáme v lekárskych, prírodných a technických vedách, odboroch a študijných programoch.

V akademických prístupoch a vo vzdelávaní v odbore je možné hovoriť o fragmentácii teórie, metodológie i vzdelávania v odbore LIS. V Európe napríklad neexistuje jeden model vzdelávania v odbore. Vzdelávanie je fragmentované. Fragmentácia vzdelávania v odbore LIS v Európe má, na jednej strane, svoje historické príčiny a súvisí s rozdielnym vývojom kultúr, vedy, vzdelania, hospodárstva jednotlivých európskych krajín a národných štátov. Na druhej strane, napriek rozdielom, existujú vo vzdelávaní LIS črty podobnosti, predsa však v jednotlivých európskych krajinách prevládajú odlišné smery vzdelávania, čo súvisí s veľkosťou krajín a možnosťami zamestnania určitých počtov absolventov.

Menšie krajiny, medzi ktoré patrí aj Slovensko a Česko, majú spravidla len jeden-dva akreditované programy, ktoré musia byť jednak univerzálne, ale aj dostatočne špecializované, aby dokázali na potrebnej úrovni reagovať na meniace sa potreby spoločnosti a zamestnateľnosť absolventov. Dá sa však očakávať, že spoločenské a hospodárske zmeny v Európe si vynútia väčšiu pozornosť, pokiaľ ide o zbližovanie a štandardizáciu vzdelávania v odbore LIS, pretože princípy komunikácie zaznamenaných vedeckých, technických, obchodných a iných informácií a poznatkov sú rovnaké. Napokon, bez istej úrovne štandardnosti vzdelávania v tomto odbore LIS by nebol možný voľný pohyb osôb a zamestnateľnosť absolventov v európskych krajinách navzájom.

Výkladový slovník je dokladom faktu, že každá nová generácia informačných vedcov a špecialistov sa usiluje o to, aby si vytvorila svoju predstavu o odbore záujmu v určitom čase. Tak je to i v tomto prípade. Je to správne. Vo vede, podobne ako v iných oblastiach je nevyhnutná kontinuita poznania. Za inovácie je potom vhodné označovať prístupy, ktoré vychádzajú z dôkladného poznania odboru a danej vedy a praxe vôbec, a to nie len v rámci jednej krajiny. Veda a vedecké poznanie totiž nemajú hranice ani národné farby, a tak je potrebné pristupovať aj k inováciám. Takže je dôležité uvedomiť si, či je niečo nové a inovatívne pre autora alebo či ide skutočne o novosť a inováciu z hľadiska vedy ako takej v nadnárodnom zmysle. V danom prípade knižničnej a informačnej vedy.

Osobne nadobúdam presvedčenie, že naša akademická knižničná a informačná veda zaostáva za knižničnou a informačnou praxou a za technologickou úrovňou dosahovanou v praxi. Praktické uplatňovanie digitálnych technológií v informačných systémoch a službách informačných inštitúcií (digital humanities) predbieha akademickú knižničnú a informačnú vedu a posúva vedu samotnú do pozície dodatočného, následného glosátora, komentátora a interpréta vecí a javov, ktoré už v praxi fungujú, aj keď nie celkom alebo aspoň uspokojivo na Slovensku prípadne v Čechách (FRBR, autority, RDA, autorské právo a informačná etika v odbore, bibliografia, celoživotné vzdelávanie v odbore, ekonomika činnosti a využívanie verejných zdrojov, altmetria, digitalizácia, digitálna knižnica a repozit na národnej úrovni, integrácia a informačná analýza v pamäťových a fondových inštitúciách, spoločná efektívna platforma služieb, interoperabilita, ochrana zbierok, umelá inteligencia v odbore, súvisiace odbory, atď.).

Podľa môjho názoru by to malo byť tak, že knižničná a informačná veda má veci zovšeobecňovať, ale hlavne by mala zjednodušovať, definovať trendy, aplikovať poznatky a formulovať jasné požiadavky pre prax a energicky sa aj zasadzovať o napredovanie praxe. Napokon, výstupom a zmyslom nášho odboru nie sú teórie, niečo v duchu „l‘art pour l‘art“, ale teórie smerujúce ku skvalitneniu informačných systémov a služieb. Naša pozícia akademikov v odbore knižničná a informačná veda je síce príjemná, nezáväzná, poskytuje nám slobodu bádania a tvorbu vlastných teórií, metateórií, pretože nemáme priamu zodpovednosť za prax.

Ťažko sa však môžeme zbaviť zodpovednosti za stav tisícov knižníc a iných informačných inštitúcií a úroveň ich činnosti, ako aj za ďalšie vzdelávania a úroveň zamestnancov odboru.

Smerom do vnútra odboru zvyknem upozorňovať na otázku nedostatku odborového sebavedomia. Často sa zabúda na fakt, že jedinečnou podstatou odboru LIS sú zaznamenané informácie a poznatky, že odbor má za sebou stáročný vývoj, státisíce špecialistov, knihovníkov, bibliografov, vedcov a hlavne obrovskú inštitucionálnu základňu (knižnice, archívy, múzeá, dokumentačné centrá atď.). Ľudia v odbore o zaznamenaných informáciách a poznatkoch, o dokumentoch, ich tvorbe, získavaní, ochrane, sprístupňovaní atď. vedia všetko, sú najkompetentnejší a niekedy nechápem, prečo čakajú, že niekto z iného odboru im o tom povie viac.

Koncipovať teórie mimo jadra odboru je neakceptovateľné. To sa v prípade výkladového slovníka Informačná veda nestalo. Autori sú z odboru. Určite netreba vylúčiť spoluprácu s inými odbormi a odborníkmi. Práve naopak. Ibaže v tomto vzťahu musia mať hlavné slovo ľudia z odboru LIS. To viem z vlastnej skúsenosti. V súvislosti s recenzovanou knihou sa možno „pretlak“ iných disciplín a nedostatok sebavedomia špecialistov z odboru LIS prejavuje v tom, že sa hovorí o „informačnej vede“ a nie o „knižničnej a informačnej vede“. Toto ukrývanie „knižničnej“ zložky nášho odboru pravdepodobne súvisí so snahou vyzerať dôležitejšie a azda aj zvýšiť akceptovateľnosť odboru v kontexte iných študijných a vedných odborov a študijných programov. Namiesto toho, aby sme pojmu „knižničná a informačná veda/štúdiá“ resp. „knižničná, informačná veda a dokumentácia“ dávali nový význam zodpovedajúci rozvoju spoločnosti a technológiám, redukujeme ho na „informačnú vedu“, v ktorej sa náš odbor stráca.

Nazdávame sa, že napríklad systémovú analýzu pre dokumentový informačný systém, knižničný systém, digitálnu knižnicu apod. musí riadiť a definovať človek s kompetenciami LIS a nie informatik, ktorý je v tomto vzťahu len podriadený partner a nie naopak. A to je veľmi ťažké... Neúspešné a často zbabrané projekty z okruhu informatizácie spoločnosti (na Slovensku) to len potvrdzujú. Slovom, nestačí, že sa manažment inštitúcie alebo nejaké ministerstvo dohodne na dodávkach s nejakou IKT firmou. Bez dôkladnej a kvalitnej odbornej analýzy sa úspech nedostaví. A tu má nastúpiť akademický sektor odboru. Pokiaľ ide o metódy informačnej vedy, treba asi rozlišovať metódy knižnično-informačnej vedy, ktoré umožňujú plniť jej poznávaciu funkciu, ak takú má, alebo súhrn postupov, ktoré sa v nej používajú. Knižničná a informačná veda používa v rôznej miere rovnaké všeobecno-vedecké metódy ako iné vedy (indukcia, dedukcia, analýza, syntéza a pod.). Používa tiež svoje špeciálne aplikované metódy, ako kvantitatívna metóda, kvalitatívna metóda, deskriptívna metóda, komparatívna metóda, empirická metóda, informačná analýza, bibliometrická analýza, bibliografická analýza, informačný prieskum, dotazníkový prieskum, analýza používateľov knižničných a informačných systémov, štatistika výpožičiek, prehľad a pod.

Zdá sa, že v tomto ohľade je otvorená diskusia o vzťahu akademických pracovísk s informačnými inštitúciami ešte stále pred celou odborovou komunitou.

Bratislavský výkladový slovník Informačná veda je v každom prípade dobrá a užitočná publikácia, ktorá je obrazom a odrazom akademického myslenia o odbore knižničná a informačná veda u nás v súčasnosti.

KATUŠČÁK, Dušan. Chrestomatia informačnej vedy na spôsob slovníka. Knihovna: knihovnická revue. 2020, 31(2), 114–117. ISSN 1801-3252.

DROBÍKOVÁ, Barbora et al. Teoretická východiska informační vědy: využití konceptuálního modelování v informační vědě. Vydání první. Praha: Univerzita Karlova, nakladatelství Karolinum, 2018. 136 stran. ISBN 978-80-246-3716-7.

Barbora Drobíková, Radka Římanová, Jiří Souček, Martin Souček, Dušan Katuščák — 2018-12-18T12:55:00Z

Teoretická východiska informační vědy: Využití konceptuálního modelování v informační vědě

To je názov a podnázov 136 stranovej odbornej publikácie, ktorej autormi sú: Barbora Drobíková, Radka Římanová, Jiří Souček a Martin Souček. Vydala ju v roku 2018 Univerzita Karlova v Prahe.

Ambíciou a cieľom autorov je prispieť k formovaniu teoretických východísk informačnej vedy v Českej republike a nadviazať tak na tradície a predchádzajúcu generáciu českých odborníkov (M. Königová, A. Merta, R. Vlasák, J. Cejpek). Podstatu svojho prístupu vidia v tom, že k teoretickým východiskám informačnej vedy pristupujú prostredníctvom uplatnenia metódy konceptuálneho modelovania. Tento prístup považujú za netradičný a inovatívny.

Jednotliví autori publikácie pôsobiaci v Ústavu informačních studií a knihovnictví FFUK (ÚISK) sú známi odborníci v odbore knižničná a informačná veda a štúdiá (Library and Information Science, LIS).

Vzhľadom na potreby univerzitného vzdelávania a osobné preferencie majú títo odborníci už viacročné pedagogické, vedecké a publikačné skúsenosti. Každý z nich má určitú špecializáciu a orientuje sa na určité disciplíny LIS (informačná veda, bibliografia, katalogizácia, organizácia a riadenie procesov a služieb, logika, databázy, sémantika, dátové modely, systémové inžinierstvo, infometria, bibliometria... ). Do danej publikácie prispel každý z autorov zo svojho pohľadu. Spája ich názor, podľa ktorého je možné chápať metódu konceptuálneho modelu ako variant axiomatickej metódy pre potreby humanitných a sociálnych vied, teda aj pre informačnú vedu. Považujú za overené, že metóda konceptuálneho modelovania je základnou metódou informačnej vedy.

V siedmich kapitolách sa pokúšajú vymedziť jadro informačnej vedy. Kľúčový pojem informácia chápu predovšetkým v kontexte paradigmy informačný obsah – dokument. Vysvetľujú pojem informačné univerzum a tvrdia, že vhodným nástrojom pre štúdium in formačného univerza je tiež autormi preferovaná metóda konceptuálneho modelovania.

Metódu konceptuálneho modelovania najprv študujú na jednoduchom modeli knižnice a pre mňa prekvapujúco tiež na modeli CERIF (Common European Research Information Format), ktorý slúži ako štandardný európsky formát pre informačné systémy o výskume. Prekvapujúco pre mňa preto, lebo takých štandardov ako je CERIF je mnoho a viaceré z nich majú širšiu platnosť a majú bližšie k odboru LIS... (napr. niektorý štandard ISO zameraný na výmenu informácií, dátum a čas apod.). Vzhľadom na ciele práce považujem za kľúčovú inšpiráciu pre obsah publikácie model FRBR, pričom aj autori správne tvrdia, že model FRBR je pre nich základným východiskom.

Centrálnym pojmom je pre autorov model informačného univerza, pričom za základ informačného univerza považujú model sémantického zobrazenia obsahu informácie s použitím jazyka formálnej logiky.

Knihu hodnotím kladne z viacerých dôvodov. 1. Kniha je výsledkom spolupráce odborníkov rôzneho zamerania (špecialisti z LIS, knihovník, matematik, systémový analytik). Preto vysoko hodnotím schopnosť autorov vytvoriť tím a usilovať sa o spoločný pohľad na informačnú vedu. Spolupráca je potvrdením trendu scientizácie LIS a medzidisciplinárneho prístupu k informačnej vede. 2. Kniha na primeranej úrovni poskytuje výklady, vysvetlenia a poznatky pre potreby univerzitného vzdelávania v rámci ÚISK na Karlovej univerzite v Prahe. 3. Kniha prináša tvrdenia, ktoré potvrdzujú význam využitia metódy konceptuálneho modelovania, teda štrukturálnej analýzy v informačnej vede, resp. v LIS.

Popri všetkých pozitívach si dovoľujem upozorniť aj na niektoré problémy, spojené s obsahom knihy, ako aj s tvrdeniami autorov a s celkovým prístupom autorov k téme knihy.

Najprv otázka novosti. Je pochopiteľné, že každá generácia informačných vedcov a špecialistov sa usiluje o to, aby si vytvorila svoju predstavu o odbore záujmu v určitom čase. Tak je to i v tomto prípade. Vo vede, podobne ako v iných oblastiach, je nevyhnutná kontinuita poznania. Za inovácie je potom vhodné označovať prístupy, ktoré vychádzajú z dôkladného poznania odboru a danej vedy vôbec, a to nie len v rámci jednej krajiny. Veda a vedecké poznanie totiž nemajú hranice ani národné farby, a tak je potrebné pristupovať aj k inováciám. Takže je dôležité uvedomiť si, či je niečo nové a inovatívne pre autora alebo či ide skutočne o novosť a inováciu z hľadiska vedy ako takej v nadnárodnom zmysle. V danom prípade informačnej vedy.

Ak teda autori tvrdia, že ich kniha prináša nový, iný, inovatívny, netradičný prínos do informačnej vedy tým, že metódu konceptuálneho modelovania určili za základnú metódu a teoretické východisko informačnej vedy, je namieste otázka, či to považujú skutočne za svoj originálny prínos, alebo len potvrdzujú fakt, že táto metóda sa v informačnej vede už používa desiatky rokov, a preto fakticky nejde o novosť ani inováciu. Pripúšťam, že ide o novosť a inováciu pre autorov a o vysvetlenia vhodné na didaktické účely. Napokon, v samotnej knihe je kapitola týkajúca sa FRBR, ktorá je kvalitnou aplikáciou štrukturálnej analýzy, a teda uplatnenia entitno-relačného modelovania v odbore.

Otázka pretlaku mimoodborových špecialistov. Kniha ukazuje aj na iný aspekt, ktorý je v našom odbore, žiaľ, prítomný už desiatky rokov. Ide o zásadnú vec. Ide o to, že nerozvinuté teoretické myslenie a nedostatok vedcov v našom odbore LIS vytvára priestor pre odborníkov z iných vedných odborov, napr. informatikov, matematikov a pod., ktorí pristupujú k odboru LIS bez potrebnej odbornej pripravenosti ako k priestoru, ktorý akoby bolo treba tvoriť od začiatku, takpovediac na zelenej lúke. Tradiční knihovníci a informační špecialisti často nie sú pripravení byť partnermi exaktnejšie mysliacim špecialistom z iných odborov.

Otázka nedostatku sebavedomia. Často sa zabúda na fakt, že podstatou odboru LIS sú zaznamenané informácie a poznatky, že odbor má za sebou stáročný vývoj, státisíce špecialistov, knihovníkov, bibliografov, vedcov a hlavne obrovskú inštitucionálnu základňu (knižnice, archívy, múzeá, dokumentačné centrá atd.). Ľudia v odbore o zaznamenaných informáciách a poznatkoch, o dokumentoch, ich tvorbe, získavaní, ochrane, sprístupňovaní atd. vedia všetko, sú najkompetentnejší a nechápem, prečo čakajú, že niekto z iného odboru im o tom povie viac. Koncipovať teórie mimo jadra odboru je neakceptovateľné. Ale to neznamená, že treba vylúčiť spoluprácu s inými odbormi a odborníkmi. Práve naopak. Ibaže v tomto vzťahu musia mať hlavné slovo ľudia z odboru LIS. To viem z vlastnej skúsenosti. V súvislosti s recenzovanou knihou sa „pretlak“ iných disciplín a nedostatok sebavedomia špecialistov z odboru LIS prejavuje aj v tom, že sa hovorí o „informačnej vede“ a nie o „knižničnej a informačnej vede“. Toto ukrývanie „knižničnej“ zložky nášho odboru pravdepodobne súvisí so snahou vyzerať dôležitejšie a azda aj zvýšiť akceptovateľnosť odboru v kontexte iných študijných a vedných odborov a študijných programov. Namiesto toho, aby sme pojmu „knižničná a informačná veda/štúdiá“ resp. „knižničná, informačná veda a dokumentácia“ dávali nový význam zodpovedajúci rozvoju spoločnosti a technológiám, redukujeme ho na „informačnú vedu“, v ktorej sa náš odbor stráca.

Systémovú analýzu pre dokumentový informačný systém, knižničný systém, digitálnu knižnicu apod. musí riadiť a definovať človek s kompetenciami LIS a nie informatik, ktorý je v tomto vzťahu len podriadený partner a nie naopak. A to je veľmi ťažké... Neúspešné a často „zbabrané“ projekty z okruhu informatizácie spoločnosti (na Slovensku) to len potvrdzujú. Slovom, nestačí, že sa manažment inštitúcie alebo nejaké ministerstvo dohodne na dodávkach s nejakou IKT firmou. Bez dôkladnej a kvalitnej odbornej analýzy sa úspech nedostaví. V tomto zmysle súhlasím s autormi knihy, že všeobecná vedecká metóda konceptuálneho modelovania, teda metóda štrukturálnej analýzy prvkov a vzťahov je pre odbor kľúčová, avšak nie jediná. Pokiaľ ide o metódy informačnej vedy, treba rozlišovať metódy knižnično-informačnej vedy, ktoré umožňujú plniť jej po znávaciu funkciu, ak takú má, alebo súhrn postupov, ktoré sa v nej používajú. Knižničná a informačná veda používa v rôznej miere rovnaké všeobecno-vedecké metódy ako iné vedy (indukcia, dedukcia, analýza, syntéza a pod.). Používa tiež svoje špeciálne aplikované metódy, ako kvantitatívna metóda, kvalitatívna metóda, deskriptívna metóda, komparatívna metóda, empirická metóda, informačná analýza, bibliometrická analýza, bibliografická analýza, informačný prieskum, dotazníkový prieskum, analýza používateľov knižničných a informačných systémov, štatistika výpožičiek, prehľad a pod.

Otázka konceptuálneho modelovania v metodológii odboru. V súvislosti s recenzovanou prácou pripomínam, že autor Chu (2015)¹ považoval konceptuálnu analýzu, teda konceptuálne modelovanie, modelovú výstavbu a teóriu, za teoretický prístup.

Podrobný výskum použitých metód v odbore LIS z rokov 1980–2016 zverejnený v roku 2018 ukazuje, že spomedzi desiatok metód používaných v LIS bol najpoužívanejšou metódou prieskum (33 %). Po ňom nasleduje teoretická analýza a analýza obsahu (7 % každý). Ďalšie často používané metódy zahŕňajú historickú analýzu, bibliometrickú analýzu, návrh systému a experiment. Myslím, že autori by mali vo svojej ďalšej práci zohľadniť a nanovo posúdiť, nakoľko je konceptuálne modelovanie dominantnou metódou informačnej vedy, resp. knižničnej a informačnej vedy.

Recenzovanú publikáciu však napriek určitým otvoreným otázkam považujem za významnú udalosť v našom odbore a odporúčam ju odbornej verejnosti ako aj študentom a doktorandom v odbore knižničná a informačná veda. Verím, že sa stane dobrým základom pre diskusiu o metodologických otázkach nášho odboru.

Prof. PhDr. Dušan Katuščák, PhD.

¹ CHU, Heting. 2015. Research methods in library and information science: A content analysis. In: Library & Information Science Research 37 (2015), 36–41. Dostupné z: https://pdfs.semanticscholar.org/3c4e/872e41810c956c6dfccf7a89fbbc5f1d97a2.pdf

KATUŠČÁK, Dušan. DROBÍKOVÁ, Barbora et al. Teoretická východiska informační vědy: využití konceptuálního modelování v informační vědě. Vydání první. Praha: Univerzita Karlova, nakladatelství Karolinum, 2018. 136 stran. ISBN 978-80-246-3716-7. Knihovna: knihovnická revue. 2018, 29(2), 86–88. ISSN 1801-3252.

Úvodník 2018/2

Renata Salátová — 2018-12-18T12:55:00Z

Vážení přátelé,

předkládáme vám zimní číslo našeho časopisu, kde tentokrát najdete tři příspěvky v recenzované části. Recenzovanou část otevírá článkem PhDr. Helena Kučerová, Ph.D., svojí studií Pojem modelu a pojmový model v informační vědě. Autorka si dala za cíl naznačit cesty, jimiž by se mohlo uvažování o modelech v informační vědě ubírat, a to směrem ke zformování vlastní teorie pojmových modelů aplikovaných v procesech získávání, zpracování a využívání informačních zdrojů.

Doc. PhDr. Jaromír Kubíček, CSc., nás uvede do světa první republiky, konkrétně do doby vzniku prvního knihovnického zákona – Zákona o veřejných knihovnách obecních ze dne 22. července 1919. V příspěvku s názvem Vznik Československa a knihovnického zákona v roce 1919 popisuje, co zákonu předcházelo a co následovalo po jeho přijetí. Autor nás mj. také seznamuje s dobovými výrazy jako knihovnický instruktor, osvětové sbory, okresní knihovnický dozorce, zákonná povinnost zřídit knihovnu, obvodové knihovny, putovní knihovna, centrální putovní knihovna v Praze-Klementinu a mnohé jiné.

V historii ještě zůstaneme s článkem Mgr. Davida Macha, který ve svém příspěvku představuje skupinu obsahově a formálně podobných českojazyčných modlitebních knih vydaných v průběhu 18. či na začátku 19. století, jež byly tištěny antikvou. Název příspěvku – Českojazyčné modlitební knihy 18. století tištěné antikvou a počátky tohoto tiskového písma v českém knihtisku.

V části Knihovny a informace doma a ve světě nejprve Mgr. Pavlína Mazáčová, Ph.D., představuje v článku Projekty informační gramotnosti pro celoživotní učení tři tuzemské projekty: Co nebylo v učebnici – Spolupráce knihoven a škol ve vzdělávání žáků 21. století, dále projekt Zvýšení kvality vzdělávání žáků, rozvoje klíčových kompetencí oblastí vzdělávání a gramotností a projekt pod názvem Online Příručka informační gramotnosti.

Přinášíme i dva slovenské příspěvky. V prvním z nich nás PhDr. Andrea Hrčková, Ph.D., zavádí do světa mobilních interaktivních map, které slouží k orientaci v knihovnách (Metodologické aspekty testovania použiteľnosti mobilných interaktívnych máp pre účely orientácie v knižniciach). Mapy jsou součástí informačního a navigačního systému v knihovnách a slouží k lepší orientaci uživatelů. Tímto jsou také prevencí proti tzv. knihovní úzkosti (tj. stav, kdy se uživatel v prostoru knihovny ztratí či pociťuje negativní emoce a pochybuje o svých schopnostech se v knihovně orientovat). Nechme se tedy inspirovat tvorbou, metodikou či návodem k vytvoření těchto map a jejich testováním v prostoru knihovny.

Druhým slovenským příspěvkem je recenze na knihu autorského kolektivu pod vedením Barbory Drobíkové Teoretická východiska informační vědy: využití konceptuálního modelování v informační vědě. Recenzi zpracoval a výstižně do kontextu celého oboru zasadil prof. Dušan Katuščák.

Další recenze hodnotí knihu Vávrová, Petra, ed. a Magda Součková, ed. Konzervace a restaurování novodobých knihovních fondů – z pera doc. Michala Ďuroviče.

Rubrika Novinek zahraniční knihovnické literatury tentokrát přináší výběr z ruskojazyčných odborných periodik.

Na závěr chci říci, že si vážím práce všech, kteří se na vydání časopisů Knihovna: knihovnická revue i Knihovna plus podíleli a podílejí. Zvláštní poděkování patří všem autorům. Může vás těšit, že jste svým příspěvkem posunuli náš obor opět o něco dál, ať už z hlediska terminologického, tematického nebo informačního. Mohli jste se také stát inspirací pro druhé.

Přeji hodně úspěchů v publikování (redakční termíny jsou vystaveny na našich stránkách https://knihovnarevue.nkp.cz/).

Krásné prožití vánočních svátků a dobrý start v novém roce 2019.

Za redakci

Renata Salátová
výkonná redaktorka

Tiráž

admin — 2015-01-08T15:25:00Z

Vydává Národní knihovna ČR

Redakční rada:

Mgr. Adolf Knoll, předseda;
Mgr. Tomáš Gec;
PhDr. Hanuš Hemola;
prof. PhDr. Dušan Katuščák, PhD.;
PhDr. Anna Machová;
Mgr. Pavlína Mazáčová, Ph.D.;
dr. hab. prof. Grzegorz Nieć;
doc. PhDr. Richard Papík, Ph.D.;
PhDr. Vít Richter;
doc. PhDr. Pavel Rankov, Ph.D.;
Mgr. Martin Sekera, Ph.D.;
dr. Jürgen Warmbrunn;
doc. PhDr. Viktor Zacharov, CSc.

Šéfredaktorka:

PhDr. Renáta Krejčí Salátová
tel. 736 787 153, 221 663 343
e-mail: renata.salatova[zavináč]nkp[tečka]cz

Redakce, korektury:

PhDr. Anna Machová
tel. 221 663 342

Redakce anglických abstraktů

Děvana Pavlíková, FCLIP

Redakce:

Národní knihovna ČR – Knihovnický institut
Klementinum 190
110 00 Praha 1

Vychází 2x ročně v tištěné podobě

Cena: 200 Kč

Rozšiřuje, objednávky a předplatné přijímá Vydavatelské oddělení NK ČR
Centrální depozitář Hostivař
Sodomkova 2/1146
102 00 Praha 10

tel. 281 013 230
e-mail: renata.fialova[zavináč]nkp[tečka]cz

ISSN 1801-3252 (tištěná verze)
ISSN 1802-8772 (elektronická verze)

Redakční rada

admin — 2015-01-06T15:45:00Z

Redakční rada časopisu Knihovna: knihovnická revue

Šéfredaktorka:

PhDr. Renáta Krejčí Salátová [renata.salatova[zavináč]nkp[tečka]cz]

Redakční rada:

předsedkyně: Mgr. Zuzana Bolerazká, Ph.D. – náměstkyně pro vědu a výzkum, Národní knihovna ČR
PhDr. Hanuš Hemola - člen redakční rady
PhDr. Michal Hora – člen redakční rady
Prof. PhDr. Dušan Katuščák, Ph.D. – Bratislava, Slovensko

PhDr. Anna Machová – Knihovnický institut, Národní knihovna ČR, Praha, Česká republika.

Mgr. Pavlína Mazáčová, Ph.D. – Katedra informačních studií a knihovnictví, Filozofická fakulta Masarykovy univerzity, Brno, Česká republika.

Prof. dr hab. Grzegorz Nieć - Instytut nauk o informacji, Uniwersytet Komisji Edukacji Narodowej w Krakowie, Kraków, Polsko

Doc. PhDr. Richard Papík, Ph.D. – Filozoficko-přírodovědná fakulta, Slezská univerzita v Opavě, Česká republika.

PhDr. Vít Richter – ředitel Knihovnického institutu Národní knihovny ČR, Praha, Česká republika

Doc. PhDr. Pavel Rankov, Ph.D. – Katedra knižničnej a informačnej vedy Filozofickej fakulty Univerzity Komenského v Bratislave, Slovenská republika.

Mgr. Martin Sekera, Ph.D. – vedoucí oddělení časopisů a ředitel Knihovny Národního Muzea, odborný asistent Katedry mediálních studií FSV UK Praha, Česká republika.
Dr. Jürgen Warmbrunn - Herder Institut für historische Ostmitteleuropaforschung, Marburg, Německo

KONTAKT

Veškerou korespondenci adresujte na jméno šéfredaktorky. Při veškeré korespondenci vždy uvádějte Vaše kontaktní údaje.

PhDr. Renáta Krejčí Salátová

email: [renata.salatova[zavináč]nkp[tečka]cz]

tel. 221 663 343

mob. 736 787 153

Redakce časopisu Knihovna: knihovnická revue a Knihovna plus

Renáta Krejčí Salátová

Národní knihovna ČR - KI

Klementinum 190

110 00 Praha 1

Knihovnická revue

KATUŠČÁK, Dušan et al. Kompendium knihovnictví . 1. První vydání. Ostrava: Moravskoslezská vědecká knihovna v Ostravě, 2022. 302 stran. ISBN 978-80-7054-306-1.

Editorial 2026/1

Umelá inteligencia pomáha sprístupňovať písomné dedičstvo

Úvod

Digital humanities a projekt READ

Súčasný stav výskumu a aplikácií

Pokrok vo výskume

Význam a vlastnosti platformy Transkribus

Alternatívy platformy Transkribus

READ‑COOP

Projekt SKRIPTOR 19

Pracovný postup transkripcie

Experiment so zbierkou listov Andreja Kmeťa

Výber zbierky

Snímanie

Nahrávanie súborov digitálnych obrazov

Segmentácia

Tréning stroja HTR

Automatická transkripcia

Transkripcia fraktúry (švabachu) 24

Ďalší výskum

Záver. Efektívnosť platformy Transkribus

Poďakovanie

Zoznam bibliografických odkazov

Poznámky

Doc. PhDr. Pavel Rankov, PhD.

Jubilant prof. Dušan Katuščák

K životnímu jubileu profesorky Jely Steinerovej

Výber najvýznamnejších publikácií (radené chronologicky):

Cesta ku kvalitatívnemu vyjadreniu tvorivého podielu osôb vo vede a výskume prostredníctvom implementácie taxonómie CRediT

Úvod

Kvalita diel a kvalita autorov

Pre akademikov a vydavateľov

Význam taxonómie

Implikácie pre prax

Roly v agende CREPČ na Slovensku

Roly v taxonómii CRediT8

Záver

Príklad použitia CRediT (na konci štúdie)9

Editorial 1/2026

Pokrok v transkripci historických rukopisných dokumentů

Úvodník 2020/2

STEINEROVÁ, Jela a Miriam ONDRIŠOVÁ a kol. Informačná veda: Výkladový slovník. Bratislava: Univerzita Komenského, 2020. 278 s. ISBN 978-80-223-4866-9.

Chrestomatia informačnej vedy na spôsob slovníka

DROBÍKOVÁ, Barbora et al. Teoretická východiska informační vědy: využití konceptuálního modelování v informační vědě. Vydání první. Praha: Univerzita Karlova, nakladatelství Karolinum, 2018. 136 stran. ISBN 978-80-246-3716-7.

Úvodník 2018/2

Tiráž

Redakční rada:

Šéfredaktorka:

Redakce, korektury:

Redakce anglických abstraktů

Redakce:

Redakční rada

Redakční rada časopisu Knihovna: knihovnická revue

Šéfredaktorka:

Redakční rada:

KONTAKT

Roly v taxonómii CRediT⁸

Príklad použitia CRediT (na konci štúdie)⁹