Registr smluv - strojově čitelný formát

Libor Jarmič

19. 2. 2019 | Počet zhlédnutí: 5098 | Počet komentářů: 1

Na školení k registru smluv jste uvedl, že je velice na hraně uveřejňovat smlouvy ve formátu pdf, a to i v případě, že mají textovou (OCR) vrstvu.

Rád bych si proto ujasnil, jak jste uvedené myslel. Typ souboru pdf je obecně akceptovaný, a to jak ze strany MV ČR, tak to vyplývá i z Vašich školících podkladů. Určitě se shodneme, že prostý sken (jako obrázek) ve formátu pdf je naprosto nedostatečný, a způsobuje neplatnost takto uveřejněné smlouvy. Osobně však zastávám názor, který mi zatím nikdo nevyvrátil, že pdf soubor vytvořený např. z Wordu (nejde o sken!), má prakticky dokonalou textovou vrstvu, neboť převádí veškerý text se zachováním strojově čitelného formátu. Dále se domnívám, že je přípustný i sken v souboru pdf s textovou (OCR) vrstvou, který dokáže rozlišit jednotlivá písmena i slova, a že nevadí, pokud není strojově čitelné např. záhlaví či zápatí smlouvy, ale samotný obsahový text smlouvy ano. Samozřejmě se lze setkat také s názorem, že formáty ani doc., docx., rtf. a txt. nejsou strojově čitelné, což by pak vylučovalo téměř veškeré běžně dostupné soubory aprobované portálem pro uveřejňování smluv (zbyl by jen formát odt.).

Oldřich Kužílek

Poradce pro otevřenost veřejné správy

19. 2. 2019

Formát .pdf (Portable Document Format) prokazatelně není strojově čitelným formátem, protože nesplňuje podmínky definice v § 3 odst. 7 (zejména požadavek tohoto ustanovení „schopnost programového vybavení rozpoznat vnitřní strukturu informací v souboru“, např. určit, jaký obsah má určitá buňka tabulky, co je nadpis kapitoly a jakou úroveň má, co je poznámka pod čarou atd.

V praxi a bohužel i metodice Ministerstva vnitra ohledně zákona o registru smluv se (přes protesty) via facti prosadila nesprávná praxe, že formát .pdf s textovou vrstvou – jakým je typicky naskenovaný text smlouvy uzavřené v listinné podobě s textově čitelnou vrstvou – údajně splňuje požadavek strojové čitelnosti.

Při interpretaci právních pojmů je třeba vycházet mimo jiné také z vůle zákonodárce. Ten byl při přijetí zákona č. 222/2015  Sb., kterým se mění zákon č. 106/1999 Sb., o svobodném přístupu k informacím, veden důvodovou zprávou z dílny MV. Ta uvádí „Obecně jsou za formáty, které umožňují strojovou čitelnost, považovány formáty RDF, CSV, XML a částečně HTML (nikoliv PDF, TXT, RTF).“

Metodika MV k registru smluv tak rozsáhle ohrožuje množství povinných subjektů a jejich smluvních vztahů.

V případném sporu o platnost smlouvy, uveřejněné v registru, naprosto není zřejmé, jak budou tyto okolnosti hodnotit soudy. Metodika MV pro ně nemůže být ani  zdaleka tak závazná, jako text zákona. Lze předpokládat, že budou vycházet jednak z jazykového  znění zákona, jednak z důvodové zprávy.

Navíc vydávat pdf za strojově čitelný formát znamená degradaci významného legislativního pojmu a ohrožuje celý koncept strojové čitelnosti, otevřených dat a poskytování informací zásadně v dobře použitelném a automatizovaně analyzovatelném formátu. Zároveň se nezdá možné prosadit v aplikační praxi uveřejňování smluv v registru smluv upuštění od .pdf formátu a jeho nahrazení skutečně strojově čitelnými formáty.

Doporučení:

Proto nezbývá, než na tyto problémy upozorňovat a doporučovat povinným subjektům:

a) v zásadě se vyhýbat formátu pdf při zveřejňování v registru smluv, organizovat postupy tak, aby se zveřejňovaly originální soubory textových editorů, zejména docx, odt, xml, případně doc, html.

b) pokud toho nejsou zatím schopny, alespoň používat nanejvýše přímo konvertovaný formát pdf vznikající uložením originálního souboru textového editoru jako pdf, tedy s maximální dosažitelnou textovou (nikoli strojovou) čitelností, přičemž ani tento postup nelze dopručit u vysoce rizikových smluv (stavby, rozsáhlé technologické celky, vysoké sumy).

c) zcela jednoznačně nepoužívat jakýkoliv skenovaný dokument, kterému je teprve následně pomocí některého programu OCR (Optical Character Recognition) přidána textová vrstva, s vyšší či nižší mírou chybovosti, a samozřejmě naprosto bez jakékoliv informace o struktuře informací v souboru. Pokud není jiné možnosti, pak alespoň takto rekognoskovaný textový obsah smlouvy okopírovat do formátu např. docx a opravit v něm významnější chyby, zasahující podstatné náležitosti smlouvy, a tento teprve zveřejnit v registru smluv.

Vkládat reakce mohou jen přihlášení uživatelé!
Nemáte ještě u nás účet? Zaregistrujte se!

Nenašli jste odpověď na váš problém? Nezoufejte, popište nám
ho a my vám odpovíme.

Souhlasíte, že úřady nemají občanům nic tajit?

Donoři

V minulosti podpořili také

RSJ SCIO GopayFond Otakara MotejlaUS embassy