Formát .pdf (Portable Document Format) prokazatelně není strojově čitelným formátem, protože nesplňuje podmínky definice v § 3 odst. 7 (zejména požadavek tohoto ustanovení „schopnost programového vybavení rozpoznat vnitřní strukturu informací v souboru“, např. určit, jaký obsah má určitá buňka tabulky, co je nadpis kapitoly a jakou úroveň má, co je poznámka pod čarou atd.
V praxi a bohužel i metodice Ministerstva vnitra ohledně zákona o registru smluv se (přes protesty) via facti prosadila nesprávná praxe, že formát .pdf s textovou vrstvou – jakým je typicky naskenovaný text smlouvy uzavřené v listinné podobě s textově čitelnou vrstvou – údajně splňuje požadavek strojové čitelnosti.
Při interpretaci právních pojmů je třeba vycházet mimo jiné také z vůle zákonodárce. Ten byl při přijetí zákona č. 222/2015 Sb., kterým se mění zákon č. 106/1999 Sb., o svobodném přístupu k informacím, veden důvodovou zprávou z dílny MV. Ta uvádí „Obecně jsou za formáty, které umožňují strojovou čitelnost, považovány formáty RDF, CSV, XML a částečně HTML (nikoliv PDF, TXT, RTF).“
Metodika MV k registru smluv tak rozsáhle ohrožuje množství povinných subjektů a jejich smluvních vztahů.
V případném sporu o platnost smlouvy, uveřejněné v registru, naprosto není zřejmé, jak budou tyto okolnosti hodnotit soudy. Metodika MV pro ně nemůže být ani zdaleka tak závazná, jako text zákona. Lze předpokládat, že budou vycházet jednak z jazykového znění zákona, jednak z důvodové zprávy.
Navíc vydávat pdf za strojově čitelný formát znamená degradaci významného legislativního pojmu a ohrožuje celý koncept strojové čitelnosti, otevřených dat a poskytování informací zásadně v dobře použitelném a automatizovaně analyzovatelném formátu. Zároveň se nezdá možné prosadit v aplikační praxi uveřejňování smluv v registru smluv upuštění od .pdf formátu a jeho nahrazení skutečně strojově čitelnými formáty.
Doporučení:
Proto nezbývá, než na tyto problémy upozorňovat a doporučovat povinným subjektům:
a) v zásadě se vyhýbat formátu pdf při zveřejňování v registru smluv, organizovat postupy tak, aby se zveřejňovaly originální soubory textových editorů, zejména docx, odt, xml, případně doc, html.
b) pokud toho nejsou zatím schopny, alespoň používat nanejvýše přímo konvertovaný formát pdf vznikající uložením originálního souboru textového editoru jako pdf, tedy s maximální dosažitelnou textovou (nikoli strojovou) čitelností, přičemž ani tento postup nelze dopručit u vysoce rizikových smluv (stavby, rozsáhlé technologické celky, vysoké sumy).
c) zcela jednoznačně nepoužívat jakýkoliv skenovaný dokument, kterému je teprve následně pomocí některého programu OCR (Optical Character Recognition) přidána textová vrstva, s vyšší či nižší mírou chybovosti, a samozřejmě naprosto bez jakékoliv informace o struktuře informací v souboru. Pokud není jiné možnosti, pak alespoň takto rekognoskovaný textový obsah smlouvy okopírovat do formátu např. docx a opravit v něm významnější chyby, zasahující podstatné náležitosti smlouvy, a tento teprve zveřejnit v registru smluv.