Vytvoření strojově čitelného formátu a anonymizace

Jana Sirůčková

17. 10. 2018 | Počet zhlédnutí: 5664 | Počet komentářů: 1

Obracím se s dotazem ohledně formátu zveřejňovaných dokumentů a anonymizace. Pokud budeme mít povinnost zveřejnit smlouvu, kterou máme pouze v originále a nemáme možnost vytvořit pdf se strojově čitelnou vrstvou? Řešením je zakoupit tiskárnu, která umí vytvořit formát pdf, se strojově čitelnou vrstvou, ale jak je to v tomto případě s anonymizací? Lze zakoupit nějaký software, který by mi u takto vytvořeného formátu pdf provedl anonymizaci? Nebo software, který by převedl "klasický"pdf formát na strojově čitelný a zároveň dokument anonymizoval?

Oldřich Kužílek

Poradce pro otevřenost veřejné správy

20. 10. 2018

Úvodní poznámka: dotaz signalizuje, že pravděpodobně celý proces sjednání smlouvy (kontraktace) probíhá od počátku nevhodně a bez respektování toho, že musí být zveřejněna v registru smluv. Je třeba proces přeorganizovat hned na jeho počátku.

Originál smlouvy samozřejmě nemohl vzniknout jinak, než ve strojově čitelném formátu (nepředpokládám jeho vytvoření na psacím stroji nebo psaný ručně). Pokud jej nemáte vy, nepochybně jej má druhá strana smlouvy. Ani jedna strana smlouvy nemá povinnost smlouvu zveřejnit, ale obě mají fatální zájem, aby bylo zveřejněna a tedy platila. Je tedy fatálním zájmem druhé strany, která ji má ve strojově čitelném formátu, aby smlouvu buď sama zveřejnila, anebo aby vám ji ve strojově čitelném formátu poskytla ke zveřejnění. To je vhodné ujednat již na počátku kontraktace.

Je nutno druhou stranu smlouvy požádat o strojově čitelný formát smlouvy a upozornit, že pokud tak neučiní, smlouva bude po 3 měsících, kdy nebude řádně zveřejněna, zrušena a strany si budou muset vrátit poskytnuté plnění anebo vypořádat bezdůvodné obohacení, což je právně náročný a drahý proces. Pokud druhá strana smlouvu odmítne poskytnout ve strojově čitelném formátu, ač ji má, bude možné po ní tuto škodu vymáhat.

Pokud však nehodláte přimět druhou stranu, aby splnila svou povinnost a poskytla strojově čitelnou smlouvu, naznačujete náhradní řešení.

Pokud takové náhradní řešení spočívá ve skenování papírové smlouvy do formátu pdf a přidání textové vrstvy pomocí programu OCR, je takové řešení rizikové, protože nelze odhadnout, zda by ho při případném soudním sporu soud uznal jako řádné zveřejnění, neboť formát pdf s takto získanou textovou vrstvou je na hony vzdálen právnímu požadavku strojově čitelného formátu (viz např. důvodová zpráva k zákonu č. 222/2015 Sb., která uvádí: „Obecně jsou za formáty, které umožňují strojovou čitelnost, považovány formáty RDF, CSV, XML a částečně HTML (nikoliv PDF, TXT, RTF).“

Právně bezpečným náhradním řešením by mohlo být skenování papírové formy smlouvy do některého formátu s textovou vrstvou (docx, pdf, rtf apod.) a následně vložení této textové vrstvy do některého skutečně strojově čitelného formátu (doc, docx, odt, ad.). Nutná je však navazující kontrola textu a odstranění chyb, vzniklých nepřesným skenováním a vytvářením textové vrstvy. Po takové kontrole je možné takto připravený dokument s plným textovým obsahem smlouvy ve strojově čitelném formátu použít pro bezpečnou publikaci v registru smluv.

K dotazu je nutno ještě vás informovat, že pojem „tiskárna“ není v této souvislosti namístě. Máte asi na mysli multifunkční zařízení – tiskárnu se skenerem, v němž skener (nikoli tiskárna) „ofotografuje“ papírovou smlouvu a vytvoří jeden vícestránkový dokument, a zároveň asi má software „OCR“, které dovede z tohoto obrazu „přečíst“ text a přiřadit mu textovou vrstvu. Takový postup lze ale provést jakýmkoliv skenerem (dokonce i mobilem, viz dále) a následným přečtením pomocí programu „OCR“, který můžete mít samostatně, a který je například součástí bezplatně použitelného softwaru PDF-XChange Viewer (jakož i mnoha dalších). Sken papírové smlouvy do pdf formátu můžete provést také chytrým mobilem, pokud je v něm stažená aplikace typu skener – takto velmi rychle můžete ofotografovat smlouvu „ze stolu“ do vícestránkového souboru pdf, poslat si ji z mobilu do počítače a v něm pomocí uvedeného programu (např. PDF-XChange Viewer) pro prohlížení souborů pdf provést přečtení textu a přiřazení textové vrstvy (OCR). S tou pak pracovat, jak je uvedeno výše.

Anonymizace:

Anonymizace spočívá ve vyhledání údajů, které nesmějí být zveřejněny (dominantně jde o osobní údaje) a jejich znečitelnění. Jelikož je nutné pracovat se strojově čitelným formátem (jak uvádím výše), provede se anonymizace tak, že se příslušné pasáže nahradí znaky XXXXXX.

Pro případy rozsáhlé náročné anonymizace mnoha dlouhých textů se na trhu nabízejí tzv. anonymizační programy (často zabudované do programu, který skenuje či převádí dokumenty do pdf s textovou vrstvou), které

a) vyhledávají a navrhují obsluze k anonymizaci typické pasáže, představující zpravidla chráněné osobní údaje, jako jsou jména, příjmení, adresy, rodná čísla, e-maily, telefonní čísla. Tyto programy jsou ale velmi nedokonalé jak technicky, tak obsahově (právně). Jejich vyhledávání jednak zdaleka nezaručuje, že vyhledá všechny chráněné osobní údaje, jednak často navrhuje anonymizovat množství údajů, které anonymizovat buď z právního hlediska nelze (ohrozí to platné zveřejnění smlouvy) anebo není nutné;

b) nabízejí technickou formu znečitelnění, zpravidla spočívající v nahrazení textové vrstvy v daném místě černým obdélníkem (nikoli jen překrytí textu obdélníkem v další vrstvě při ponechání textu v původní vrstvě). Tento postup je však chybný (bez ohledu na to, že se mnoho takových programů nabízí), protože jeho výstup je zpravidla formát pdf, který není strojově čitelným formátem a nesplňuje právní požadavky pro zveřejnění v registru smluv. Ani chybná metodika Ministerstva vnitra v této věci neskýtá záruku, že při případném sporu soud takto zveřejněnou smlouvu uzná za řádně zveřejněnou.

Pokud tedy nepotřebujete anonymizovat skutečně rozsáhlé texty či jejich velké množství, lze doporučit pouze výše popsaný postup a texty anonymizovat vlastním čtením.

Jak jsem ale uvedl již v úvodní poznámce, klíčové je, aby již při kontraktaci ten, kdo smlouvu připravuje (zpravidla právník) měl jasné vědomí, co ve smlouvě jsou chráněné údaje, a pracoval s nimi tak, aby byly ve smlouvě pouze jednou (nejlépe na začátku) tak, aby se anonymizace provedla jen na jednom místě.

Vkládat reakce mohou jen přihlášení uživatelé!
Nemáte ještě u nás účet? Zaregistrujte se!

Nenašli jste odpověď na váš problém? Nezoufejte, popište nám
ho a my vám odpovíme.

Souhlasíte, že úřady nemají občanům nic tajit?

Donoři

V minulosti podpořili také

RSJ SCIO GopayFond Otakara MotejlaUS embassy