Sémantické značkování v HTML

Zde rekapituluji svůj aktuální pohled na problém sémantického značkování v HTML dokumentech.

Je léto 2010. V návrhové fázi je HTML „verze“ 5. HTML5 oproti předchozím verzím znamená mírný pozitivní posun v možnostech značení významu, přesto jsou tyto možnosti stále spíše symbolické.

HTML5 nemá posílení sémantického značení ve svých cílech. Nevím, jaké má HTML5 od sebe očekávání (v oblasti značkování obsahu), ambice nebo vize. HTML5 obsahuje řadu nových značek – často však nejsou popisující význam, anebo jsou popisující význam značně neurčitě, někdy příliš široce, někdy zkrátka neurčitě. To se musí promítnout v kvalitě sémantické informace v dokumentech v HTML5. Neumím si moc představit, že by tyto značkovací možnosti samy o sobě vytvořily možnost smysluplné extrakce obsahu z dokumentu. I tak základní rozlišení významu, jako oddělení obsahu od navigačních a ovládacích prvků se mi zdá problematické. Není možné rozlišit obsah od jeho metadat, ani říct, zda tyto do obsahu spadají anebo ne. O rozlišování nějakých detailů v metadatech nemůže být řeč, snad až na výjimku možnosti značit časové údaje (element type).

Minulost značení pomocí HTML je sémantiky-prostá. Tvůrci HTML dokumentů, natož pomocné nástroje nejsou vybaveny potřebnými návyky a přístupy, které sémantické značkování podle mě vyžaduje. Jde zejména o odpovědnost za vlastní kód, preciznost při používání značkovacího jazyka.

Zprvu HTML značilo prezentaci (vzhled), později strukturu. Nyní se pokusí, zprvu v omezené míře, vyjádřit význam. Zatímco přechod od vzhledu ke struktuře nebyl příliš znát, protože jednak dosud proběhl jen částečně a za druhé prezentační stránka je vizuálním vyjádřením struktury, a tedy tato „zpětná interpretace“ se provádí poměrně snadno. Zapojení sémantické otázky znamená větší překážku. Po uživatelích jazyka bude poprvé vyžadována skokově kvalitnější znalost slovníku. Navíc, slovník(y) nebude tak snadné držet v myslích, což bylo do teď možné bez potíží.

Chyby, které byly doposud v HTML dokumentech existovaly se nijak podstatně neprojevovaly. Ty gramatické byly často opraveny, ať už tvůrcem (neboť způsobily chybu při renderování dokumentu), nebo parserem. Ty slovníkové nehrály žádnou roli, protože slovník nehrál žádnou roli. Ale pokud budeme chtít pracovat s významem frakcí dokumentu, chyby při práci se slovníkem se projeví při zpracovávání dokumentu. Zpracovávání je závislé na interpretaci slovníku v agentovi, tedy testování kvality sémantického značení má z principu své limity.

Jinými slovy, tvorba HTML dokumentů se sémantickým značením vyžaduje více úsilí. Úsilí je čas, a ten je lidmi docela ceněn. Pokud není na obzoru odměna za takové vynaložené úsilí (a kdoví, kolik autorů dokumentů bude oplývat dostatečně motivující vizí), dalo by se předpokládat, že něco takového, jako je sémantické značení, se bude praktikovat jen velmi omezeně.

Rozšíření sémantiky v HTML

Jsou dva nebo tři doplňkové jazyky, k HTML.

  • mikroformáty, microdata, RDFa: poskytují slovníky k popsání několika sémantických prostorů, jako časové údaje/události, osobní údaje, (nejen) popisná metadata obecných anebo konkrétně multimediálních dokumentů, geografické souřadnice, atd. Jejich vývoj se zdá být reakcí na reálné potřeby, ale v posledních letech se zdá být poněkud stagnujícím. Jakoby ty významy, jejichž strojové zpracování má evidentní praktický význam byly zmapovány (do podoby slovníku), a ty další, méně evidentní, teprve na popsání čekají.
  • WAI-ARIA role atributy: rozšíření HTML s cílem zlepšení přístupnosti dokumentů pro asistivní technologie. Mimo jiné je pomocí role atributů značen i význam prvků. Možnosti značení zůstávají v obecném kontextu, rozsah je podobný značkám HTML5. (Ovšem možnosti značení dalších vlastností prvků (např. jakým způsobem se prvek stránky účastní interakce), jsou pozoruhodné. I tato specifikace (verze 1) je momentálně, stejně jako HTML5 ve stádiu návrhu (working draft), tzn. změny nejsou vyloučeny.

Možnosti těchto rozšiřujících jazyků by zasloužilo rozepsat, ale zatím je můj názor na ně velmi neucelený a proměnlivý.

Diskuse mimořádně vítána.


Komentáře

RSS kanál komentářů

Zatím bez komentáře.

Přidat komentář

Nápověda ke psaní komentářů

Zde formátuje Texy!

  • *zvýraznění*
  • **silné zvýraznění**
  • > citace
  • "odkaz":http://kam
  • [4] reakce na komentář
  • zdrojové kódy a více

úplně nahoru