Můj malý svět

Obrať obličej k slunci
a stíny budou padat za tebe

Svobodné slovníky po roce existence

Naprostou náhodou na mě loni touto dobou spadla správa projektu GNU/FDL Anglicko-Českého slovníku, známého také jako slovnik.zcu.cz. Nabízí se tak drobné ohlédnutí za prvním rokem.

Dlouhé roky jsem slovník používal a zkraje září jsem si kvůli selhání disku instaloval na počítač nový systém, tak jsem to vzal jako příležitost stáhnout aktuální verzi slovníku. Ale web nejel… Kontaktoval jsem Milana Svobodu (původního správce), sháněl poslední verzi dat, psal na AbcLinuxu.cz. Nakonec jsem založil Svobodné slovníky.cz (s vizí, že nezůstane jen u angličtiny), trochu nejčerstvější data pročistil od náhodného balastu, dal na Github, sepsal několik skriptů na generování seznamu přispěvatelů a bylo.

K mému potěšení se našlo hned několik dalších lidí, kteří začali do slovníku přispívat. Kromě nových a vylepšených překladů také úklidem – kvalita dat totiž není zdaleka ideální a je tu velký prostor ke zlepšení. Kvalita dat totiž ovlivňuje možnosti jejich dalšího zpracování a využití.

Píší mi i další lidé, co mají nápady na další rozvoj slovníku. Kupříkladu je otevřená možnost přidat k překladům také výslovnost, která se dá získat z dalšího svobodného zdroje (takže žádný problém s licencí). Nutno říct, že takovou věc bych uvítal i já jako uživatel.

Nicméně bezesporu nejzajímavější byl e-mail od barmského mnicha Sarany. Sarana se totiž pustil do ohromujícího díla: barmsko-anglicko-českého slovníku. Data má v XML a exportuje je i do PDF. Vedle překladů má i velké množství fotografií (desítky tisíc). Řada slov je navíc zařazena do kategorií (trošku jinak pojatých než v současném anglicko-českém slovníku). Přidává i obohacení o gramatickou informaci a slova, která fungují jako synonyma, spolu provazuje. Zkrátka velká věc, klobouk dolů. Slovník bude patrně mít vlastní webové rozhraní pod doménou svobodneslovniky.cz. (Mimochodem, Sarana uvítá jakoukoli pomoc!)

Na základě podnětu jsou data slovníku také přístupnější a uchopitelnější pro česky nehovořící uživatele. Na IRC jsem už potkal finského studenta, který slovník využívá ke studiu češtiny (a jde mu to dobře!). Vylepšili jsme formát i o nativní podporu více autorů nad jedním překladem.

Velkým milníkem pro slovník(y) by mělo být webové rozhraní, které jeden dobrovolník připravuje. Bude tam prostor pro používání slovníku i pro jednoduché přispívání do něj – a změny by se pak měly umět synchronizovat do gitu a zpátky na web. Snad splní plán a do konce tohoto roku to bude. :c) Svým příspěvkem by pak mohl slovník vylepšit úplně každý a ne jen lidé s účtem na githubu (už jsem v tomhle směru i dostal jednu stížnost ;c)).

Další vývoj

V plánu pro anglický slovník mám vedle překlopení zásobníku nových překladů i oprav hlavně velké čištění, z části i poloautomatické. Na téměř čtvrt miliónu záznamů je zkrátka stále co vylepšovat. :c)

Přijít by v druhém roce mohly také další jazyky. Na jednom už dlouhodobě pracuji (3 tisíce záznamů), ale bude to chtít zmrazit, zapracovat na kvalitě a vyspecifikovat dobře formát. A druhým bude celkem přirozeně němčina, ke které sice existuje jakýsi GNU/FDL slovník, ale překladů je v něm opravdu málo a je naprosto neudržovaný. Takový celkem nemá cenu vůbec brát v potaz. Novou licencí by měla být Creative Commons a pokusím se zkontaktovat autory překladů, jestli jimi přispějí pod novou licencí do nového slovníku. A opět: hlavní bude formát. Angličtina je jednoduchá, ale další jazyky už mají podstatně bohatší gramatický systém, který se hodí ve slovníku zachytit.

Zaškatulkováno v kategorii: Projekty | 21. září 2017

Komentáře

#1: JD píše:
13. října 2017 10.28

Ahoj,

k tomu vývoji mimo github - neměl by být problém zasílat pull requesty emailem jako se třeba vyvíjí Linux. Nebo stačí prostě zaslat patch. K vyklonování repozitáře na githubu není třeba být registrován.

K rozšiřování na další jazyky - nebál bych se přidat i bídný slovník. Úpravy se už nějak začnou nabalovat, ale ten počáteční organizační krok je myslím nejdůležitější.

JD


#2: xHire píše:
13. října 2017 18.58

Github je polovinou toho problému – druhou je git samotný. Samotné patche od kohokoli rád přijmu a nějakým způsobem via github začlením, ale mnoho lidí nemusí být natolik zdatných, případně ochotných, aby se kvůli příspěvku do slovníku učili pracovat s gitem. :c)

U nových jazyků mi jde primárně o formát. Samozřejmě je možné začít s tím, co má anglický, ale když je ta možnost, chtěl bych prvně mít jasno ve formátu, než někdo začne pracovat na plnění slovníku překlady. U prázdného slovníku to může narůstat docela rychle. :c) Například v tom zmíněném, u kterého jsem ještě neprozradil, o jaký jazyk půjde, je opravdu hodně gramatických informací, zejména další základní pády kromě prvního. A to je podstatně jednodušší zadat v okamžiku přidávání záznamu než později vše procházet a doplňovat (což vím, protože jak se mi vyvíjí pod rukama, tak už jsem to párkrát dělal :c)).

Jinak na počátečním počtu záznamů nijak nelpím, jen jsem se potřeboval prokousat dostatečným počtem na to, abych identifikoval tu gramatiku, kterou do toho chci zahrnout.

Díky za první komentář na novém blogu. :c)


#3: JD píše:
19. října 2017 9.55

Abych se přiznal, na to, že by git byl pro někoho překážkou, jsem vůbec nepomyslel.

Ještě k dalšímu vývoji slovníku. Pokud máš nějaké nápady, nenechávej si je, prosím, pro sebe a vytvoř pro ně issue v Githubu.


Jak přidat komentář? E-mailem! :c) Na komentare -zavináč- mujmalysvet -tečka- cz – do předmětu „Komentář:“ + název zápisku (tj. „Komentář: Svobodné slovníky po roce existence“), případně připojte i svou přezdívku a domovskou stránku.