April 2009 : Cogen gebruikt Levenshtein-algoritmes voor de berekening van bijna-identieke passages
Het bij elkaar brengen van bijna-identieke passages is een populaire methoden voor het overhevelen vanuit het vertaalgeheugen als passages voor minder dan 100% gelijk zijn, oftewel geen “volledig identieke passages”.
Cogen heeft recentelijk haar algoritme voor dit type tekstfragmenten herschreven; het bevat nu ook de meting van de te bewerken tekstafstand zoals gedefinieerd door de Russische wetenschapper Vladimir Levenshtein. De Levenshtein-afstand is een metrieke waarde die wordt gebruikt voor het meten van het verschil tussen twee passages (d.w.z. de “te bewerken tekstafstand”). Hij wordt vaak gebruikt in toepassingen die moeten bepalen hoe gelijk, of hoe verschillend, twee reeksen tekens zijn – zoals in spellingcontroleprogramma’s.
In het Vertaalgeheugen-programma biedt het Levenshtein-algoritme enkele grote voordelen:
het is ongelooflijk nauwkeurig bij de berekening van het percentage van de overeenkomstigheid. In de algoritme van Cogen is de drempel voor het percentage “tekstovereenkomst” op 60% gezet. Zodra 60% van de inhoud overeenkomt, dan worden twee segmenten beschouwd als bijna identiek en daarmee gaat de vertaalvergoeding met 50% omlaag. De vertaalvergoeding van Cogen voor bijna identieke passages is dan ook lager dan gebruikelijk is in onze bedrijfstak.
Het algoritme is ideaal voor logorafische schrijfsystemen als Chinees en Japans.
Het zorgt voor een intensiever gebruik van het vertaalgeheugen, waardoor de doorlooptijd van de vertaling korter wordt en de kwaliteit beter.
Als u een exemplaar wilt ontvangen van Cogens witboek over het Levenshtein-algoritme, kunt u contact opnemen met:
Jean Mandron, Business Development Manager (+33 1 46 91 89 14,
Dit emailadres is beveiligd tegen spambots, u heeft javascript nodig om het te kunnen bekijken
)
Hélène Keufgens, CEO (+32 6789 2514,
Dit emailadres is beveiligd tegen spambots, u heeft javascript nodig om het te kunnen bekijken
)
|