Vad är OCR (Optical Character Recognition)?

Optical Character Recognition (OCR) är en process att omvandla tryckt material i text eller Word-filer bearbetning som lätt kan redigeras och lagras. Tekniken har gjort det möjligt sådant material som skall lagras med hjälp av mycket mindre lagringsutrymme än den tryckta material. OCR-tekniken har gjort en enorm inverkan på hur information lagras, delas och redigeras. Innan Optical Character Recognition, om någon ville göra en bok till en ordbehandlingsfil skulle varje sida måste vara maskinskrivna ord för ord.

OCR-teknik innebär både hårdvara och mjukvara. Dessutom avancerade OCR-system kräver en extra kretskort i själva datorn för att slutföra processen. En optisk skanner skannar av texten på en sida, sedan bryter teckensnitt upp i en rad punkter som kallas en bitmapp. Programvaran kan läsa de vanligaste teckensnitten och särskilja där linjerna start och stopp. Denna bitmapp omvandlas sedan till datorn text.

Medan Optical Character Recognition har gjort enorma framsteg på senare år, fortfarande inte fungerar bra i att känna igen handskrift eller teckensnitt som liknar handstil. Det finns system inom bankväsendet som använder OCR-teknik för att försöka läsa de belopp på handskriven kontroller, att gå med datorns förmåga att läsa sträckning och kontonummer.

För att ge en uppfattning om kraften i OCR, låt oss ta en titt på en verkliga exempel. Föreställ dig en polismyndighet som har alla sina kriminalregister lagras i stora arkivskåp. Även scanning miljontals sidor skulle vara en dyr och tidskrävande företag, fördelarna är enorma. När OCR-system har konverterats sidorna i maskinläsbar text, en detektiv, till exempel, skulle kunna söka igenom hela historien i ett par sekunder. Manuellt hitta en viss post kan inte vara alltför svårt, men tänk en detektiv som försöker söka efter alla de brott som begås på en viss korsning mellan 8 och 8:30. Detta exempel repor bara ytan av makt sökbar text, och det är bara en anledning till att många företag och institutioner spenderar miljontals dollar för att OCR deras äldre data.


Kommentarer

  • Om oss
  • Reklam
  • Kontakta redaktören
  • Få nyhetsbrev
  • RSS-feed

Redaktör: Beáta Megyesi
Nyheter redaktör: Christiane Schaefer

Kundservice: Mats Schaefer,
Helena Löthman

Tel: +46 00 79 22 00
Fax: +46 00 79 22 01

© Copyright 2014 Debok.net - All rights reserved.