Read more: http://advanceandaccurate.blogspot.com/2012/04/anti-copy-script-for.html#ixzz3oFCfyn8A Under Creative Commons License: Attribution Non-Commercial No Derivatives

Jumat, 09 Oktober 2015

OCR (Optical Character Recognition )

SEJARAH OCR
Paten mengenai teknologi OCR ini muncul di tahun 1929. Pemilik paten teknologi ini adalah Gustav Tauschek yang mendaftarkannya di Jerman. Mesin OCR temuannya saat itu berupa mesin mekanik yang menggunakan template dan photodetektor.
Pada 1974, Ray kurzweil membuat program pertama yang menggunakan sistem OCR bebasis omni font. Program ini mampu mengenali teks tercetak yang menggunakan font normal atau standar. Saat itu aplikasi ini ditujukan untuk menciptakan mesin pembaca teks dari komputer bagi para tunanetra. 
Pengertian
sarana yang digunakan untuk mengenal karakter optis untuk membaca informasi ke dalam sistem komputer. Identifikasi karakter yang tercetak ini dilakukan dengan menggunakan pengindra cahaya seperti yang terdapat pada scannner

Tujuan utamanya 
adalah memungkinkan komputer langsung membaca dokumen sumber. Masalah konversi pola di dokumen input ke signal elektronik, yang cocok untuk diolah komputer merupakan salah satu pengenalan pola. Jadi Kamu tak perlu mengetik ulang dokumen berlapis-lapis yang akan melelahkan. Cukup dengan memindai dokumen, maka aplikasi OCR akan mendeteksi setiap karakter di dalam gambar pindai lalu mengubahnya menjadi karakter-karakter teks.
Jenis  sistem yang dapat mengenali karakter cetakan
Pada saat ini terdapat dua sistem otomatis yang di rancang untuk dapat mengenali karakter cetakan, yakni: OCR (Optical Character Recognition) dan MICR (Magnetic Ink Charakter Regognition)
  Dalam beberapa hal, MICR kurang fleksibel di banding OCR. Sistem MICR menghendaki bahwa karakter harus dicetak dalam format yang mempunyai stylesheet sempurna, dan sangat akurat. Akan tetapi sistem pengenalan ini terletak pada setiap karakter. Meskipun demuikian, sulit dikritik, sistem OCR memiliki sejumlah kelebihan ketika menangani dokumen yang rusak dan terlipat atau dokumen yang telah kotor atau ditindih karakter.
  Sistem OCR  tidak terpengaruh format dengan stylesheet tertentu. Bahkan stylesheet yang kurang sempurna dapat dikenali. OCR juga dapat mengenali karakter yang dibuat oleh mesin Tik manual dan dapat dikonversi ke dalam klarakter yang terdapat dalam komputer. Aspek ini memungkinkan kemudahan dan flesibilitas dalam menentukan proses pengumpulan data.
Kegunaan
MICR telah digukan dalam cek perbankan diseluruh dunia. MICR sorter/reader digunakan untuk menyortir cek secara otomatis, untuk membagi cek ke nasabah di berbagai cabang, dan cek sebelumnya dicetak dengan kode cabang. Nomor cek dan nomor rekening nasabah juga dicetak sebelumnya, nantinya jumlah transaksi ditambahkan dengan MICR encoder. Perincian cek otomatis dapat dibaca pada memori komputer untuk mengupdate rekening pelanggan.
  OCR telah digunakan sebagai turn araound document dalam akutansi sewa-beli dan aplikasi serupa. Setiap pelanggan diberi buku voucer yang dicetak beserta jumlah pembayaran dalam kontrak sewa 
Teknologi
1.matric matching
2. feature extraction 
Matric Matching
  ketika scanner memindai sebuah huruf maka aplikasi akan mendeteksi bentuk huruf tersebut dan menyamakan bentuk, sudut, dan pola karakter dari gambar bitmap yang ada di database. Jika ada yang cocok maka huruf yang dipindai tersebut akan diidentifikasi sebagai huruf yang sama dalam database.
  Hanya saja teknik ini memiliki keterbatasan, karena database ini memiliki keterbatasan akan jumlah variasi bentuk kareakter. Maklum, font saat ini beraneka ragam , dan bentuknya ada yang semakin kompleks dan beraneka pola. Metode ini masih dipakai oleh kebanyakan aplikasi OCR. . Matric Matching cocoknya untuk document yang menggunakan jenis huruf yang umum, seperti Times New Romans, Arial, atau font yang memiliki bentuk dasar karakter huruf lainnya. Database karakter ini biasanya meliputi rangkaian dasar karakter angka dari 0-9 dan huruf a-z.
 Feature Extraction
Dikenal juga sebagai ICR atau Intelligent Character .
  Aplikasi dengan metode ini akan  mendeteksi identitas sebuah karakter dari ruang kosong, bentuk yang berdekatan, garis diagonal, perpotongan dan sebagainya. Jadi pengidentifikasiannya lebih kompleks prosesnya.
  Feature Extraction biasanya digunakan untuk mendeteksi karakter yang bentuknya tak standar, seperti tulisan tangan atau huruf-huruf berornamen
Ada beberapa hal yang harus kamu perhatikan saat memindai dokumen.
1.Pastikan dokumen yang kamu pindai bersih sehingga tidak ada bentuk2 karakter tidak terdistorsi dan mudah dikenali. Kotoran dan noda biasanya akan membuat bentuk huruf sulit dikenali lagi.
2.Dokumen sebaiknya berlatar belakang polos, teks dari majalah atau tabloid yang bertumpukan dengan gambar dan ornament sering sulit dikenali. Namun, kmu bisa mengakalinya dengan membersihkan hasil pindai tersebut terlebih dahulu dengan aplikasi olah digital. Beberapa aplikasi OCR juga menyediakan fasilitas sederhana untuk mengedit gambar.
3.Kepekatan warna huruf juga mempengaruhi detail dan akurasi hasil OCR. Sebaiknya tambahkan kontras pada teks agar lebih kentara sehingga aplikasi OCR dapat mengenali bentuk dengan lebih baik. Namun jangan terlalu berlebihan sehingga merusak bentuk huruf.
 Dokumen yang dipindai sebisa mungkin bebas dari lekukan. Tekstur kertas yang tidak rata membuat bentuk huruf terdistorsi saat dipindai. Bisa saja huruf M menjadi N karena sedikit lipatan kertas. Karena itu pastikan media dokumen tidak kucel.

Tidak ada komentar:

Posting Komentar