SEJARAH OCR
Paten mengenai teknologi OCR ini muncul di tahun 1929. Pemilik paten teknologi ini adalah Gustav Tauschek yang mendaftarkannya di Jerman. Mesin OCR temuannya saat itu berupa mesin mekanik yang menggunakan template dan photodetektor.
Pada 1974, Ray kurzweil membuat program pertama yang menggunakan sistem OCR bebasis omni font. Program ini mampu mengenali teks tercetak yang menggunakan font normal atau standar. Saat itu aplikasi ini ditujukan untuk menciptakan mesin pembaca teks dari komputer bagi para tunanetra.
Paten mengenai teknologi OCR ini muncul di tahun 1929. Pemilik paten teknologi ini adalah Gustav Tauschek yang mendaftarkannya di Jerman. Mesin OCR temuannya saat itu berupa mesin mekanik yang menggunakan template dan photodetektor.
Pada 1974, Ray kurzweil membuat program pertama yang menggunakan sistem OCR bebasis omni font. Program ini mampu mengenali teks tercetak yang menggunakan font normal atau standar. Saat itu aplikasi ini ditujukan untuk menciptakan mesin pembaca teks dari komputer bagi para tunanetra.
Pengertian
sarana
yang digunakan untuk mengenal karakter optis untuk membaca informasi ke
dalam sistem komputer. Identifikasi karakter yang tercetak ini
dilakukan dengan menggunakan pengindra cahaya seperti yang terdapat pada
scannner
Tujuan utamanya
adalah
memungkinkan komputer langsung membaca dokumen sumber. Masalah konversi
pola di dokumen input ke signal elektronik, yang cocok untuk diolah
komputer merupakan salah satu pengenalan pola.
Jadi Kamu tak perlu mengetik ulang dokumen berlapis-lapis yang akan
melelahkan. Cukup dengan memindai dokumen, maka aplikasi OCR akan
mendeteksi setiap karakter di dalam gambar pindai lalu mengubahnya
menjadi karakter-karakter teks.
Jenis sistem yang dapat mengenali karakter cetakan
Pada
saat ini terdapat dua sistem otomatis yang di rancang untuk dapat
mengenali karakter cetakan, yakni: OCR (Optical Character Recognition)
dan MICR (Magnetic Ink Charakter Regognition)
Dalam
beberapa hal, MICR kurang fleksibel di banding OCR. Sistem MICR
menghendaki bahwa karakter harus dicetak dalam format yang mempunyai
stylesheet sempurna, dan sangat akurat. Akan tetapi sistem pengenalan
ini terletak pada setiap karakter. Meskipun demuikian, sulit dikritik,
sistem OCR memiliki sejumlah kelebihan ketika menangani dokumen yang
rusak dan terlipat atau dokumen yang telah kotor atau ditindih karakter.
Sistem OCR tidak
terpengaruh format dengan stylesheet tertentu. Bahkan stylesheet yang
kurang sempurna dapat dikenali. OCR juga dapat mengenali karakter yang
dibuat oleh mesin Tik manual dan dapat dikonversi ke dalam klarakter
yang terdapat dalam komputer. Aspek ini memungkinkan kemudahan dan
flesibilitas dalam menentukan proses pengumpulan data.
Kegunaan
MICR
telah digukan dalam cek perbankan diseluruh dunia. MICR sorter/reader
digunakan untuk menyortir cek secara otomatis, untuk membagi cek ke
nasabah di berbagai cabang, dan cek sebelumnya dicetak dengan kode
cabang. Nomor cek dan nomor rekening nasabah juga dicetak sebelumnya,
nantinya jumlah transaksi ditambahkan dengan MICR encoder. Perincian cek
otomatis dapat dibaca pada memori komputer untuk mengupdate rekening
pelanggan.
OCR telah digunakan sebagai turn araound document dalam akutansi
sewa-beli dan aplikasi serupa. Setiap pelanggan diberi buku voucer yang
dicetak beserta jumlah pembayaran dalam kontrak sewa
Teknologi
1.matric matching
2. feature extraction
Matric Matching
ketika scanner memindai sebuah huruf maka aplikasi akan mendeteksi bentuk huruf tersebut dan menyamakan bentuk, sudut, dan pola karakter dari gambar bitmap yang ada di database. Jika ada yang cocok maka huruf yang dipindai tersebut akan diidentifikasi sebagai huruf yang sama dalam database.
Hanya saja teknik ini memiliki keterbatasan, karena database ini memiliki keterbatasan akan jumlah variasi bentuk kareakter. Maklum, font saat ini beraneka ragam , dan bentuknya ada yang semakin kompleks dan beraneka pola. Metode ini masih dipakai oleh kebanyakan aplikasi OCR. . Matric Matching cocoknya untuk document yang menggunakan jenis huruf yang umum, seperti Times New Romans, Arial, atau font yang memiliki bentuk dasar karakter huruf lainnya. Database karakter ini biasanya meliputi rangkaian dasar karakter angka dari 0-9 dan huruf a-z.
Feature Extraction
ketika scanner memindai sebuah huruf maka aplikasi akan mendeteksi bentuk huruf tersebut dan menyamakan bentuk, sudut, dan pola karakter dari gambar bitmap yang ada di database. Jika ada yang cocok maka huruf yang dipindai tersebut akan diidentifikasi sebagai huruf yang sama dalam database.
Hanya saja teknik ini memiliki keterbatasan, karena database ini memiliki keterbatasan akan jumlah variasi bentuk kareakter. Maklum, font saat ini beraneka ragam , dan bentuknya ada yang semakin kompleks dan beraneka pola. Metode ini masih dipakai oleh kebanyakan aplikasi OCR. . Matric Matching cocoknya untuk document yang menggunakan jenis huruf yang umum, seperti Times New Romans, Arial, atau font yang memiliki bentuk dasar karakter huruf lainnya. Database karakter ini biasanya meliputi rangkaian dasar karakter angka dari 0-9 dan huruf a-z.
Feature Extraction
Dikenal juga sebagai ICR atau Intelligent Character .
Aplikasi dengan metode ini akan mendeteksi identitas sebuah karakter dari ruang kosong, bentuk yang berdekatan, garis diagonal, perpotongan dan sebagainya. Jadi pengidentifikasiannya lebih kompleks prosesnya.
Feature Extraction biasanya digunakan untuk mendeteksi karakter yang bentuknya tak standar, seperti tulisan tangan atau huruf-huruf berornamen
Aplikasi dengan metode ini akan mendeteksi identitas sebuah karakter dari ruang kosong, bentuk yang berdekatan, garis diagonal, perpotongan dan sebagainya. Jadi pengidentifikasiannya lebih kompleks prosesnya.
Feature Extraction biasanya digunakan untuk mendeteksi karakter yang bentuknya tak standar, seperti tulisan tangan atau huruf-huruf berornamen
Ada beberapa hal yang harus kamu perhatikan saat memindai dokumen.
1.Pastikan
dokumen yang kamu pindai bersih sehingga tidak ada bentuk2 karakter
tidak terdistorsi dan mudah dikenali. Kotoran dan noda biasanya akan
membuat bentuk huruf sulit dikenali lagi.
2.Dokumen
sebaiknya berlatar belakang polos, teks dari majalah atau tabloid yang
bertumpukan dengan gambar dan ornament sering sulit dikenali. Namun, kmu
bisa mengakalinya dengan membersihkan hasil pindai tersebut terlebih
dahulu dengan aplikasi olah digital. Beberapa aplikasi OCR juga
menyediakan fasilitas sederhana untuk mengedit gambar.
3.Kepekatan
warna huruf juga mempengaruhi detail dan akurasi hasil OCR. Sebaiknya
tambahkan kontras pada teks agar lebih kentara sehingga aplikasi OCR
dapat mengenali bentuk dengan lebih baik. Namun jangan terlalu
berlebihan sehingga merusak bentuk huruf.
Dokumen
yang dipindai sebisa mungkin bebas dari lekukan. Tekstur kertas yang
tidak rata membuat bentuk huruf terdistorsi saat dipindai. Bisa saja
huruf M menjadi N karena sedikit lipatan kertas. Karena itu pastikan
media dokumen tidak kucel.
Tidak ada komentar:
Posting Komentar