Tesseract Regex In OCR
Last updated
Last updated
Bu aktivite, Tesseract OCR kullanarak bir resimden metin çıkarmaya (Image to Text) ve belirli bir Regex pattern ile veri aramaya yarar. OCR işlemi, Türkçe, İngilizce ve Latince dillerinde desteklenmektedir. Farklı diller için teknik destek alınmalıdır.
Özellikler
Display Name:Aktivitenin süreç içinde ayırt edilmesi için verilen isimdir. Varsayılan olarak "Tessaract Regex In OCR" olarak ayarlanır.
Description : Aktivitenin işlevini açıklayan isteğe bağlı bir not alanıdır. Sürecin bakımını kolaylaştırmak için kullanılır.
Delay Before : Aktivite başlamadan önce geçen bekleme süresini (saniye cinsinden) belirtir.
Varsayılan Değer: 0 (Bekleme olmadan çalışır).
Örnek Kullanım: Aktivitenin çalıştırılmasından önce belirli bir süre beklemek gerekiyorsa, bu süre burada belirtilir. Örneğin, 2 yazılırsa aktivite başlamadan önce 2 saniye bekler.
Delay After: Aktivite tamamlandıktan sonra geçen bekleme süresini (saniye cinsinden) belirtir.
Varsayılan Değer: 0 (Bekleme olmadan bir sonraki aktiviteye geçer).
Örnek Kullanım: İşlem tamamlandıktan sonra sistemde gecikmeler yaşanıyorsa ya da sonraki adımın başlaması için bir süre verilmesi gerekiyorsa, bu alanda belirtilir.
Continue On Error: Aktivite sırasında bir hata oluştuğunda sürecin devam edip etmeyeceğini kontrol eden özelliktir.
True: Aktivite hata aldığında bile süreç çalışmaya devam eder.
False: Aktivite hata alırsa süreç durur.
Varsayılan Değer: False (Varsayılan olarak süreç hata alırsa durur).
Örnek Kullanım: Kritik olmayan işlemlerde hata olsa bile sürecin devam etmesi isteniyorsa bu seçenek True olarak ayarlanır. Örneğin, bir dosyanın varlığını kontrol eden bir aktivitede hata alınırsa ve süreç bu hataya rağmen devam etmeliyse bu seçenek aktif edilir.
Inputs
Image Path • Veri Tipi: Text • Açıklama: OCR işlemi yapılacak resmin tam dosya yoludur. • Örnek Kullanım: "C:\Images\document.png"
Regex Pattern • Veri Tipi: Text • Açıklama: OCR sonucunda belirli bir desen (pattern) ile arama yapmak için kullanılan Regex ifadesidir. • Örnek Kullanım:
○ "\d{4}-\d{2}-\d{2}" → Tarih formatı (YYYY-MM-DD) araması yapar.
○ "[A-Z]{3}\d{3}" → Üç harf ve üç rakamdan oluşan bir kodu yakalar (örn: ABC123).
Language • Veri Tipi: Text • Açıklama: OCR işlemi için kullanılacak dil kodudur. • Örnek Kullanım:
○ "tur" → Türkçe OCR işlemi için
○ "eng" → İngilizce OCR işlemi için
Result Header Column Name • Veri Tipi: Text • Açıklama: Regex sonucu Collection/Datatable olarak döndürülecektir. Kolon başlığı bu parametreye göre belirlenir. Varsayılan değer "Result" olarak atanmıştır. • Örnek Kullanım: "Tarih" (Çıktıdaki sütun adı "Tarih" olur.)
Outputs
OCR Result • Veri Tipi: Collection • Açıklama: OCR işlemi sonucunda, Regex pattern'ine uyan değerleri içeren bir Collection/Datatable çıktısı döner. Kolon adı Result Header Column Name parametresine göre değişir. • Örnek Kullanım:
○ Regex Pattern: "\d{4}-\d{2}-\d{2}" (Tarih formatı) ○ Result Header Column Name: "Tarih"
Örnek Kullanım:
Fatura Bilgisi Okuma: OCR ile belgelerden tarih veya fatura numarası çekme.
Kimlik ve Form Bilgisi Çekme: Kimlik kartı veya belgelerden belirli kod veya numara bilgilerini ayıklama.
Belirli Kelime/Kod Arama: OCR sonucunda Regex ile özel bir desen yakalama.
Örnek Kullanım: