Show simple item record

dc.contributor.authorΒασίλας, Νικόλαοςel_GR
dc.contributor.authorSharma, Anujen
dc.contributor.authorVassilas, Nikolaosen
dc.coverage.spatialGR - Αθήναen
dc.date.available2006-01-09T12:00:00Zel_GR
dc.date.issued2005el_GR
dc.identifier.urihttp://hdl.handle.net/10797/10942en
dc.descriptionΠεριέχει το πλήρες κείμενοel_GR
dc.description.abstractΣτην εργασία αυτή παρουσιάζεται μια μεθοδολογία διόρθωσης λαθών και κατάτμησης κειμένου όταν δεν υπάρχουν σημεία στίξης και οι λέξεις δε χωρίζονται από κενά. Το κίνητρο αυτής της έρευνας προέρχεται από ένα εθνικό πρόγραμμα αναγνώρισης συνεχούς μικρογράμματης γραφής παλαιοχριστιανικών χειρογράφων από τη Μονή της Αγίας Αικατερίνης του Όρους Σινά. Επειδή η μετατροπή των χειρογράφων σε ψηφιακά κείμενα θα γίνεται με ένα σύστημα αυτόματης αναγνώρισης χαρακτήρων (OCR) το οποίο αναγκαστικά εισάγει λάθη αναγνώρισης, γίνεται η υπόθεση ότι ο πίνακας, με τις πιθανότητες ορθής αναγνώρισης των χαρακτήρων αλλά και τις πιθανότητες για κάθε είδος σφάλματος όπως, εισαγωγής, διαγραφής ή αντικατάστασης χαρακτήρων, είναι γνωστός και ότι προκύπτει από πειραματικά αποτελέσματα αναγνώρισης σε πραγματικά χειρόγραφα. Η προτεινόμενη μεθοδολογία περιλαμβάνει: α) τη χρήση ενός λεξικού αποθηκευμένου σε μνήμη πίνακα συσχέτισης με δομή ιεραρχικού αντίστροφου αρχείου ώστε να εξασφαλίζεται ταχύτατη αναζήτηση λέξεων και διόρθωση λαθών, β) την κατάταξη των ανακληθεισών λέξεων μέσω παραλλαγής της μετρικής Levenstein η οποία χρησιμοποιεί τόσο τον πίνακα πιθανοτήτων του OCR συστήματος όσο και τα στατιστικά της ελληνικής γλώσσας (συχνότητες ν-γραμμάτων, συχνότητες λέξεων κ.λπ.) και γ) την κατάτμηση του συνεχούς κειμένου σε επιμέρους λέξεις με οδηγό τις πιθανότερες λέξεις που αρχίζουν από την τρέχουσα θέση του δρομέα και με χρήση τεχνικών οπισθοδρόμησης στην περίπτωση που η τρέχουσα κατάτμηση οδηγείται σε αδιέξοδο. Πιλοτική έρευνα σε κείμενα της νέας ελληνικής γλώσσας στα οποία απαλείφθηκαν τα κενά μεταξύ των λέξεων καθώς και τα σημεία στίξης και εισήχθησαν, διαγράφηκαν ή αντικαταστάθηκαν χαρακτήρες σύμφωνα με τις πιθανότητες ενός υποθετικού συστήματος OCR, έδειξε πολύ ικανοποιητικά αποτελέσματα και υπόσχεται να αποτελέσει ένα ισχυρό εργαλείο κατά την αυτόματη αναγνώριση των πατερικών χειρογράφων.el_GR
dc.language.isogreen
dc.publisherΤΕΙ Αθήναςel_GR
dc.relation.ispartofΝέες τεχνολογίες και πρότυπα για τη διαχείριση της γνώσης: σημασιολογικός ιστός (semantic web)en
dc.sourceΔιαχείριση της γνώσης: ο Παγκόσμιος ιστός και οι μονάδες πληροφόρησης - 14ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκώνel_GR
dc.source.urihttp://abekt.lib.ucy.ac.cy/synedria/14psab/14psab034.pdfen
dc.titleΚατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισηςel_GR
dc.title.alternativeSegmentation of continuous text using an associative dictionary, Language statistics and backtracking Techniquesen
dc.typeConference Objecten
dc.subject.JITAΔιαχείριση υπηρεσιών, λειτουργιών και τεχνικών πληροφόρησης, Γλώσσες ευρετηρίασης, διαδικασίες και σχήματαel_GR
dc.subject.JITAInformation treatment for information services, Information functions and techniques, Index languages, processes and schemesen
dc.contributor.conferenceorganizerΠανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκώνel_GR
dc.identifier.JITAICen


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record