dc.contributor.author | Βασίλας, Νικόλαος | el_GR |
dc.contributor.author | Sharma, Anuj | en |
dc.contributor.author | Vassilas, Nikolaos | en |
dc.coverage.spatial | GR - Αθήνα | en |
dc.date.available | 2006-01-09T12:00:00Z | el_GR |
dc.date.issued | 2005 | el_GR |
dc.identifier.uri | http://hdl.handle.net/10797/10942 | en |
dc.description | Περιέχει το πλήρες κείμενο | el_GR |
dc.description.abstract | Στην εργασία αυτή παρουσιάζεται μια μεθοδολογία διόρθωσης λαθών και κατάτμησης κειμένου όταν δεν υπάρχουν σημεία στίξης και οι λέξεις δε χωρίζονται από κενά. Το κίνητρο αυτής της έρευνας προέρχεται από ένα εθνικό πρόγραμμα αναγνώρισης συνεχούς μικρογράμματης γραφής παλαιοχριστιανικών χειρογράφων από τη Μονή της Αγίας Αικατερίνης του Όρους Σινά. Επειδή η μετατροπή των χειρογράφων σε ψηφιακά κείμενα θα γίνεται με ένα σύστημα αυτόματης αναγνώρισης χαρακτήρων (OCR) το οποίο αναγκαστικά εισάγει λάθη αναγνώρισης, γίνεται η υπόθεση ότι ο πίνακας, με τις πιθανότητες ορθής αναγνώρισης των χαρακτήρων αλλά και τις πιθανότητες για κάθε είδος σφάλματος όπως, εισαγωγής, διαγραφής ή αντικατάστασης χαρακτήρων, είναι γνωστός και ότι προκύπτει από πειραματικά αποτελέσματα αναγνώρισης σε πραγματικά χειρόγραφα. Η προτεινόμενη μεθοδολογία περιλαμβάνει: α) τη χρήση ενός λεξικού αποθηκευμένου σε μνήμη πίνακα συσχέτισης με δομή ιεραρχικού αντίστροφου αρχείου ώστε να εξασφαλίζεται ταχύτατη αναζήτηση λέξεων και διόρθωση λαθών, β) την κατάταξη των ανακληθεισών λέξεων μέσω παραλλαγής της μετρικής Levenstein η οποία χρησιμοποιεί τόσο τον πίνακα πιθανοτήτων του OCR συστήματος όσο και τα στατιστικά της ελληνικής γλώσσας (συχνότητες ν-γραμμάτων, συχνότητες λέξεων κ.λπ.) και γ) την κατάτμηση του συνεχούς κειμένου σε επιμέρους λέξεις με οδηγό τις πιθανότερες λέξεις που αρχίζουν από την τρέχουσα θέση του δρομέα και με χρήση τεχνικών οπισθοδρόμησης στην περίπτωση που η τρέχουσα κατάτμηση οδηγείται σε αδιέξοδο. Πιλοτική έρευνα σε κείμενα της νέας ελληνικής γλώσσας στα οποία απαλείφθηκαν τα κενά μεταξύ των λέξεων καθώς και τα σημεία στίξης και εισήχθησαν, διαγράφηκαν ή αντικαταστάθηκαν χαρακτήρες σύμφωνα με τις πιθανότητες ενός υποθετικού συστήματος OCR, έδειξε πολύ ικανοποιητικά αποτελέσματα και υπόσχεται να αποτελέσει ένα ισχυρό εργαλείο κατά την αυτόματη αναγνώριση των πατερικών χειρογράφων. | el_GR |
dc.language.iso | gre | en |
dc.publisher | ΤΕΙ Αθήνας | el_GR |
dc.relation.ispartof | Νέες τεχνολογίες και πρότυπα για τη διαχείριση της γνώσης: σημασιολογικός ιστός (semantic web) | en |
dc.source | Διαχείριση της γνώσης: ο Παγκόσμιος ιστός και οι μονάδες πληροφόρησης - 14ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών | el_GR |
dc.source.uri | http://abekt.lib.ucy.ac.cy/synedria/14psab/14psab034.pdf | en |
dc.title | Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης | el_GR |
dc.title.alternative | Segmentation of continuous text using an associative dictionary, Language statistics and backtracking Techniques | en |
dc.type | Conference Object | en |
dc.subject.JITA | Διαχείριση υπηρεσιών, λειτουργιών και τεχνικών πληροφόρησης, Γλώσσες ευρετηρίασης, διαδικασίες και σχήματα | el_GR |
dc.subject.JITA | Information treatment for information services, Information functions and techniques, Index languages, processes and schemes | en |
dc.contributor.conferenceorganizer | Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών | el_GR |
dc.identifier.JITA | IC | en |