Εξαγωγή Φράσεων από κείμενα: Εφαρμογές και πλεονεκτήματα για τις ελληνικές Βιβλιοθήκες

Nelli Giannopoulou


Η εξαγωγή φράσεων από κείμενα, ενώ αποτελεί μια ιδέα που εδώ και αρκετά χρόνια απασχολήσει την ερευνητική κοινότητα έχει διαμορφωθεί κάτω από διαφορετικό πρίσμα τα τελευταία χρόνια λόγω της έλευσης και της μεγάλης ανάπτυξης του Σημασιολογικού Ιστού. Οι μέθοδοι εξαγωγής φράσεων από κείμενα παρουσιάζουν μεγάλη ποικιλομορφία και εφαρμόζονται σε ένα πλήθος πεδίων παρέχοντας εφαρμογές που έχουν ως στόχο την αξιοποίηση των αποτελεσμάτων που οι μέθοδοι αυτές προσφέρουν. Στο παρόν άρθρο, αρχικά γίνεται μια εισαγωγή στο χώρο της Εξαγωγής Φράσεων από κείμενα/πηγές ως επίσης και των βασικών μεθόδων που ακολουθούνται συνήθως για να επιτευχθούν τα επιθυμητά αποτελέσματα. Στη συνέχεια παρουσιάζεται ένα πλήθος διαφορετικών εφαρμογών όπου η Εξαγωγή Φράσεων έχει υιοθετηθεί με επιτυχία, εξετάζονται τα πλεονεκτήματα που προκύπτουν από την ενσωμάτωση τέτοιων μέθοδων αλλά και οι δυνατότητες που προκύπτουν για τις Ψηφιακές Βιβλιοθήκες με την υιοθέτηση της τεχνικής αυτής.

Λέξεις κλειδιά

σημασιολογικός ιστός, διασυνδεδεμένα δεδομένα, ψηφιακές βιβλιοθήκες, εμπλουτισμός μεταδεδομένων, εξαγωγή φράσεων από κείμενα

Πλήρες Κείμενο:



«Baker, T., Bermès, E., Coyle, K., Dunsire, G., Isaac, A., Murray, P., Panzer, M., Schneider, J., Singer, R., Summers, E., Waites, W., Young, J. & Zeng, M. (2011). Library Linked Data Incubator Group Final Report. Ανακτήθηκε 15 Ιουλίου, 2015, από http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

Barker, K. & N. Cornacchia (2000). Using noun phrase heads to extract document keyphrases. In Proc. of the 13th Canadian Conference on Artificial Intelligence, pp. 40–52.

Berners-Lee, T., Hendler, J. & Lassila, O. (2001). The Semantic Web. Scientific American, 284 (5), 28-37.

Berners-Lee, T. (2006). Linked Data - Design Issues. Ανακτήθηκε 15 Ιουλίου, 2015, από http://www.w3.org/DesignIssues/LinkedData.html

Brickley, D. & Guha, R.V. (2014). RDF Schema 1.1. Ανακτήθηκε 15 Ιουλίου, 2015, από http://www.w3.org/TR/rdf-schema/

Feather, J. & P. Sturges (1996). International Encyclopedia of Information and Library Science. London & New York: Routledge.

Han, H., Gilles, C.L., Manavoglu E., Zha, H., Zhang, Z., Fox, E.A. (2003). Automatic Document Extraction using Support Vector Machines, Proceedings of the 2003 Joint Conference on Digital Libraries.

Hitzler, P., Krötzsch, M., Parsia, B., Patel-Schneider, P.F. & Rudolph, S. (2012). OWL 2 Web Ontology Language Primer. Ανακτήθηκε 15 Ιουλίου, 2015, από http://www.w3.org[…]»

Jones, S. & M. Mahoui (2000). Hierarchical document clustering using automatically extracted keyphrases. In Proc. of the 3rd International Asian Conference on Digital Libraries, pp. 113–120.

Kim, S. N., & Baldwin, T. (2009). The Use of Topic Representative Words in Text Categorization University of Melbourne. In Proceedings of the fourteenth Australasian document computing symposium (ADCS 2009) (pp. 75-81). Sydney, Australia.

Lovins, J. B. (1968). Development of a stemming algorithm. Mechanical Translation and Computational Linguistics, 11 (1-2), 11–31.

Medelyan, O. (2005). Automatic keyphrase indexing with a domain-specific thesaurus. Master's thesis, Albert-Ludwigs University.

Medelyan, O., & Witten, I. H. (2006). Thesaurus based automatic keyphrase indexing. In Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries (pp. 296-297). ACM.

Porter, M. (1980). An algorithm for suffix stripping. Program 14(3), 130–137.

Sauermann, L. & Cyganiak, R. (2008). Cool URIs for the Semantic Web. Available online at: www.w3.org/TR/cooluris/.

Schreiber, G. & Raimond, Y. (2014). RDF 1.1 Primer. Available online at: www.w3.org/TR/rdf11-primer/.

Sugiyama, K., Kumar, T., Kan, M. Y., & Tripathi, R. C. (2010). Identifying citing sentences in research papers using supervised learning. International Conference In Information Retrieval & Knowledge Management,(CAMP), 67-72. IEEE.

Tan, Y.F., Kan, M.-Y., Lee D. (2006). Search Engine Driven Author Disambiguation. Proceedings of the 2006 Joint Conference on Digital Libraries (JCDL). Chapel Hill, North Carolina, USA.

The W3C SPARQL Working Group (2013). SPARQL 1.1 Available online at: http://www.w3.org/TR/sparql11-overview/.

Turney, P. (1999). Learning to extract keyphrases from text. Technical report, National Research Council Canada.

Witten, I. H., G.W. Paynter, E. Frank, C. Gutwin, and C. G. Nevill-Manning (1999). Kea: Practical automatic keyphrase extraction. In Proc. of the 4th ACM Conference on Digital Libraries (DL 99), 254–255. Berkeley, CA: ACM Press.

Zervanou, K., Korkontzelos, I., Van Den Bosch, A., & Ananiadou, S. (2011). Enrichment and structuring of archival description metadata. In Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, 44-53. Association for Computational Linguistics.

Zimmermann, A., Lopes, N., Polleres, A., & Straccia, U. (2012). A general framework for representing, reasoning and querying with annotated Semantic Web data. Web Semantics: Science, Services and Agents on the World Wide Web, 11, 72-95.
