The Academic Perspective Procedia publishes Academic Platform symposiums papers as three volumes in a year. DOI number is given to all of our papers.
Publisher : Academic Perspective
Journal DOI : 10.33793/acperpro
Journal eISSN : 2667-5862
Year :2018, Volume 1, Issue 1, Pages: 399-406
09.11.2018
Büyük Veri Setlerinde Varlık Tanıma: En Sık Geçen E-Posta, Web Adreslerinin ve Emojilerin Tespit Edilmesi
İnternetin ve sosyal web sitelerinin ortaya çıkmasıyla birlikte, dijital verilerin hacmi her geçen gün artmaktadır. Bu büyük miktardaki verilerden anlamlı bilgi elde etmek ve işlemek o kadar kolay değildir. Geleneksel yöntemleri ve araçları kullanarak bu büyük veriyi işlemek oldukça külfetli ve zaman alıcıdır. Bu gibi durumlarda, büyük veri işleme araçları bir çözüm olarak devreye girmektedir. Bu çalışmada büyük veri indeksleme ve arama yazılımı olan Apache Lucene kullanılarak, yarım milyar Web sayfası içinde en sık geçen e-posta, Web adresleri ve emojilerin nasıl tespit edildiği anlatılmaktadır.
Keywords:
veri indeksleme, Apache Lucene, e-posta adresi, Web adresi, emoji
References
[1] J. Callan, M. Hoy, C. Yoo, and L. Zhao, “The ClueWeb09 dataset,” 2009. [Online]. Available: http://boston.lti.cs.cmu.edu/classes/11-742/S10-TREC/TREC-Nov19-09.pdf
[2] A. Bialecki, R. Muir, and G. Ingersoll, “Apache Lucene 4,” in Proceedings of the SIGIR 2012 Workshop on Open Source Information Retrieval, Portland, Oregon, USA, Aug. 2012, pp. 17–24. [Online]. Available: http://opensearchlab.otago.ac.nz/paper_10.pdf
[3] SIGIR ’17: Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. Tokyo, Japan: ACM, 2017.
[4] L. Azzopardi, M. Crane, H. Fang, G. Ingersoll, J. Lin, Y. Moshfeghi, H. Scells, P. Yang, and G. Zuccon, “The Lucene for information access and retrieval research (LIARR) workshop at SIGIR 2017,” in Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, ser. SIGIR ’17. Shinjuku, Tokyo, Japan: ACM, 2017, pp. 1429–1430. [Online]. Available: http://doi.acm.org/10.1145/3077136.3084374
[5] M. McCandless, E. Hatcher, and O. Gospodnetic, Lucene in Action, Second Edition: Covers Apache Lucene 3.0. Greenwich, CT, USA: Manning Publications Co., 2010.
[6] Erişim tarihi: 31 Ağustos 2018, http://unicode.org/emoji/
[7] Erişim tarihi: 31 Ağustos 2018, https://www.imdb.com/title/tt4877122
[8] Erişim tarihi: 31 Ağustos 2018, https://worldemojiday.com
[9] Gezici G., Yanıkoğlu B., “Sentiment Analysis in Turkish.” In: Oflazer K., Saraçlar M. (eds) Turkish Natural Language Processing. Theory and Applications of Natural Language Processing. Springer, Cham, 2018.
[10] A. Hogenboom, D. Bal, F. Frasincar, M. Bal, F. de Jong, K. Uzay, “Exploiting emoticons in sentiment analysis,” Proceedings of the 28th Annual ACM Symposium on Applied Computing, March 18-22, 2013, Coimbra, Portugal
[11] Erişim tarihi: 31 Ağustos 2018, http://site.icu-project.org/
[12] Erişim tarihi: 31 Ağustos 2018, http://www.unicode.org/reports/tr29/
[13] J. Callan, “The Lemur project and its ClueWeb12 dataset,” 2012. [Online]. Available: http://opensearchlab.otago.ac.nz/SIGIR12-OSIR-callan.pdf
Cite
@article{acperproISITES2018ID79, author={Arslan, Ahmet and Alkılınç, Ahmet and Dinçer, Bekir Taner}, title={Büyük Veri Setlerinde Varlık Tanıma: En Sık Geçen E-Posta, Web Adreslerinin ve Emojilerin Tespit Edilmesi}, journal={Academic Perspective Procedia}, eissn={2667-5862}, volume={1}, year=2018, pages={399-406}}
Arslan, A. , Alkılınç, A. , Dinçer, B.. (2018). Büyük Veri Setlerinde Varlık Tanıma: En Sık Geçen E-Posta, Web Adreslerinin ve Emojilerin Tespit Edilmesi. Academic Perspective Procedia, 1 (1), 399-406. DOI: 10.33793/acperpro.01.01.79
%0 Academic Perspective Procedia (ACPERPRO) Büyük Veri Setlerinde Varlık Tanıma: En Sık Geçen E-Posta, Web Adreslerinin ve Emojilerin Tespit Edilmesi% A Ahmet Arslan , Ahmet Alkılınç , Bekir Taner Dinçer% T Büyük Veri Setlerinde Varlık Tanıma: En Sık Geçen E-Posta, Web Adreslerinin ve Emojilerin Tespit Edilmesi% D 11/9/2018% J Academic Perspective Procedia (ACPERPRO)% P 399-406% V 1% N 1% R doi: 10.33793/acperpro.01.01.79% U 10.33793/acperpro.01.01.79