Introduction
Background and literature review
Plagiarism
Related work
Corpus design methodology
Source data collection
Year | Count | Year | Count |
---|---|---|---|
2001 | 23 | 2009 | 203 |
2002 | 7 | 2010 | 261 |
2003 | 13 | 2011 | 174 |
2004 | 18 | 2012 | 141 |
2005 | 47 | 2013 | 187 |
2006 | 126 | 2014 | 317 |
2007 | 202 | 2015 | 282 |
2008 | 186 | 2016 | 125 |
Total = 2312 |
Challenges identified
Construction of the Arabic academic plagiarism detection corpus
Corpus architecture
The Dewey decimal classification system
Dewey # | English Categories | JU Arabic Categories |
---|---|---|
000–099 | General References or Works | (العموميات) العامة المعارف |
100–199 | Philosophy, psychology & logic | الفلسفة وعلم النفس والمنطق |
200–299 | Religion | الديانات |
300–399 | Social Sciences | العلوم الاجتماعية |
400–499 | Language | اللغات |
500–599 | Natural Science | العلوم الطبيعية |
600–699 | Technology and Applied Science | (التكنولوجيا) التطبيقية العلوم |
700–799 | Fine Arts & Recreation | الفنون الجميلة |
800–899 | Literature | الأدب |
900–999 | History, Geography & Biography | التاريخ والجغرافيا والسير |
JU library’s metadata
Data processing outline of the JUPlag corpus
Dewey # | English Categories | JU Arabic Categories | Number of Dissertations |
---|---|---|---|
000–099 | General References or Works | (العموميات) العامة المعارف | 17 |
100–199 | Philosophy, psychology & logic | المنطق و النفس وعلم الفلسفة | 10 |
200–299 | Religion | الديانات | 397 |
300–399 | Social Sciences | العلوم الاجتماعية | 1338 |
400–499 | Language | اللغات | 42 |
500–599 | Natural Science | العلوم الطبيعية | 17 |
600–699 | Technology and Applied Science | (التكنولوجيا) التطبيقية العلوم | 103 |
700–799 | Fine Arts & Recreation | الفنون الجميلة والديكور | 147 |
800–899 | Literature | الأدب | 134 |
900–999 | History, Geography & Biography | التاريخ والجغرافيا والسير | 107 |
Total | 2312 |
Tokenization
Segmenting dissertations into n-grams
Unigram | Bigram | Trigram | 4-g | … |
---|---|---|---|---|
ذهب | ذهب احمد | ذهب احمد الى | ذهب احمد الى السوق | |
احمد | احمد الى | احمد الى السوق | احمد الى السوق واشترى | |
الى | الى السوق | الى السوق واشترى | الى السوق واشترى خبزا | |
السوق | السوق واشترى | السوق واشترى خبزا | السوق واشترى خبزا وعسلا | |
واشترى | خبزا واشترى | واشترى خبزا وعسلا | ||
خبزا | عسلا و خبزا | |||
وعسلا |
Stemming
Part of speech tagging (POST)
The final academic corpus
Dewey (Level-2) | Arabic Categories | English Categories | Number of Dissertations |
---|---|---|---|
004 | معالجة البيانات, علم الحاسوب | Data processing & computer science | 17 |
020 | علم المكتبات والمعلومات | Library & information sciences | |
150 | النفس علم | Psychology | 10 |
210 | علومه و الإسلام | Philosophy & theory of religion | 397 |
220 | القرآن الكريم وعلومه | Holy Quran and its Sciences | |
290 | الأخرى الديانات | Other religions | |
301 | علم الاجتماع والانثروبولوجيا | Sociology & anthropology | 1338 |
302 | التفاعل الاجتماعي | Social interaction | |
303 | العمليات الاجتماعية | Social processes | |
304 | العوامل المؤثرة في السلوك الاجتماعي | Factors affecting social behavior | |
305 | الجماعات الاجتماعية | Groups of people | |
306 | الثقافة ومؤسساتها | Culture & institutions | |
307 | المجتمعات | Communities | |
320 | العلوم السياسية | Political science (Politics & government) | |
330 | الاقتصاد | Economics | |
340 | القانون | Law | |
350 | الإدارة العامة | Public administration & military science | |
360 | الخدمات الاجتماعية؛ الجمعيات | Social problems & services; associations | |
370 | التربية والتعليم | Manners & education | |
380 | التجارة , الاتصالات, النقل | Commerce, communications, transportation | |
401 | اللغويات, علم اللغة | Philosophy & theory; international languages | 42 |
410 | العربية اللغة | Linguistics | |
507 | التعليم والموضوعات ذات الصلة | Education, research, related topics | 17 |
510 | الرياضيات | Mathematics | |
530 | الفيزياء | Physics | |
540 | الكيمياء والعلوم ذات الصلة | Chemistry & allied sciences | |
550 | (الجيولوجيا) الأرض علوم | Earth sciences | |
570 | (علم الأحياء) الحياة علوم | Biology | |
580 | علوم النبات | Plants | |
610 | (الطب) الطبية العلوم | Medicine & health | 103 |
630 | الزراعة | Agriculture & related technologies | |
650 | إدارة الأعمال والخدمات المساعدة | Management & auxiliary services | |
710 | تخطيط المدن والعمران | Area planning & landscape architecture | 147 |
720 | (العمارة) المعمارية الهندسة | Architecture | |
780 | الموسيقى | Music | |
790 | الفنون الترفيهية والاستعراضية | Recreational & performing arts | |
808 | البلاغة الأدبية ومجموعات الأدب | Rhetoric & collections of literary texts | 134 |
809 | تاريخ ونقد الأدب | History, description & critical appraisal | |
810 | الأدب العربي | Arabic literature | |
907 | التعليم والبحث والموضوعات ذات الصلة | Education, research, related topics of history | 107 |
910 | الجغرافيا والرحلات | Geography & travel | |
930 | تاريخ العالم القديم | History of ancient world to ca. 499 | |
940 | تاريخ أوروبا العام | History of Europe | |
950 | تاريخ آسيا العام الشرق الأقصى | History of Asia | |
Total | 2312 |
Experiments and discussion
Experimenting with the JUPlag corpus: analysis and statistics
Word statistics
Rank | Arabic Word | English Meaning | Frequency | Rank | Arabic Word | English Meaning | Frequency |
---|---|---|---|---|---|---|---|
1 | الدراسه | The study | 260,127 | 11 | دراسه | Study | 76,374 |
2 | الله | Allah (God) | 222,662 | 12 | وجود | Existence | 75,484 |
3 | الطلبه | Students | 103,332 | 13 | رقم | Figure | 75,422 |
4 | محمد | Mohammad | 94,735 | 14 | استخدام | Use | 69,369 |
5 | العمل | Work | 94,469 | 15 | يمكن | Possible | 68,652 |
6 | الأول | First | 94,151 | 16 | عام | Year | 67,907 |
7 | العربيه | Arabic | 93,333 | 17 | عدم | Un/Not | 66,971 |
8 | الثاني | Second | 87,322 | 18 | الأردن | Jordan | 66,684 |
9 | مستوى | Level | 81,435 | 19 | نتائج | Results | 66,390 |
10 | دار | House | 76,968 | 20 | بشكل | Form | 65,314 |
Sentence statistics
Rank | N = 2 | N = 3 | N = 4 | N = 5 | N = 6 | N = 7 |
---|---|---|---|---|---|---|
1 | 33,453 | 24,438 | 18,120 | 6203 | 2378 | 2078 |
عينة الدراسة | صلى الله وسلم | المتوسطات الحسابية والانحرافات المعيارية | رسول الله صلى الله وسلم | رسالة ماجستير منشورة الجامعة الأردنية عمان | رسالة ماجستير منشورة الجامعة الأردنية عمان الأردن | |
2 | 29,861 | 18,789 | 10,226 | 3520 | 2117 | 763 |
المتوسطات الحسابية | الحسابية والانحرافات المعيارية | وجود فروق دلالة إحصائية | عدم وجود فروق دلالة احصائية | ماجستير منشورة الجامعة الأردنية عمان الأردن | منشورة جامعة عمان العربية للدراسات العليا عمان | |
3 | 29,468 | 18,330 | 7266 | 3410 | 1838 | 731 |
دلالة احصائية | المتوسطات الحسابية والانحرافات | النبي صلى الله وسلم | فروق دلالة احصائية مستوى الدلالة | تم حساب المتوسطات الحسابية والانحرافات المعيارية | جامعة عمان العربية للدراسات العليا عمان الأردن | |
4 | 26,967 | 18,086 | 6979 | 3135 | 1660 | 717 |
صلى الله | فروق دلالة احصائية | رسول الله صلى الله | منشورة الجامعة الأردنية عمان الأردن | وجود فروق دلالة احصائية مستوى الدلالة | وجود فروق دلالة احصائية مستوى الدلالة الفا | |
5 | 26,167 | 11,953 | 6563 | 3092 | 1469 | 660 |
محمد بن | وجود فروق دلالة | الله صلى الله وسلم | وجود فروق دلالة احصائية مستوى | فروق دلالة احصائية مستوى الدلالة الفا | فروق دلالة احصائية مستوى الدلالة الفا اقل | |
6 | 25,698 | 10,390 | 6262 | 2733 | 1224 | 658 |
الله وسلم | المملكة العربية السعودية | فروق دلالة احصائية مستوى | رسالة ماجستير منشورة الجامعة الأردنية | استخراج المتوسطات الحسابية والانحرافات المعيارية تمﱠ | عدم وجود فروق دلالة احصائية مستوى الدلالة | |
7 | 25,373 | 10,127 | 6023 | 2528 | 1179 | 590 |
الله عبد | دلالة احصائية مستوى | دار الكتب العلمية بيروت | الجدول المتوسطات الحسابية والانحرافات المعيارية | توجد فروق دلالة احصائية مستوى الدلالة | هل توجد فروق دلالة احصائية مستوى الدلالة | |
8 | 22,130 | 9707 | 5001 | 2419 | 1128 | 535 |
المتوسط الحسابي | افراد عينة الدراسة | دلالة احصائية مستوى الدلالة | ماجستير منشورة الجامعة الأردنية عمان | عدم وجود فروق دلالة احصائية مستوى | توجد فروق دلالة احصائية مستوى الدلالة الفا | |
9 | 21,992 | 9463 | 4979 | 2145 | 1060 | 518 |
نتائج الدراسة | وزارة التربية والتعليم | رسالة ماجستير منشورة جامعة | دلالة احصائية مستوى الدلالة الفا | هل توجد فروق دلالة احصائية مستوى | رسالة ماجستير منشورة جامعة اليرموك اربد الأردن | |
10 | 21,133 | 9325 | 4320 | 2131 | 842 | 482 |
فروق دلالة | رسالة ماجستير منشورة | توجد فروق دلالة احصائية | توجد فروق دلالة احصائية مستوى | منشورة جامعة عمان العربية للدراسات العليا | المتوسطات الحسابية والانحرافات المعيارية لاستجابات افراد عينة |
Experimenting with the plagiarism detection system
Segment | Untampered Test Dataset | Test Dataset with Plagiarized Paragraphs | Test Dataset with Plagiarized Sentences | |||
---|---|---|---|---|---|---|
Count | unique count | Count | unique count | count | Unique count | |
unigram | 632 | 413 | 735 | 487 | 678 | 441 |
bigram | 631 | 586 | 734 | 682 | 677 | 626 |
trigram | 630 | 618 | 733 | 718 | 676 | 662 |
4-g | 629 | 624 | 732 | 725 | 675 | 672 |
5-g | 628 | 627 | 732 | 730 | 674 | 673 |
6-g | 627 | 627 | 731 | 731 | 673 | 673 |
7-g | 626 | 626 | 729 | 729 | 672 | 672 |
Experiment I: plagiarism detection in the original dataset
Title of Source Dissertation | Plagiarized Bigrams | English Translation | Frequency |
---|---|---|---|
النظرية البنائية الوظيفية والتركيز على إسهامات روبرت ميرتون | الاجتماعية والاقتصادية | Social & economical | 15 |
الاجتماعية والثقافية | Social & cultural | 7 | |
عمل الزوجة وأثره على أوضاعها الأسرية: دراسة ميدانية على عينة في مدينة مسقط | اوضحت نتائج | Results showed | 2 |
الاجتماعية والاقتصادية | Social & economical | 9 |
Title of Dissertation | Detected Trigrams | English Translation | Frequency |
---|---|---|---|
النظرية البنائية الوظيفية والتركيز على إسهامات روبرت ميرتون | السياسية والاقتصادية والاجتماعية | Political, economical and social | 3 |
مشكلات المرأة الصحفية العاملة في الصحف اليومية الأردنية | السياسية والاقتصادية والاجتماعية | Political, economical and social | 1 |
أثر المتغيرات الاقتصادية والاجتماعية على الاتجاهات السياسية لأعضاء هيئة التدريس في الجامعة الأردنية | الظروف الاقتصادية والاجتماعية | Economical and social conditions | 1 |
عمل الزوجة وأثره على أوضاعها الأسرية :دراسة ميدانيةعلى عينة في مدينة مسقط | جاءت العوامل الاقتصادية | Economical factors were | 1 |
Title of Dissertation | Source in the Subcorpus | Detected Trigrams |
---|---|---|
النظرية البنائية الوظيفية والتركيز على إسهامات روبرت ميرتون | …مكونات الحياة السياسية والاقتصادية والاجتماعية وهذا يتطلب مزيداً من التخصص… | السياسية والاقتصادية والاجتماعية |
مشكلات المرأة الصحفية العاملة في الصحف اليومية الأردنية | …والعقبات السياسية والاقتصادية والاجتماعية التي تواجه الإعلاميات العربيات… | السياسية والاقتصادية والاجتماعية |
أثر المتغيرات الاقتصادية والاجتماعية على الاتجاهات السياسية لأعضاء هيئة التدريس في الجامعة الأردنية | …الظروف الاقتصادية والاجتماعية الحالية والتصدي لها قبل الاتجاه بجرأة… | الاقتصادية الظروف والاجتماعية |
عمل الزوجة وأثره على أوضاعها الأسرية: دراسة ميدانية على عينة في مدينة مسقط | …وتأكيد الذات واكتساب الخبرة والاحتكاك بالمجتمع وبالتالي جاءت العوامل الاقتصادية مقدمة الى الدوافع… | جاءت العوامل الاقتصادية |
Title of Dissertation | Source in the Subcorpus | Detected 4-g |
---|---|---|
عمل الزوجة وأثره على أوضاعها الأسرية: دراسة ميدانية على عينة في مدينة مسقط | شهدت السنوات الأخيرة تزايدا في معدلات توظيف المرأة بشكل كبير في مختلف المستويات التعليمية... | شهدت السنوات الأخيرة تزايدا |
النظرية البنائية الوظيفية والتركيز على إسهامات روبرت ميرتون | ولكن التطورات والتغيرات أصابت المجتمعات في جميع الجوانب السياسية والاقتصادية والاجتماعية والثقافية ورافقه تغير وجهة النظر السابقة... | السياسية والاقتصادية والاجتماعية والثقافية |
N-gram Segments | Retrieved Dissertations | Segments in the Test Dataset | Segments Identified as Plagiarized | Reported Plagiarism Ratio |
---|---|---|---|---|
3 | 4 | 618 | 15 | 2.43% |
4 | 2 | 624 | 2 | 0.32% |
5 | 0 | 627 | 0 | 0.00% |
6 | 0 | 627 | 0 | 0.00% |
7 | 0 | 626 | 0 | 0.00% |
Experiment II: detecting paragraph simulated-plagiarism
Paragraph-1 inserted on page1 | شهدت السنوات الأخيرة تزايداً في معدلات توظيف المرأة بشكل كبير في مختلف المستويات التعليمية كنتيجة طبيعية لمخرجات المؤسسات التعليمية المختلفة كجامعة السلطان قابوس وكليات التربية ومعاهد العلوم الصحية. وبلغ عدد الموظفات العمانيات المعينات العام م حوالي بنسبة إجمالي الموظفين العمانيين المعينين. |
Paragraph-2 inserted on page2 | ولكن التطورات والتغيرات أصابت المجتمعات في جميع الجوانب السياسية والاقتصادية والاجتماعية والثقافية ورافقها تغير وجهة النظر السابقة المرتبطة بالأدوار المناطة بكلا الجنسين الرجل المرأة وتحسن مستوى تعليم المرأة وخرجت للعمل وقامت المؤسسات مثل دور الرعاية وتنشئة الأطفال بالإضافة الى الأسرة بفتح المجال أمام المرأة بأن تأخذ أدواراً جديدة في المجتمع؛ لذلك ينظر الوظيفيون الى الأمر بأنه يتطلب نوعاً من التعديل في النظم الاجتماعية السابقة من أجل عدم حصول توتر وصراع داخل المجتمع بسبب اختلاف تقسيم الأدوار. |
N-gram Segments | Retrieved Dissertations | Segments in the Test Dataset | Segments with Simulated Plagiarism | Segments Identified as Plagiarized | Reported Plagiarism Ratio |
---|---|---|---|---|---|
3 | 4 | 718 | 99 | 114 | 15.88% |
4 | 2 | 725 | 97 | 99 | 13.93% |
5 | 2 | 730 | 95 | 95 | 13.01% |
6 | 2 | 731 | 93 | 93 | 12.72% |
7 | 2 | 729 | 91 | 91 | 12.48% |
Experiment III: detecting plagiarism-simulated sentences injected in the dataset
Plagiarism-simulated sentences | Page# | Paragraph# |
---|---|---|
المتوسطات الحسابية والانحرافات المعيارية للكفاءة المعلوماتية لمكتبات | 1 | 1 |
الأنماط البنائية وحالاتها | 1 | 2 |
والانحرافات المعيارية للكفاءة التعليمية لمكتبات المدارس الأساسية | 1 | 3 |
والبالغ عددهم وطلبة المرحلة الأساسية العليا الصفوف | 1 | 4 |
أسئلة الدراسة استخراج التكرارات والنسب | 2 | 1 |
تناول الظاهرة موضوع | 2 | 3 |
منطقية يجري بمقتضاها | 2 | 4 |
بصائر أحوال الظاهرة النحوية | 3 | 1 |
استخراج التكرارات والنسب المئوية والمتوسطات الحسابية والانحرافات | 3 | 2 |
أهمية التحليل الحركي | 3 | 3 |
N-gram Segments | Retrieved Dissertations | Segments in the Test Dataset | Segments with Simulated Plagiarism | Segments Identified as Plagiarized | Reported Plagiarism Ratio |
---|---|---|---|---|---|
3 | 4 | 662 | 28 | 15 | 2.27% |
4 | 2 | 672 | 19 | 2 | 0.30% |
5 | 0 | 673 | 13 | 0 | 0.00% |
6 | 0 | 673 | 8 | 0 | 0.00% |
7 | 0 | 672 | 4 | 0 | 0.00% |
N-gram Segments | Segments in Test Dataset | Segments with Simulated Plagiarism | Segments Identified as Plagiarized | Reported Plagiarism Ratio |
---|---|---|---|---|
3 | 662 | 28 | 159 | 24.02% |
4 | 672 | 19 | 57 | 8.48% |
5 | 673 | 13 | 20 | 2.97% |
6 | 673 | 8 | 11 | 1.63% |
7 | 672 | 4 | 5 | 0.74% |
N-gram Segments | Suspicious Plagiarism Sentences |
---|---|
5-gram | خلصت الدراسة مجموعة التوصيات ابرزها |
الدراسة مجموعة التوصيات ابرزها ضرورة | |
توصلت الدراسة مجموعة النتائج اهمها | |
شتى مجالات الحياة السياسية والاقتصادية | |
6-gram | اسئلة الدراسة تم استخراج التكرارات والنسب |
الدراسة تم استخراج التكرارات والنسب المئوية | |
7-gram | المئوية اسئلة الدراسة تم استخراج التكرارات والنسب |