ტექსტური კორპუსები და მთარგმნელობითი საქმიანობა
ლინგვისტიკაში კორპუსი აღნიშნავს რომელიმე ენის წერილობითი ძეგლების ან წერილობით დოკუმენტირებული ზეპირმეტყველების მასალების ნაკრებს.
კორპუსების შექმნამ განსაკუთრებული მნიშვნელობა შეიძინა ისეთი ჰუმანიტარული დარგებისათვის, როგორიცაა:
- ენათმეცნიერება
- ლიტერატურათმცოდნეობა
- ისტორიოგრაფია
- სამართალმცოდნეობა
კორპუსი იძლევა ცალკეული საკითხებისა და პრობლემების სისტემური კვლევის საშუალებას. ლინგვისტიკასა და თარგმანმცოდნეობაში ტექსტური კორპუსები საშუალებას გვაძლევს ვიკვლიოთ ამა თუ იმ სიტყვის, ტერმინის გამოყენების პრაქტიკა სხვადასხვა ტექსტებში, პროფესიულად გავიაზროთ ამ თუ იმ ენობრივი ფორმის გამოყენების სემანტიკა, ეტიოლოგია და სიხშირე. ამ მხრივ მნიშვნელოვანია, როგორც ერთენოვანი, ასევე ორ და მრავალენოვანი ე.წ. პარალელური კორპუსები.
დელტას მთარგმნელობითი ჯგუფის ინგლისური და რუსული ენების პარალელურ კორპუსები წარმოდგენილია მილიონზე მეტი ენობრივი ენიგმებით. მონაცემთა ბაზების საძიებო სისტემა განთავსებულია მისამართზე:
ასევე, ჩვენი მუშაობის პროცესში ვიყენებთ შემდეგ ტექსტობრივ კორპუსებს:
- ქართული ენის ვებკორპუსი მოიცავს 150 მილიონზე მეტ სიტყვას და განთავსებულია ლიდსის უნივერსიტეტის ვებგვერდზე:
http://corpus.leeds.ac.uk/internet.html
- ბრაუნის კორპუსი შედგება 1 მილიონი ამერიკული ინგლისური სიტყვისაგან, რომლებიც სხვადასხვა თემატიკის ტექსტებიდანაა აღებული და დაჯგუფებულია 15 თემატურ კატეგორიად
http://clu.uni.no/icame/brown/bcm.html
- TITUS - ARMAZI - კავკასიური ენები და კულტურები: ქართულენოვანი ტექსტების პირველი აკადემიური ელექტრონული მონაცემთა ბაზა, რომელიც აერთიანებს სხვადასხვა პერიოდის ქართული ლიტერატურის ტექსტურ მასალას
http://armazi.uni-frankfurt.de/framee.htm
- თანამედროვე ქართული ენის კორპუსი - მოიცავს ორ სუბკორპუსს: თანამედროვე ქართული ენის კორპუსს (124,055,170 ერთეული) და ქართულ ლიტერატურულ კორპუსს, მორფოლოგიური ანოტირებით (20,903,850 ერთეული). პროექტის ხელმძღვანელია პაულ მოირერი ბერგენის უნივერსიტეტის უფროსი მეცნიერი თანამშრომელი
http://clarino.uib.no/gekko/corpus-list.
- ინგლისური ენის ვებკორპუსი – UkWaC, კორპუსი მოიცავს 2 მილიარდ სიტყვას, ძირითადად .uk დომენიდან და იყენებს ბრიტანული ნაციონალური კორპუსის მიხედვით საშუალო სიხშირის სიტყვებს საკვანძო სიტყვებად (seed words), კორპუსი მორფოლოგიურად ანოტირებულია და ლემატიზებულია. UkWaC კორპუსი ძიებისათვის ხელმისაწვდომია სიტყვაშეხამებითი მოდელების პროგრამაში
https://www.sketchengine.co.uk/documentation/wiki/Corpora/UKWaC
- გერმანული ენის კორპუსი / Deutsches Referenzkorpus DeReKo des Instituts für Deutsche Sprache (IDS)
http://www.ids-mannheim.de/kt/projekte/korpora/
- მე-20 საუკუნის გერმანული ენის რეფერენციული კორპუსი / Referenzkorpus der deutschen Sprache des 20. Jahrhunderts (DWDS-Kernkorpus)
- კორპუსი C4 / Corpus C4(კორპუსი მოიცავს მე-20-ე საუკუნის გერმანული ენის დიგიტალურ ლექსიკონს (DWDS), ავსტრიის აკადემიურ კორპუსს (AAC), შვეიცარიული ტექსტების კორპუსს (CHTK) და სამხრეთ ტიროლის კორპუსს)
- გერმანული ტექსტების არქივი / Deutsches Textarchiv (გერმანული ტექსტების ისტორიული კორპუსი, 1600-1900 წლები, 1300 წიგნი)
http://www.deutschestextarchiv.de
- ბრიტანული ეროვნული კორპუსი / British National Corpus (BNC)
- თანამედროვე ამერიკული ინგლისურის კორპუსი / The Corpus of Contemporary American English (COCA)
- დორტმუნდის ჩატის კორპუსი / Dortmunder Chatkorpus
http://www.chatkorpus.uni-dortmund.de/