Data-oriented models of parsing and translation [thesis]

دانلود کتاب Data-oriented models of parsing and translation [thesis]

دسته: زبانشناسی

56000 تومان موجود

کتاب مدل های داده گرا تجزیه و ترجمه [پایان نامه] نسخه زبان اصلی

دانلود کتاب مدل های داده گرا تجزیه و ترجمه [پایان نامه] بعد از پرداخت مقدور خواهد بود
توضیحات کتاب در بخش جزئیات آمده است و می توانید موارد را مشاهده فرمایید


این کتاب نسخه اصلی می باشد و به زبان فارسی نیست.


امتیاز شما به این کتاب (حداقل 1 و حداکثر 5):

امتیاز کاربران به این کتاب:        تعداد رای دهنده ها: 4


توضیحاتی در مورد کتاب Data-oriented models of parsing and translation [thesis]

نام کتاب : Data-oriented models of parsing and translation [thesis]
عنوان ترجمه شده به فارسی : مدل های داده گرا تجزیه و ترجمه [پایان نامه]
سری :
نویسندگان :
ناشر : Dublin City University
سال نشر : 2005
تعداد صفحات : 262

زبان کتاب : English
فرمت کتاب : pdf
حجم کتاب : 2 مگابایت



بعد از تکمیل فرایند پرداخت لینک دانلود کتاب ارائه خواهد شد. درصورت ثبت نام و ورود به حساب کاربری خود قادر خواهید بود لیست کتاب های خریداری شده را مشاهده فرمایید.

توضیحاتی در مورد کتاب :


مزایای ترکیب عناصر مثبت رویکردهای مبتنی بر قانون و داده‌محور برای MT واضح است: یک مدل ترکیبی پتانسیل این را دارد که بسیار دقیق، قوی، مقرون‌به‌صرفه برای ساخت و سازگار باشد. با این حال، در حالی که محاسن واضح است، بهترین روش ترکیب این تکنیک ها در مدلی که ویژگی های مثبت هر رویکرد را حفظ می کند، در حالی که تا حد ممکن معایب را به ارث می برد، یک مشکل حل نشده باقی می ماند. یکی از راه‌حل‌های ممکن برای این چالش، مدل ترجمه داده‌گرا (DOT) است که در ابتدا توسط پوتسما (1998، 2000، 2003) پیشنهاد شد، که مبتنی بر تجزیه داده‌گرا (DOP) است (به عنوان مثال (Bod، 1992؛ Bod et al. ، 2003)) و ترکیبی از مثال ها، اطلاعات زبانی و یک مدل ترجمه آماری است. در این پایان نامه، ما به دنبال این هستیم که چگونگی ارتباط مدل DOT ترجمه با سایر روش‌های اصلی MT را که در حال حاضر مورد استفاده قرار می‌گیرند، ایجاد کنیم. ما متوجه شدیم که این مدل با دیگر مدل‌های ترکیبی MT تفاوت دارد زیرا به طور جدایی ناپذیری فلسفه‌های رویکردهای مبتنی بر قانون، مبتنی بر مثال و آماری را در یک چارچوب یکپارچه در هم می‌آمیزد. اگرچه DOT ​​بسیاری از ویژگی‌های مثبت را در سطح نظری مجسم می‌کند، اما پیچیدگی محاسباتی مرتبط با DOP را نیز به ارث می‌برد. آزمایش‌های قبلی که عملکرد مدل ترجمه DOT ​​را ارزیابی می‌کردند در مقیاس کوچک بودند و داده‌های آموزشی مورد استفاده به طور ایده‌آل برای کار مناسب نبودند (پوتسما، 2000، 2003). با این حال، محدودیت‌های الگوریتمی اجرای DOT مورد استفاده برای انجام این آزمایش‌ها مانع از انجام یک ارزیابی آموزنده‌تر شد. در این پایان نامه، ما به راه حل های نوآورانه توسعه یافته برای مقابله با چالش های اجرای مدل DOP نگاه می کنیم و کاربرد آنها را برای DOT بررسی می کنیم. این تحقیق در توسعه یک سیستم DOT به اوج خود می رسد. این سیستم به ما اجازه می‌دهد تا آزمایش‌های ترجمه‌ای را انجام دهیم که در مقیاس بزرگ‌تر هستند و پیچیدگی ترجمه‌ای بیشتری را نسبت به قبل در خود جای داده‌اند. ارزیابی ما نشان می‌دهد که ویژگی‌های مثبت مدل شناسایی‌شده در سطح نظری نیز زمانی که در معرض ارزیابی تجربی قرار می‌گیرد، مشهود است. به عنوان مثال، از نظر دقت تطابق دقیق، مدل DOT تا 89.73% از یک مدل SMT که بر روی همان داده ها آموزش و آزمایش شده است بهتر عمل می کند. مدل‌های DOP و DOT که برای آنها ارزیابی‌های تجربی ارائه می‌کنیم، بازنمایی درختی ساختار عبارات بدون بافت را فرض می‌کنند. با این حال، چنین مدل هایی را می توان برای فرمالیسم های زبانی پیچیده تر نیز توسعه داد. در این پایان نامه، ما همچنین بر تلاش هایی تمرکز می کنیم که برای ادغام نمایش های گرامر واژگانی-عملکردی (LFG) با DOP و DOT انجام شده است. ما سودمندی الگوریتم‌های توسعه‌یافته برای DOP (و در اینجا با Tree-DOT تطبیق داده شده‌اند) را هنگام اجرای مدل‌های (پیچیده‌تر) LFG-DOP و LFG-DOT بررسی می‌کنیم. ما بررسی می‌کنیم که چگونه از محدودیت‌ها در این مدل‌ها برای ابهام‌زدایی دقیق‌تر استفاده می‌شود و به دنبال یک روش جایگزین برای بهبود مشخصات محدودیت هستیم. ما همچنین فرض می‌کنیم که چگونه محدودیت‌های مورد استفاده برای پیش‌بینی تجزیه‌های خوب و ترجمه‌های خوب ممکن است به شیوه‌ای با انگیزه حذف شوند. در نهایت، ما رابطه بین هم ارزی ترجمه و قابلیت استفاده مجدد تعمیم محدود را برای هر دو مدل DOT مبتنی بر درخت و مبتنی بر LFG بررسی می‌کنیم، با تمرکز بر اینکه چگونه این رابطه بسته به فرمالیسم فرض شده متفاوت است.


توضیحاتی در مورد کتاب به زبان اصلی :


The merits of combining the positive elements of the rule-based and data-driven approaches to MT are clear: a combined model has the potential to be highly accurate, robust, cost-effective to build and adaptable. While the merits are clear, however, how best to combine these techniques into a model which retains the positive characteristics of each approach, while inheriting as few of the disadvantages as possible, remains an unsolved problem. One possible solution to this challenge is the Data-Oriented Translation (DOT) model originally proposed by Poutsma (1998, 2000, 2003), which is based on Data-Oriented Parsing (DOP) (e.g. (Bod, 1992; Bod et al., 2003)) and combines examples, linguistic information and a statistical translation model. In this thesis, we seek to establish how the DOT model of translation relates to the other main MT methodologies currently in use. We find that this model differs from other hybrid models of MT in that it inextricably interweaves the philosophies of the rule-based, example-based and statistical approaches in an integrated framework. Although DOT embodies many positive characteristics on a theoretical level, it also inherits the computational complexity associated with DOP. Previous experiments assessing the performance of the DOT model of translation were small in scale and the training data used was not ideally suited to the task (Poutsma, 2000, 2003). However, the algorithmic limitations of the DOT implementation used to perform these experiments prevented a more informative assessment from being carried out. In this thesis, we look to the innovative solutions developed to meet the challenges of implementing the DOP model, and investigate their application to DOT. This investigation culminates in the development of a DOT system; this system allows us to perform translation experiments which are on a larger scale and incorporate greater translational complexity than heretofore. Our evaluation indicates that the positive characteristics of the model identified on a theoretical level are also in evidence when it is subjected to empirical assessment. For example, in terms of exact match accuracy, the DOT model outperforms an SMT model trained and tested on the same data by up to 89.73%. The DOP and DOT models for which we provide empirical evaluations assume contextfree phrase-structure tree representations. However, such models can also be developed for more sophisticated linguistic formalisms. In this thesis, we also focus on the efforts which have been made to integrate the representations of Lexical-Functional Grammar (LFG) with DOP and DOT. We investigate the usefulness of the algorithms developed for DOP (and adapted here to Tree-DOT) when implementing the (more complex) LFG-DOP and LFG-DOT models. We examine how constraints are employed in these models for more accurate disambiguation and seek an alternative methodology for improved constraint specification. We also hypothesise as to how the constraints used to predict both good parses and good translations might be pruned in a motivated fashion. Finally, we explore the relationship between translational equivalence and limited generalisation reusability for both the tree-based and LFG-based DOT models, focussing on how this relationship differs depending on which formalism is assumed.



پست ها تصادفی