


[ ขยายดูภาพใหญ่ ]
|
เครื่องแปลภาษาคือ เครื่องมือที่ใช้สำหรับการแปลข้อความจำนวนมาก ๆ จากภาษาหนึ่งไปยังอีกภาษาหนึ่ง โดยที่สามารถป้อนข้อมูลภาษาต้นทางเป็นข้อความหรือเสียงก็ได้ และจะได้ภาษาปลายทางเป็นข้อความหรือเสียงก็ได้เช่นกัน ซึ่งจะช่วยให้วงการการแปลสามารถแปลข้อความได้เป็นจำนวนมากและรวดเร็ว ในยุคที่ต้องการข้อมูลข่าวสารอย่างรวดเร็ว
ประวัติการทำวิจัยและพัฒนาเครื่องแปลภาษา
การทำวิจัยและพัฒนาเครื่องแปลภาษาเป็นงานแขนงหนึ่งในศาสตร์แห่งการประมวลผล ภาษาธรรมชาติ (Natural Language Processing) เครื่องแปลภาษาเครื่องแรกได้กำเนิดขึ้นประมาณปี ค.ศ. ๑๙๓๐ เครื่องแปลภาษาเป็นซอฟต์แวร์ที่พยายามแปลข้อความในรูปประโยค โดยพิจารณาเรื่องวากยสัมพันธ์ รวมถึงอรรถศาสตร์ด้วย ไม่ใช่แปลเป็นคำๆ เท่านั้น
เครื่องแปลภาษาในยุคแรก (ปี ค.ศ. ๑๙๕๐ - ๑๙๖๐)
จากการสำรวจการทำวิจัยและพัฒนาเครื่องแปลภาษา (ALPAC 1966 - 672) พบว่า ระบบที่สำคัญที่สุดในยุคนี้ คือ ระบบ Georetown Automatic Translation (GAT) ส่วนในยุโรปก็ได้แก่ งานของ Kulagina และ Mel'cuk ในยุคแรกนี้ เครื่องแปลภาษาจะแปลแบบตรง (directapproach) คือ แปลแบบพิจารณาเฉพาะที่ โดยแปลจากภาษาต้นทางเป็นภาษาปลายทางโดยตรงทีละคู่ภาษาเท่านั้น และโปรแกรมจะพิจารณาไปทีละคำ ไม่ได้ดูเป็นประโยค เป็นการแปลคำต่อคำแล้วใช้การเปลี่ยนการเรียงลำดับคำให้สอดคล้องกับภาษาเป้าหมาย ส่วนการเขียนกฎไวยากรณ์หรือการใช้ความรู้ทางภาษาศาสตร์เพื่อมาช่วยในการวิเคราะห์นั้น ในยุคแรกนี้ จะเขียนเป็นรหัสโดยตรง จึงใช้งานได้ยาก และมีลักษณะเป็นกระบวนการ (procederal) กล่าวคือ กระบวนการแปลทั้งหมดคือการทำตามคำสั่งต่อ ๆ กัน
แต่เป็นที่น่าเสียดายที่รายงาน ALPAC ดังกล่าว แสดงผลว่า การทำวิจัยและพัฒนาเครื่องแปลภาษาไม่ประสบความสำเร็จ รัฐบาลสหรัฐอเมริกาจึงไม่สนับสนุนงบประมาณในการทำวิจัยเรื่องนี้ ซึ่งผลให้เกิดยุคมืดของการทำวิจัยและพัฒนาระบบแปลภาษาขึ้น อย่างไรก็ตาม การทำวิจัยและพัฒนาในประเทศอื่น ๆ ก็ยังดำเนินต่อไป
ในยุคนี้ได้มีการนำเครื่องแปลภาษามาใช้งานจริงในปี ค.ศ. ๑๙๗๖ ซึ่งทาง Commission of the European Communities ได้ตัดสินใจสั่งซื้อและพัฒนาระบบ Systran ซึ่งเป็นเครื่องแปลภาษาอังกฤษ - ฝรั่งเศส เพื่อใช้สำหรับบริการการกระจายข่าวของแคนาดา และหลังจากนั้นมาอีก ๕ ปี บริษัทต่าง ๆ ที่พัฒนาเครื่องแปลภาษาก็สามารถนำผลงานออกสู่ตลาดได้เป็นผลสำเร็จ
เครื่องแปลภาษาในยุคปี ค.ศ. ๑๙๘๐
งานวิจัยและพัฒนาเครื่องแปลภาษาในยุคนั้นยังให้ความสำคัญกับวากยสัมพันธ์ของภาษาและใช้วิธีการ "เปลี่ยน" (transfer approach) ตัวอย่างเช่น ระบบเอเรียน (Ariane) ของมหาวิทยาลัยเกรดนอบล์ ประเทศฝรั่งเศษ ระบบเมทัล ของเท็กซัส ระบบซูซี่ ของ Sarbruken ระบบ MU ของมหาวิทยาลัยเกียวโต รวมถึงโครงการ Multilingual Eurotra ของกลุ่มประชาคมยุโรป
ต่อมามีการนำวิธีการใช้ภาษากลาง (interlingual approach) เข้ามาใช้ เพื่อที่จะทำการแปลแบบหลายภาษา (multilingual machine translation) ให้ได้ผล เช่น โครงการ DLT และ โรเซ็ตต้า (Rosetta) ประเทศเนเธอร์แลนด์ รวมทั้งโครงการระบบเครื่องแปลหลากภาษาสำหรับภาษาอาเซียน ๕ ภาษา คือ ภาษาญี่ปุ่น ภาษาจีน ภาษามาเลเซีย ภาษาอินโดนีเซีย และภาษาไทย
การพัฒนาเครื่องแปลภาษาในยุคนี้มีแนวคิดเปลี่ยนไปจากเดิมคือ เริ่มมองว่าเครื่องแปลภาษาเป็นเครื่องมือที่จะช่วยแปลภาษาเท่านั้น แต่ไม่สามารถนำมาทดแทนนักแปลภาษามืออาชีพได้ แนวคิดเช่นนี้ก่อให้เกิดการรวมตัวของนักวิจัย เพื่อหาแนวทางใหม่ๆในการทำวิจัยและพัฒนา ซึ่งสามารถสรุปแนวทางที่เกิดขึ้นในยุคนี้ได้ดังนี้
๑. เครื่องแปลภาษาแบบใช้กฎไวยากรณ์
สมมติฐานของการพัฒนาเครื่องแปลภาษาแบบใช้กฎไวยากรณ์ก็คือ การมีกระบวนการวิเคราะห์และการสร้างรูปแทน (representation) ความหมายของภาษาต้นทาง และสร้างภาษาปลายทางจากรูปแทนนั้น โดนที่รูปแทนจะต้องไม่มีความกำกวมทั้งในระดับคำและโครงสร้าง โดยมีการวิเคราะห์ภาษาต้นทางด้วยความรู้ทางภาษาศาสตร์ ซึ่งประมวลผลออกมาเป็นกฎไววยากรณ์และมีวิธีใช้เพื่อให้สามารถไปถึงจุดหมายนั้นได้หลายวิธี ดังนี้
๑.๑ เครื่องแปลภาษาแบบ "เปลี่ยน"
แนวทางการใช้วิธีการ "เปลี่ยน" นั้น ได้แก่ ระบบเอเรียน และระบบยูโรทรา ฯลฯ ซึ่งเป็นระบบที่ให้ความสำคัญกับวากยสัมพันธ์ของภาษาและมีการทำงานเป็นขั้นตอน ดังนี้
๑.๒ เครื่องแปลภาษาแบบ "ภาษากลาง" (Interlingual Approach)
การทำวิจัยเครื่องแปลภาษาด้วยการใช้ภาษากลางนั้นเริ่มต้นที่มหาวิทยาลัย Carnegie - Melon ซึ่งทำวิจัยและพัฒนา Knowledge - based MT system โดยมีแนวคิดว่า นอกเหนือจากการใช้ความรู้ทางภาษาศาสตร์แล้ว ในการแปลภาษาจะต้องมีความเข้าใจเรื่องหลักภาษาด้วย จึงมีการแปลงรูปแทนทางอรรถศาสตร์ โดยใช้ความรู้จากฐานความรู้ในโดเมนใด ๆ ซึ่งแสดงเป็นโครงข่าย (network) ที่แสดง actual events
๒. เครื่องแปลภาษาแบบใช้คลังข้อความ (Corpus - based Approach)
แนวคิดการทำวิจัยและพัฒนาเครื่องแปลภาษาได้เริ่มเข้าสู่ยุคใหม่ ซึ่งมีการเก็บรวบรวมข้อความจำนวนมากที่เรียกว่า คลังข้อความ (Corpus base) เพื่อนำไปศึกษาวิจัย โดยอ้างอิงข้อมูลขนาดใหญ่ที่ใช้จริงในภาษา และมีการดึงข้อมูลจากคลังข้อความไปใช้ในการวิเคราะห์ภาษาหรือการสร้างภาษาโดยตรง จึงก่อให้เกิดวิธีการนำไปใช้ดังต่อไปนี้
๒.๑ วิธีอาศัยค่าสถิติ (Statistic Approach)
ในช่วงปลายคริสต์ทศวรรษ ๑๙๘๐ โครงการ IBM candide Research (Brown et all. 1980, 1990) ได้อาศัยวิธีการทางสถิติในการวิเคราะห์และการสร้างภาษา โดยอาศัยคลังข้อความขนาดใหญ่ที่มีชื่อว่า Canadian Hansard ซึ่งได้เก็บบันทึกการอภิปรายในสภาไว้เป็น ๒ ภาษาคือ ภาษาอังกฤษ และภาษาฝรั่งเศส วิธีการที่นำมาใช้คือ การหาขอบเขตของประโยค ๒ ภาษาที่ตรงกันจากคลังข้อความที่เป็นคู่ภาษา จากนั้นนำมาคำนวณหาค่าความเป็นไปได้ของคำในภาษาต้นทางว่าตรงกับภาษาปลายทางกี่คำ โดยคำนวณค่าความเป็นไปได้จากการจับคู่คู่คำที่อยู่ติดกัน (bigram) ของภาษาอังกฤษ กับคู่คำที่อยู่ติดกัน (bigram) ของภาษาฝรั่งเศส ซึ่งผลสำเร็จที่สามารถแปลได้มีความถูกต้องประมาณ ๔๘ %
ต่อมามีการปรับปรุงการทำวิจัยและพัฒนาในเรื่องนี้ โดยปรับการคำนวณค่าความเป็นไปได้ให้ถูกต้องมากยิ่งขึ้น นอกจากนั้น นักวิจัยบางคนก็นำความรู้ทางภาษาศาสตร์เรื่องคำและไวยากรณ์มาใช้ร่วมกัน เพื่อให้งานนั้นถูกต้องยิ่งขึ้น
๒.๒ วิธีการแปลแบบใช้ประโยคตัวอย่าง (Example base Approach)
ในกลางคริสต์ทศวรรษ ๑๙๘๐ นากาโอะ (Nagao) ได้เสนอวิธีการแปลโดยการใช้ประโยคตัวอย่างจากคลังข้อความคู่ภาษาขนาดใหญ่ ซึ่งโปรแกรมจะคำนวณว่า ประโยคที่มีปรากฏว่าแปลไว้ในคลังตัวอย่าง และดึงขึ้นมาใช้ โครงการ ATR ซึ่งมีเครื่องแปลภาษาแบบใช้วิธี "เปลี่ยน" ก็ได้นำวิธีนี้มาใช้ โดยเลือกเก็บประโยคตัวอย่าง ซึ่งได้มาจากการคำนวณค่าระยะห่างของคำที่มีความหมายใกล้เคียงกันในอภิธานศัพท์ (Thesaurus) และจะใช้การ "เปลี่ยน" ในระดับต่าง ๆ เช่น ระดับคำ ระดับรูปแบบ และระดับวากยสัมพันธ์ เช่น ในภาษาญี่ปุ่น โครงสร้าง N1 no N2 จะเปลี่ยนไปให้ตรงกับ N2 of N1 แต่ก็ไม่เสมอไป เช่น จะใช้สำนวนว่า fee for the conference มากกว่า fee of the conference และจะใช้ conference in Tokyo มากกว่า conference of Tokyo ดังนั้น จึงมีการเก็บประโยคตัวอย่างเหล่านี้ไว้
เครื่องแปลภาษาไทยเป็นภาษาอื่น ๆ
การทำวิจัยและพัฒนาเครื่องแปลภาษาในประเทศไทยเริ่มต้นในปี พ.ศ. ๒๕๒๔ โดยจุฬาลงกรณ์มหาวิทยาลัยร่วมกับมหาวิทยาลัยเกรอนอบล์ (Grenoble) แห่งประเทศฝรั่งเศสได้ร่วมโครงการทำวิจัยและแปลภาษาเป็นไทยด้วยคอมพิวเตอร์ ซึ่งเป็นโครงการของทบวงมหาวิทยาลัย (พ.ศ. ๒๕๒๔ - ๒๕๓๐)
ต่อมาก็เกิดโครงการความร่วมมือในการพัฒนาระบบแปลหลากภาษาสำหรับภาษาในเอเชีย ซึ่งได้แก่ ภาษาจีน ญี่ปุ่น มาเลเซีย อินโดนีเซีย และไทย โครงการนี้เป็นโครงการของกระทรวงวิทยาศาสตร์ เทคโนโลยีและสิ่งแวดล้อม ซึ่งดำเนินการโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (พ.ศ. ๒๕๓๐ - ๒๕๓๗)
|