สมัครสมาชิก   เข้าระบบ  
การก่อสร้างซอฟต์แวร์
वीर
อ่าน: 160
Yaitron - A machine-readable dictionary
Yaitron เป็น dictionary ที่เอา Lexitron มาแก้ๆ อีกที. ส่วนที่แตกต่างกันมาคือ Yaitron เป็น XML แบบ Well form (อย่างน้อยก็พยายามจะทำให้มัน well form) ซึ่งต่างจาก Lexitron ที่ใช้ format คล้าย XML แต่ไม่ใช่ ดังนั้น Yaitron ก็น่าจะ parse ง่ายกว่านิดหน่อย. มากไปกว่านั้น Yaitron ยังใช้ tag หน้าตาเหมือนกันไม่ว่าจะเป็น dict eng->tha หรือ tha->eng ซึ่งก็น่าจะทำให้เขียนโปรแกรมง่ายขึ้นไปอีก.

หลังจากที่ปล่อย version แรกเมื่อ วันที่ 17 เมษาฯ 2549 ก็พอว่าในไฟล์ของ Yaitron ก็ยังมีข้อ format ที่ไม่แน่นอน และ ข้อผิดพลาด ที่สืบทอดมาจาก Lexitron เช่น 

<Doc>
<tentry>ขอบเขต</tentry>
<tcat>ประธานคณะกรรมการมีกำหนดจะประกาศรายชื่อนักการเมืองที่อยู่ในข่ายต้องสงสัยเรื่องการทุจริต</tcat>
<id>40021</id>
</Doc>

พบว่า tcat ควรเป็นชนิดของคำแต่มีข้อความแปลกๆ มาแทน

<Doc>
<tsearch>หลุนๆ</tsearch>
<tentry>หลุนๆ</tentry>
<eentry>roll down</eentry>
<tcat>ADV   V</tcat>
<tenglish>slide down</tenglish>
<tsample>สายน้ำอันเชี่ยวกรากพาร่างกลิ้งหลุนๆ ไปกระแทกกราบอีกด้าน</tsample>
<id>36092</id>
</Doc>

<entry lang="eng">
  <pos>VT, VI</pos>
  <headword>abdicate</headword>
  <synonym>abandon; surrender</synonym>
  <translation lang="tha">ละเลยหน้าที่</translation>
  <lexitron id="42"/>
</entry>

อันนี้ก็งงๆว่า ระหว่าง pos ควรแยกด้วยอะไรดี ช่องว่าง หรือ comma หรือแยกเป็น 2 ชุด ตอนนี้ผมแยกเป็น 2 ชุดเอาเช่น <pos>VT</pos><pos>VI</pos> แบบนี้น่าจะ parse ง่ายที่สุด เมื่อแก้ไปแล้วก็มีให้ download ไปใช้กันได้ที่ http://www.vee-u.com/src/yaitron-data-20070709.tar.bz2
สร้าง: จ. 09 ก.ค. 2550 @ 19:22   แก้ไข: จ. 09 ก.ค. 2550 @ 19:22   ขนาด: 7648 ไบต์
ความคิดเห็น
ไม่มีความคิดเห็น
ชื่อ:
อีเมล:
IP แอดเดรส: 203.151.232.70
  เรียกใช้งานตัวจัดการข้อความ
ข้อความ:
 
รหัสสุ่ม: (ใส่รหัสสุ่มที่แสดงไว้ด้านบน)
  ยกเลิก
บันทึกอื่นๆ
การพัฒนาซอฟต์แวร์