Bclv_ch_q.hung_tomtat

  • Uploaded by: NgoHung
  • 0
  • 0
  • April 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Bclv_ch_q.hung_tomtat as PDF for free.

More details

  • Words: 1,016
  • Pages: 2
NGÔ QUỐC HƯNG

TÌM KIẾM TỰ ĐỘNG VĂN BẢN SONG NGỮ ANH-VIỆT TỪ INTERNET CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01

Hiện nay, song ngữ hỗ trợ rất lớn cho các phương pháp máy học giải quyết các bài toán trong xử lý ngôn ngữ tự nhiên. Tuy nhiên các kho ngữ liệu tiếng Việt còn nhiều hạn chế, đặc biệt các kho song ngữ Anh-Việt lại càng ít. Vì vậy, luận văn hướng đến phương pháp tìm kiếm tài liệu song ngữ từ Internet nhằm hỗ trợ cho việc xây dựng các kho ngữ liệu song ngữ Anh-Việt. Với thế mạnh kế thừa những công cụ xử lý ngôn ngữ tự nhiên, đề tài hướng đến sử dụng chúng như là một hướng giải quyết cho bài toán tìm kiếm văn bản song ngữ Anh-Việt từ nguồn Internet bất kỳ mà không phải giả định chúng phải theo một quy tắc nào cả. Để giải quyết vấn đề này, đối với các cặp ngôn ngữ như Anh-Hoa, Anh-Pháp cũng như Anh-Việt, một số nghiên cứu với các phương pháp như dựa vào cấu trúc, dựa vào phân tích nội dung trang web đã được thực hiện. Các hệ thống đã triển khai như: WLSE , WPDE, PTMiner. Đối với cặp ngôn ngữ Anh-Việt đã có những nghiên cứu của tác giả Đ.B.Văn, H.B.Quốc và tác giả P.D.M.Vũ. Tuy nhiên, những nghiên cứu này đều chỉ tiến hành xây dựng song ngữ từ nguồn dữ liệu của một website song ngữ. Hệ thống sử dụng chương trình dịch Anh-Việt, bộ rút trích từ khóa trên nền tảng từ, hệ thống so sánh đánh giá văn bản tương đồng để xác định bản dịch tương ứng của văn bản gốc tiếng Anh. Xây dựng hệ thống tìm kiếm tự động những bản dịch song ngữ Anh Việt từ nguồn Internet thông qua hệ thống tìm kiếm Google và các công cụ xử lý ngôn ngữ tự nhiên.

Luận văn đã thực hiện một quy trình tìm kiếm các văn bản song ngữ Anh-Việt trên cơ sở phát triển các công cụ xử lý ngôn ngữ tự nhiên như rút trích từ khóa, so sánh độ tương đồng hai văn bản tiếng Việt và kết hợp sử dụng chương trình dịch Anh-Việt vào hệ thống nhằm tạo ra một quy trình tìm kiếm các văn bản song ngữ Anh-Việt một cách tự động và hiệu quả. Hệ thống cho kết quả cuối cùng khoảng 90% trên dữ liệu domain từ website Đại sứ quán Mỹ và Đại sứ quán Úc. Công cụ bóc tách nội dung được xây dựng độc lập với tên miền nên hỗ trợ rút trích nội dung các trang web bất kỳ một cách hiệu quả tạo thuận lợi cho quá trình sử dụng khi kết quả trả về của kết quả tìm kiếm là không xác định trước. Công cụ đạt độ chính xác khoảng 99% đối với những domain chỉ định trước như Đại sứ quán Mỹ, Úc, báo thanh niên và đạt kết quả khoảng 95% đối với các trang từ các domain bất kỳ. Luận văn đã xây dựng công cụ cho phép người dùng có thể download nội dung toàn bộ dữ liệu của một hệ thống trang web, phân loại nội dung từng trang web theo từng ngôn ngữ riêng lẻ và lưu trữ dưới dạng file nội dung văn bản. Chương trình được xây dựng với các công cụ hỗ trợ một phần nhằm tạo các nguồn dữ liệu phục vụ công việc xây dựng kho ngữ liệu song ngữ hoàn chỉnh. Hướng dẫn khoa học

Học viên thực hiện

PGS.TS. Đinh Điền

Ngô Quốc Hưng

NGÔ QUỐC HƯNG

AUTOMATIC SEARCHING ENGLISH-VIETNAMESE DOCUMENTS FROM THE INTERNET COMPUTER SCIENCE CODE: 60.48.01

Nowadays, bilingual is supporting a lot to machine learning approach to solve problems in natural language processing. However, Vietnamese corpuses still have some shortcomings, especially English- Vietnamese bilingual corpus is lacking. For this reason, this thesis focuses on Internet bilingual materials searching method to support establishing English – Vietnamese bilingual corpus. Based on the benefit of natural language processing toolkits, the thesis concentrates using them as a solution for the problem of searching any Internet English – Vietnamese bilingual document without any rules. To solve this problem, some researches with structurebased method or analysis web content-based method were conducted for English – Chinese, English – French bilingual corpus as well as English – Vietnamese one. There are some previous systems such as: WLSE, WPDE, PTMiner. For English – Vietnamese corpus, there are some researches undertook by Đ.B.Van, H.B.Quoc and P.D.M.Vu. However, all these researchers only establish bilingual corpus from data sources in a domain. Out system use English-Vietnamese Translate system, extraction keywords tool based on Vietnamese word, document similarity comparison tool to find translated documents of English page. Translated pages are found from Internet by using the Google Search page and NLP toolkits.

The thesis has conducted a English – Vietnamese documents searching process basing on language processing toolkits such as extracting keywords, comparing two Vietnamese documents and using English – Vietnamese translation application in the system in order to have an automatic and effective English – Vietnamese documents searching program. The system results in 90% domain data from website of Us Embassy and Australian Embassy. The web clawer is established separately from undefined domain, it supports effectively extracting content of any website. This is helpful for content identification process without depending on the results of the Google system. The accuracy degree of the toolkits is about 99% for identified domains such as US Embassy website, Australian Embassy website, ThanhNien newspaper and about 95% for random domain. The thesis has established toolkit which enables user to download the whole data content of a website system, classify the content of each website according to particular language and save as a document file. The bilingual document searching program will be a partial supporting toolkit for data resource establishment on which complete bilingual corpus is built. Scientific Director

Master Student

Associate Prof. Dr. Đinh Điền

Ngô Quốc Hưng

More Documents from "NgoHung"

Bclv_ch_q.hung_tomtat
April 2020 2
Bai14_bangbam
April 2020 3
Bai00_gioithieu
April 2020 1
Bai07_dothi1
April 2020 1