Một số kỹ thuật
tìm kiếm & xử lý thông tin trong quá trình nghiên cứu
TRẦN HOÀI NAM E-mail:
[email protected] Web: http://namdhtm.co.nr
•
Tìm kiếm và thu thập thông tin
•
Kỹ thuật thao tác với dữ liệu
Thông tin đến từ đâu ? Các mối quan hệ
Các nguồn thông tin truyền thống (Thư viện, báo chí, tài liệu tham khảo…)
Mạng Internet
Các công cụ tìm kiếm thông thường Yahoo! Lycos MSN
Excite
Website nước ngoài
AltaVista
AOL/Netscape
InfoSpace/MetaCrawler Google
Vinaseek Netnam
Website trong nước
…
àm thế nào để tìm được các thông tin cần thiết
Các kỹ thuật tìm kiếm Tìm
kiếm thông dụng nhất:
Thí dụ: www.google.com Các
kỹ thuật tìm kiếm nâng cao Sử dụng dấu ngoặc kép “…” để tìm chính xác Sử dụng dấu (+) hoặc (–) - Sử dụng dấu (+) trước các từ trong cụm từ tìm kiếm đã trở nên quá thông dụng mà Google có xu hướng bỏ qua. Thí dụ: Godfather+I thay cho Godfather I - Sử dụng dấu (-) khi muốn loại đi một từ nào đó trong mục tìm kiếm. Thí dụ: love-apple cho các kết quả liên quan đến tình yêu thay vì liên quan đến cà chua. (Nhớ loại bỏ các khoảng trống trước và sau dấu +,-)
Các
kỹ thuật tìm kiếm với
Tìm
kiếm theo phân loại: Kích chuột vào phím Thư mục trên trang chủ của Google để mở thư mục của Google. Sau đó chọn phân loại cần quan tâm.
Tìm
kiếm các website liên quan: quan Dùng câu lệnh related trước URL của một website, để tìm các website có nội dung tương tự website này, thí dụ related:ebusiness.mit.edu → nx website liên quan kinh doanh điện tử. related
Tìm
các website có liên kết tới website mình quan tâm: tâm Dùng câu lệnh link trước một website, thí dụ link:ecommerce.mit.edu/forum/ -> các website có liên kết trỏ tới link Website ecommerce.mit.edu/forum/.
Tìm
theo một chủ đề nhất định: định
Dùng lệnh allinurl:e-commerce để nhận được danh sách website có allinurl cụm từ “e-commerce” trên địa chỉ URL
Các
kỹ thuật với
Tìm
kiếm trên một website cụ thể: thể
Gõ e-commerce site:www.stanford.edu để tìm các thông tin về TMĐT trên webpage của Trường Đại học Tổng hợp Stanford. Khôi
phục các webpage chết: Đối với các trang web chết (thông báo lỗi 404 – không tìm thấy trang web). Bấm Cached tại phía cuối của mỗi phần mô tả một địa chỉ Google để khôi phục những nội dung đã từng tồn tại.
Tìm
kiếm Ảnh hoặc tìm kiếm các Nhóm tin tức (nhóm thảo luận Usenet): Bấm phím Hình ảnh hoặc phím Nhóm tin trên trang chủ Google.
Thông
tin đưa ra càng nhiều, kết quả càng chính xác: xác
Thí dụ: “e-commerce management” “syllabus” “university program” Cá
nhân hoá Google: Google
www.google.com/preferences → đặt các lựa chọn cho riêng mình.
Tìm kiếm dưới tầng sâu của Web (Deep Web)
Những vấn đề trong tìm kiếm thông tin: tin
•
Theo Công ty nghiên cứu thị trường trực tuyến NPD (www.npd.com) 85% số người tìm kiếm thông tin trực tuyến là thông qua các công cụ tìm kiếm; Tuy nhiên, 85% trong số người được hỏi tỏ thái độ thất vọng, cho rằng họ không nhận được chính xác những gì mình cần.
•
Hiện có hai nguyên tắc tìm kiếm thông tin: Công cụ tìm kiếm xuất phát từ trang thông tin có chứa từ khoá theo yêu cầu của người truy cập, từ đó lần tới các trang thông tin theo các siêu liên kết có chứa từ khoá. Qui trình này lặp đi lặp lại tương tự sóng nước làn trên mặt hồ từ một tâm điểm duy nhất → Cách này chỉ tìm được các thông tin có trên “bề mặt của Web”. Trên bề mặt Web hiện có khoảng 2,5 tỷ văn bản và tăng với tốc độ 7,5 triệu văn bản/ngày (Nguồn: www.Inktomi.com; www.cyveillance.com). → Tuy nhiên, kết quả thu được không sát với yêu cầu tìm kiếm do "sóng tìm kiếm" lan ra quá xa các cụm từ khoá ban đầu. Google đưa ra kỹ thuật tìm kiếm theo “tính phổ biến của thông tin”. Các trang được nhiều người vào hơn cả, có nội dung phù hợp từ khoá tìm kiếm sẽ được ưu tiên liệt kê trong danh sách tìm kiếm → Tuy nhiên, thường bỏ qua các văn bản có ít đường liên kết tới.
•
Tìm thông tin chính xác, đầy đủ ở những kho thông tin công cộng đã khó, tìm thông tin ở những “thư mục cá nhân” của những người không muốn phổ biến tài nguyên của mình trên mạng càng khó hơn. → Giải quyết vấn đề này như thế nào?
Tìm kiếm dưới tầng sâu của Web (Deep Web)
Sự ra đời của Deep Web: Web •
Năm 1994, TS. Jill Ellsworth (Mỹ) là người đầu tiên đưa ra khái niệm “Web vô hình” (Invisible Web) để chỉ những nội dung thông tin không thể bị phát hiện thông qua các công cụ tìm kiếm thông thường. Một thời gian sau Invisible Web được đổi thành Deep Web
Thông tin của Deep Web gồm những gì: gì 12 hình thức 1. Các cơ sở dữ liệu phân loại theo chủ đề (54%) 2. Website nội bộ: Cơ sở dữ liệu dưới dạng “tìm kiếm được” (13%) 3. Kho lưu trữ văn bản (11%) 4. Thông tin lưu trữ trong quá trình kinh doanh trực tuyến của các công ty (5%) 5. Tài liệu mật (5%) 6. Cổng dịch vụ: CSDL, nơi lưu trữ danh mục hàng hoá (3%) 7. Thư viện: CSDL ở thư viện của các trường đại học trên TG (2%) 8. Trang trắng, Trang vàng: thông điệp của các cá nhân, tập thể (2%) 9. Website thống kê, tính toán, phiên dịch (2%) 10. Các kiểu biểu mẫu, đơn từ… (1%) 11. CSDL chứa thông điệp và chat trực tuyến (1%) 12. Thông tin tìm kiếm qua các công cụ tìm kiếm thông thường (1%)
Một số thống kê về Deep Web
Tìm kiếm dưới tầng sâu của Web (Deep Web)
Deep Web chứa các thông tin gì: gì • Thông tin về các hoạt động khoa học nhân văn (13,5%) •
Nội dung tin tức và truyền thông (12,2%)
•
Mạng, máy tính (6,9%)
•
Nghệ thuật (6,6%)
•
Kinh doanh (5,9%)
•
Y tế, sức khoẻ (5,5%)
•
Thông tin cá nhân – doanh nghiệp (4,9%)
•
Giáo dục (4,3%)
•
Thông tin tuyển dụng (4,1%)
•
Thông tin chính phủ (3,9%)
•
Thể thao (3,5%)
•
Du lịch (3,4%)
•
Lĩnh vực chế tạo máy (3,1%)
•
Mua bán (3,2%)
•
Nông nghiệp (2,7%); Còn lại là các lĩnh vực khác.
Tìm kiếm dưới tầng sâu của Web (Deep Web)
Các đặc tính của Deep Web: Web (Nguồn: BrightPLanet, Inktomi) •
Kích cỡ một văn bản thuộc Deep Web có dung lượng TB: 13,719,7 KB, nhỏ hơn 27% so với dung lượng một tài liệu trên bề mặt.
•
Chất lượng thông tin phong phú gấp hàng triệu lần
•
Càng ở sâu, hàm lượng thông tin càng lớn - Một website ở bề mặt chứa một vài hoặc vài chục hồ sơ dữ liệu - Một website ở lớp giữa chứa khoảng 4.950 hồ sơ - Một website ở lớp sâu nhất trung bình chứa 5,43 triệu hồ sơ
•
Số siêu liên kết của 1 trang web ở lớp sâu nhiều gấp đôi siêu liên kết của 1 trang web trên bề mặt (6.2000 : 3.700) Nhưng ở bề mặt lại lớn hơn lớp giữa (83 : 66)
•
Tốc độ phát triển về số lượng của website Deep web nhanh hơn nhiều so với các website trên mặt Web.
•
Tuy nhiên, vì Deep Web quá rộng lớn nên tìm kiếm thông tin ở Deep Web cũng tương tự “mò kim đáy bể” → Giải pháp là gì ?
15 website lớn nhất trong Deep Web
Tìm
kiếm dưới tầng sâu của Web (Deep Web)
Công
cụ tìm kiếm trong Deep Web: Web
• LexiBot là một trong những công cụ hoàn hảo nhất: http://www.lexibot.com Các • • •
công cụ tìm kiếm khác: khác
CompletePlanet.com: http://www.completeplanet.com/ ProFusion http://www.profusion.com/ WebData.com: WebData.com http://www.webdata.com cổng dữ liệu, chuyên tìm kiếm, sắp xếp, phân loại các CSDL trực tuyến theo sự xếp hạng và đánh giá của các nhà quản trị WebData.
•
Library of Congress: http://www.lcweb.loc.gov hoặc http ://www.lcweb.loc.gov/z3950/gateway.html#other
•
AlphaSearch: AlphaSearch http://www.calvin.edu/library/searreso/internet/as/ gồm các website “cổng vào” (gateway) thu thập và sắp xếp các website theo từng chủ đề, khá thân thiện Big Hub: Hub http://www.thebighub.com
• •
• •
Infomine Multiple Database Search: http://infomine.ucr.edu/search.phtml “công cụ tìm kiếm dành cho các học giả”: tập hợp các tạp chí, ấn phẩm điện tử, các công trình khoa học, các đề tài nghiên của… Lycos Directory: Directory http://dir.lycos.com/Reference/Searchable_Databases/ Librarians' Index to the Internet: Internet http://lii.org
Giới thiệu công cụ tìm kiếm mới
• Tìm kiếm tài liệu trên máy tính • Tìm kiếm thông tin trên Internet
•
Tìm kiếm và thu thập thông tin
•
Kỹ thuật thao tác với dữ liệu
Thông tin thường ở những dạng nào ?
Tài liệu viết tay
Số hoá (văn bản, tài liệu trên máy tính)
Văn bản in ấn (trên giấy)
Xử lý văn bản in ấn trên giấy
Mục đích chung: Chuyển các văn bản trên giấy thành văn bản trên máy tính (số hoá) Cách thức: Đánh máy trực tiếp: Ưu điểm: điểm Phương pháp truyền thống, đơn giản Nhược điểm: điểm Mất thời gian, công sức và sai lỗi chính tả.
“Time is Gold, Money is Silver” → Nên áp dụng kỹ thuật để tiết kiệm thời gian ? Sử
dụng phương pháp quét và nhận dạng văn bản:
Ưu điểm: Nhanh, không tốn nhiều công, có thể phối hợp các kỹ thuật khác để tăng độ chính xác của tài liệu đích
Nhược điểm: Phải đầu tư thiết bị, phụ thuộc vào thiết bị và phải nắm được cách thức thao tác
Phương pháp quét và nhận dạng văn bản
Yêu cầu thiết bị: Máy tính (PC), máy quét (Scanner) và… tài liệu Phần mềm: Phần mềm nhận dạng tiếng Việt (VnDoc) Các bước thao tác:
Lắp đặt thiết bị và cài đặt phần mềm Phân loại tài liệu: Tiếng nước ngoài: ngoài Thực hiện bước 3 Tiếng Việt: Việt Sang bước 4 Thao tác với tài liệu tiếng nước ngoài: ngoài (cài đặt hỗ trợ ngôn ngữ thường sử dụng khi cài đặt máy quét). Nếu là tiếng Anh, có thể dịch Anh – Việt bằng phần mềm phiên dịch Anh – Việt → chuyển sang bước 5 Thao tác với tài liệu tiếng Việt Đặt tên và lưu văn bản Word Kết thúc
Một số lưu ý:
Tài liệu Scan phải rõ ràng, giấy trắng, mực đen. Giữ sạch, không gạch xoá Tốt nhất là Font chữ không chân VnDoc cũng có thể “học” nhận dạng các lỗi VnDoc có nhiều tiện ích khác để hỗ trợ cho người sử dụng