Web chìm – Wikipedia tiếng Việt - Công lý & Pháp Luật

[ad_1]

Các tầng của internet được hình tượng thành một ngọn núi băng, web chìm nằm ở giữa núi băng .

Web chìm (tiếng Anh): deep web) hay còn gọi là mạng chìm (deep web)[1], web ẩn (invisible web[2], undernet, hay hidden web[3]) là từ dùng để chỉ các trang hoặc nội dung trên thế giới mạng World Wide Web không thuộc về Web nổi (Surface Web), gồm những trang không được đánh dấu, chỉ mục (index) và không thể tìm kiếm được khi dùng các công cụ tìm kiếm thông thường. Nội dung của web chìm ẩn bên dưới các bản mẫu HTML,[4][5] và có thể yêu cầu mật khẩu hoặc truy cập bảo mật khác qua trang web công cộng.

Web chìm gồm có nhiều ứng dụng rất phổ cập như web mail và ngân hàng nhà nước trực tuyến nhưng nó cũng gồm có những dịch vụ mà người dùng phải trả tiền, và được bảo vệ bởi một paywall, như video theo nhu yếu, một số ít tạp chí và báo chí truyền thông trực tuyến, và nhiều hơn nữa. Nhà khoa học máy tính Michael K. Bergman được cho là đã tạo ra thuật ngữ này vào năm 2001 như một thuật ngữ lập chỉ mục tìm kiếm. [ 6 ]

Năm 2011, lượng thông tin trên web chìm đã vượt hơn hẳn web nổi.

Bạn đang đọc: Web chìm – Wikipedia tiếng Việt

Web chìm là một phần của Internet. Trong một bài báo phát hành năm 2001, nhà học giả cũng như là một doanh nhân tên Michael K. Bergman đã viết: “Những trang deep web hiện nay có kích thước gấp 400 đến 550 lần so với những trang web được định nghĩa thông thường trên thế giới.”[7][8][9]

Trong một nghiên cứu và điều tra tại ĐH California, Berkeley năm 2011, dựa trên ước đạt ngoại suy, dung tích tài liệu trên web chìm khoảng chừng 7500 terabyte. Cụ thể gồm khoảng chừng 300.000 website chìm trong năm 2004, và theo Shestakov, khoảng chừng 14 000 website chìm có nguồn gốc từ Nga vào năm 2006 .

Trong một bài báo chuyên đề về web chìm trên tạp chí Electronic Publishing, Michael Bergman đã nhắc đến việc Jill Ellsworth đã sử dụng thuật ngữ Invisible Web vào năm 1994 để ám chỉ các website không đăng ký với bất kỳ máy tìm kiếm nào cả. Bergman đã trích dẫn một bài viết vào tháng 1 năm 1996 của Frank Garcia: “Một trang web được thiết kế hợp lý, nhưng người lập ra trang web đó đã không để ý tới việc đăng ký nó với bất kỳ máy tìm kiếm nào. Vì vậy, không ai tìm thấy nó và nó được ẩn. Tôi gọi đó là web ẩn (Invisible Web).”

Thuật ngữ Invisible Web trước đó đã được Bruce Mount và Matthew B. Koll sử dụng tại Personal Library Software, trong một miêu tả về những công cụ Deep Web @ 1 được tìm thấy trong một ấn phẩm vào tháng 12 năm 1996 .Việc sử dụng lần đầu thuật ngữ Deep Web, lúc bấy giờ đã được mọi người công nhận, đó là vào năm 2001 trong một nghiên cứu và điều tra của Bergman .

Khái niệm hiện tại[sửa|sửa mã nguồn]

Khái niệm Deep Web được sử dụng để chỉ tổng thể những website mà những máy tìm kiếm như Google, Bing, Yahoo … không hề tìm thấy, gồm có databases, những thông tin đăng nhập, Webmail, … [ 10 ]

Số lượng thông tin trên deep web đang tăng nhanh. Giá trị nội dung của chúng không hề nhìn nhận rất đầy đủ được … lượng thông tin được ( những máy tìm kiếm ) tìm thấy chỉ chiếm 0.03 % tổng lượng thông tin có trên Internet. [ 11 ][8]— Michael K Bergman ,

Tài nguyên trên web chìm được phân loại theo một hoặc nhiều loại có trong hạng mục sau :
Để mày mò nội dung trên những website, những máy tìm kiếm sử dụng những máy dò để lần theo những hyperlink trải qua những số đã biết của cổng giao thức ảo. Kỹ thuật này lý tưởng để mày mò những nguồn tài nguyên trên web nổi, nhưng không có công dụng mấy so với web chìm. Ví dụ, những máy dò này không thử tìm những trang link động mà hiệu quả truy vấn database dựa trên số vô định những truy vấn hoàn toàn có thể xảy ra. Chú ý là điều này hoàn toàn có thể ( một phần ) được vượt qua bởi cách cung ứng những đường dẫn tới những hiệu quả truy vấn, nhưng điều này lại vô tình làm thôi phồng sự nổi tiếng cho một trang deep web .Vào 2005, Yahoo ! thực thi một dịch vụ tìm kiếm một phần nhỏ của web chìm bằng cách ra đời Yahoo ! Subscriptions. Máy tìm kiếm này tìm kiếm trong vài website mà phải ĐK thành viên mới vào xem nội dung được. Vài trang này hiển thị rất đầy đủ nội dung cho máy tìm kiếm robot do đó chúng sẽ hiển thị trên tác dụng tìm kiếm của người dùng, nhưng sau đó hiển thị lên một trang đăng nhập ( log in ) hoặc trang ĐK khi click vào một đường dẫn từ trang tác dụng tìm kiếm từ trang đó .

Từ lúc trình duyệt Tor ra đời, người dùng có thể dễ dàng truy cập được vài tầng trong deep web một cách khá an toàn (khỏi những trang dark web hoặc những trang web của tội phạm, web chứa nội dung phi pháp, hacker, thông tin mật…) tràn lan trong deep web mà không được kiểm soát, ảnh hưởng đến sự bảo mật và an toàn của người truy cập. Để duyệt các web trong đấy cần những thư viện các đường dẫn. Và để truy cập được những trang web bảo mật hơn trong web chìm, người dùng cần phải có kiến thức về phần mềm và phần cứng cao. ‘, ‘, , và là một vài máy tìm kiếm có khả năng truy cứu vào các trang deep web. Intute đã hết kinh phí vận hành và chỉ lưu trữ tạm thời ngoại tuyến vào tháng 7 năm 2011.

Nói chung, nội dung trên deep web (bao gồm cả dark web) chứa đựng các nội dung sau:[12]

Xem thêm: Debit note trong xuất nhập khẩu là gì? Và nó có gì khác biệt với credit note

Dò tìm web chìm[sửa|sửa mã nguồn]

Các nhà nghiên cứu đã tò mò ra phương pháp dò tìm web chìm một cách tự động hóa. Năm 2011, Sriram Raghavan và Hector Garcia-Molina trình làng quy mô kiến trúc cho một máy dò web ẩn, sử dụng những từ khóa cung ứng bởi người dùng hoặc tích lũy từ những giao diện truy vấn để truy vấn tới những trang và tài nguyên web chìm. Alexandros Ntoulas, Petros Zerfos, và Junghoo Cho ở UCLA đã tạo ra một máy dò Hidden-Web được cho phép tự động hóa tạo ra những truy vấn có ý nghĩa một cách tự động hóa tới những form nhập tài liệu tìm kiếm. ( ví dụ : DEQUEL : ngoài nhập lệnh truy vấn, nó còn chiết xuất tài liệu có cấu trúc từ những trang tác dụng. Một máy dò khác là DeepPeep, một dự án Bất Động Sản khác của ĐH Utah được hỗ trợ vốn bởi tổ chức triển khai National Science Foundation, được cho phép tập hợp những nguồn Hidden-Web ( dạng Web ) trong những tên miền khác nhau dựa vào những kỹ thuật dò tìm dựa trên ngữ cảnh .Các máy tìm kiếm thương mại đã khởi đầu tạo ra những chiêu thức khác nhau để dò tìm web chìm. ( Được tăng trưởng tiên phong bởi Google ) và mod oai là những chính sách được cho phép những bên tương quan hoàn toàn có thể tò mò những nguồn tài nguyên deep web trên những server ( trang chủ ) đặc trưng. Cả hai chính sách trên đều được cho phép những web server quảng cáo những đường dẫn ( URL ) được truy vấn tới chúng, bằng cách đó nó được cho phép tự động hóa tò mò những nguồn tài nguyên không link trực tiếp tới web nổi. Hệ thống duyệt web chìm của Google giám sát trước những tác vụ nhỏ cho mỗi form HTML và đưa vào trang HTML tác dụng tìm kiếm vào chỉ mục tìm kiếm của Google. Kết quả hiển thị của những website chìm chiếm một ngàn truy vấn trong một giây. Trong mạng lưới hệ thống này, những giám sát trước được thực thi theo 3 phương pháp sau :

Chọn các giá trị đầu vào để tìm kiếm các thông tin dạng ký tự (text search) thông qua các từ khóa (keyword),
Xác định các yếu tố đầu vào mà chấp nhận chỉ các kiểu dữ liệu xác định nào đó (ví dụ như ngày, tháng…),
Chọn một số nhỏ các liên kết đầu vào để tạo ra các URL thích hợp để đưa vào chỉ mục-tìm kiếm-web.

Phân loại tài nguyên[sửa|sửa mã nguồn]

Để tự động hóa xác lập một tài nguyên web có phải thuộc dạng web nổi hay web chìm hay không là một việc khó. Một tài nguyên được ghi lại bởi một search engine, thì không nhất thiết nó thuộc loại web nổi, do tại những tài nguyên trên mạng hoàn toàn có thể được tìm thấy bằng nhiều chiêu thức khác nhau ( như Sitemap Protocol, mod oai, OAIster ) thay vì những giải pháp dò tìm ( crawling ) truyền thống lịch sử. Nếu một máy tìm kiếm cung ứng một đường dẫn của một tài nguyên nào đó trong một tác dụng tìm kiếm đơn cử, hoàn toàn có thể cho đó là web nổi. Không may là, những máy tìm kiếm không phải không nào cũng phân phối tổng thể những đường dẫn này ( backlink ). Ngay cả khi có backlink, cũng không cách nào để phát hiện ra nguồn này có phân phối đường dẫn của chính nó tới những website nổi mà không phải crawling hàng loạt website hay không. Ngoài ra, cũng có trường hợp một tài nguyên ẩn nấp trên web nổi, và một máy tìm kiếm nào đó chưa tìm ra nó. Do đó, nếu tất cả chúng ta có một tài nguyên độc quyền, tất cả chúng ta không hề biết chắc như đinh tài nguyên đó ẩn nấp trên web nổi hoặc web chìm mà chưa qua crawl ( dò tìm ) website đó .Hầu kết việc làm phân loại hiệu quả tìm kiếm đã được thư mục hóa web nổi bằng những đề tài. Để phân loại tài nguyên web chìm, Ipeirotis et al đã ra mắt một thuật toán được cho phép phân loại một website chìm thành những thư mục mà tạo ra nhiều hit nhất dựa trên vài lựa chọn cẩn trọng, những truy vấn-tập trung vào-chủ đề. Các chỉ mục của deep web đang tăng trưởng gồm có OAIsters tại ĐH Michigan, Intute tại ĐH Manchester, Infomine tại ĐH California tại Riverside, và DirectSearch ( bởi Gary Price ). Các xếp loại này đứng trên một thử thách là việc tìm kiếm web chìm chia ra 2 Lever thư mục hóa. Cấp độ 1 là những trang được thư mục hóa thành những chủ đề theo chiều dọc ( như sức khỏe thể chất, du lịch, xe hơi ) và những chủ đề-phụ tùy theo đặc thù của những nội dung nằm dưới những database ( cơ sở tài liệu ) của chúng .Thách thức lớn hơn nữa là để thư mục hóa và biểu đồ hóa những thông tin trích xuất từ những nguồn web chìm theo nhu yếu người dùng-cuối. Các bản báo cáo giải trình tìm kiếm web chìm không hề hiển thị những URL như những tìm kiếm thường thì. Người dùng-cuối mong đợi những công cụ tìm kiếm không chỉ tìm ra những gì họ muốn một cách nhất mà còn phải hiển thị tác dụng đó một cách trực quan và thân thiện với người dùng nữa. Để hiểu được ngữ nghĩa, những báo cáo giải trình tìm kiếm phải hiểu sâu vào nội dung nằm dưới những tài nguyên này hoặc là người dùng sẽ bị lạc lối trong biển URL mà nội dung đằng sau nó chả ăn nhập gì cả. Định dạng mà những hiệu quả tìm kiếm hiển thị ra rất phong phú và đa dạng tùy theo chủ đề đặc trưng của tìm kiếm nào và loại nội dung được phô ra. Thách thức này là tìm ra và biểu đồ hóa những thành phần tài liệu tựa như từ nhiều nguồn khác nhau sao cho những tác dụng tìm kiếm được sắp xếp trong một định dạng thống nhất trên bản báo cáo giải trình tìm kiếm bất kể nguồn tài nguyên mà nó lấy từ đâu .

Các tầng trên Web chìm[sửa|sửa mã nguồn]

Việc chia tầng trên Web chìm có ý kiến trái ngược: Một số cho rằng trên Web chìm có 8 tầng (hoặc hơn). Trong khi số khác khẳng định rằng, trên Web chìm hoàn toàn không có tầng nào cả và khái niệm tầng trên Web chìm dùng để chỉ khả năng bảo mật, khó truy cập của một địa chỉ Internet nào đó, hay mức độ nguy hiểm của các thông tin website chia sẻ… được phân ra nhờ FBI.

Mức độ 1: Web nổi (Surface Web)

Dùng để chỉ những trang web mà chúng ta vẫn truy cập hàng ngày như Wikipedia, Youtube, Facebook… Chúng gọi chung là Web nổi, mặc dù đôi khi chúng được gọi là Common Web (Web thông thường) và được cho là Tầng 0 của Internet, trong khi những trang web đen hơn như Reddit mới là tầng 1 của Internet.

Mức độ 2: Web vô thừa nhận (Bergie Web)

Được cho rằng, đây là tầng ở đầu cuối mà một người dùng Internet hoàn toàn có thể truy vấn một cách thường thì nhất mà không cần sự can thiệp khác để hoàn toàn có thể truy vấn chúng ( trải qua một proxy, dùng những trình duyệt tương hỗ như Tor hoặc có sự can thiệp đặc biệt quan trọng vào phần cứng máy tính ). Theo khuyến nghị, tốt nhất không nên truy vấn những website sau với mức độ cao hơn 2. Tại đây, bạn hoàn toàn có thể phát hiện những website bí hiểm ( ngầm ) được liệt kê, ví dụ như 4 chan .

Mức độ 3: Web ẩn, Web chìm (Deep web, Onion Web)

Tầng này hoàn toàn có thể truy vấn trải qua proxy hoặc mạng lưới hệ thống mạng Tor. Chứa đựng những thông tin nhạy cảm, kinh dị : ấu dâm, clip kinh dị, website của những hacker ( những trang chuyên hack ) .. Vì là tầng tiên phong của Internet mà việc truy vấn phải được phải trải qua một sự tương hỗ từ mạng Tor hoặc thiết đặt phần cứng, nên đôi lúc cũng dùng để chỉ cả những tầng cao hơn của Internet. Tầng này không hề truy vấn bằng trình duyệt thông thường vì địa chỉ đuôi của trang web loại này (. onion ) khi truy vấn sẽ bị DNS xem là địa chỉ web không hợp lệ khi truy vấn. Chỉ có khi đã liên kết với Proxy mới hoàn toàn có thể vào tầng này bằng trình duyệt thông thường .

Mức độ 4: Web điều lệ (Web Charter)

Loại mạng này được chia thành 2 phần, để chỉ phương pháp truy vấn :

Mức độ 5: Web ẩn dạng mạng lưới xuyên thế giới – mạng trong mạng

Nếu muốn truy vấn được những website tại mức độ 5, cần có một mạng lưới hệ thống máy trạm đặc biệt quan trọng. Tại đây là nơi rò rỉ những tài liệu mật của Quốc gia, tổ chức triển khai mà vẫn thường thấy trên Wikileaks ; những hoạt động giải trí tâm linh kỳ quái, những hội đoàn hoạt động giải trí bí hiểm, những hoạt động giải trí hiến tế … Chỉ hoàn toàn có thể truy vấn bằng máy trạm. Việc liên kết với loại mạng này được cảnh báo nhắc nhở là nên truy vấn bằng một loại máy trạm đặc biệt quan trọng, thường những loại máy này có thông số kỹ thuật rất mạnh để hoàn toàn có thể giải thuật toàn bộ khóa bảo mật thông tin có trong website. Loại mạng này là mạng – trong – mạng, để liên kết vào loại web này cần thời hạn rất lâu do phải liên kết với nhiều sever .

Mức độ 6: Diversion Web

Việc truy vấn vào Diversion Web yên cầu phải hiểu rõ những yếu tố tương quan đến cơ học lượng tử và cần có kiến thức và kỹ năng sâu rộng về máy tính và internet. Kể cả việc vượt qua những hàng rào bảo mật thông tin của nhà nước. Không quá nhiều thông tin được biết về những website ở mức độ 6, thường được xem là rào cản bảo đảm an toàn cho người truy vấn nếu không muốn chịu rủi ro đáng tiếc khi tiến sâu hơn .

Mức độ 7: The Fog/Virus Soup

Là nơi hoạt động của những chuyên gia An ninh Internet, các hacker, thường diễn ra các hành động phá hoại lẫn nhau, một cách công khai hoặc lén lút nhằm bảo vệ những thông tin mật (những đơn hàng giá trị cao hàng tỷ đôla). Mọi hoạt động tại đây đều không an toàn, đặc biệt là những tài nguyên tải về, thường chứa đựng virus máy tính.

Xem thêm: Tổng giám đốc điều hành – Wikipedia tiếng Việt

Mức độ 8: The Primarch System

Là nơi tận cùng của ” Đại dương Internet “, được phát hiện ra vào năm 2000 trong một lần thanh tra rà soát tài liệu tập trung chuyên sâu ( Massive Deep Web Scan ) .Việc có hay không việc phân tầng Deep Web dựa mức độ bảo mật thông tin của chúng vẫn chưa có sự thống nhất .

Tính tốt – xấu[sửa|sửa mã nguồn]

Ranh giới giữa những gì mà những cỗ máy tìm kiếm phát hiện được và deep web đã khởi đầu trở nên phai nhòa, khi những dịch vụ search mở màn cung ứng dịch vụ truy xuất tới một phần hoặc hàng loạt những nội dung cấm cấp 1. Lượng nội dung deep web đang được mở ra để tự do tìm kiếm khi những nhà xuất bản và thư thiện đồng ý chấp thuận với những cỗ máy tìm kiếm lớn. Trong tương lai, nội dung của deep web hoàn toàn có thể bị thu hẹp chính bới thời cơ tìm kiếm thông tin bằng cách trả phí hoặc những dạng bản quyền khác sinh ra .

[ad_2]