Table of Contents
Phần Mềm Quét Đạo Văn Hoạt Động Như Thế Nào? 3 Bước Cơ Bản
Khi làm luận văn hay bất cứ bài luận nào trong suốt quá trình học tập, lỗi đạo văn là một trong những lỗi phổ biến nhất mà sinh viên hay gặp.
Do đó, các phần mềm quét đạo văn ra đời đã giúp các sinh viên nhìn nhận lại năng lực của mình cũng như có các phương pháp học tập phù hợp hơn.
Vậy những phần mềm này hoạt động ra sao? Chung quy lại, các hệ thống kiểm tra đạo văn thường hoạt động trên 3 bước:
- Tiền xử lý dữ liệu
- Kiểm tra, đối chiếu trùng lặp
- Tổng hợp kết quả
Hãy đọc bài viết dưới đây để hiểu rõ hơn nhé!
Phần Mềm Quét Đạo Văn Là Gì?

Để biết thế nào là quét đạo văn, ta cần bắt đầu từ khái niệm đạo văn là gì?
Đạo văn được định nghĩa trong cuốn từ điển của American Heritage như sau: “Đạo văn là sử dụng trái phép hoặc thực hiện sao chép quá mức từ ngữ, ý tưởng của người khác và coi như đó là của mình”.
Vì vậy, đạo văn không đơn giản chỉ là sao chép y nguyên toàn bộ các từ ngữ mà còn bao gồm ý nghĩa của cả tác phẩm. Phần mềm quét đạo văn sẽ là công cụ đắc lực hỗ trợ bạn tìm ra những nội dung copy, trùng lặp trong từng bài viết.
Đối với việc làm SEO, nội dung bài viết đạt chất lượng là yếu tố rất quan trọng. Nó chính là một trong những nguyên tắc hàng đầu được Google đánh giá cao.
Vì vậy, kiểm tra đạo văn đã từ lâu trở thành bước không thể thiếu trước khi duyệt nội dung đăng website.
Tuy nhiên, những phần mềm quét đạo văn không khẳng định bài viết đó có đạo văn hay không. Nó chỉ báo cáo tính nguyên bản của bài viết cho thấy mức độ giống nhau giữa bài viết đã nộp với nguồn nội dung trong cơ sở dữ liệu của nó.
Tức là, cần có sự đánh giá khách quan của giảng viên hoặc thầy cô hướng dẫn dựa trên các yếu tố và sự cân nhắc khác nhau để xác định xem người viết có thực sự đạo văn hay không.
Thông thường, nếu bài viết có mức độ trùng lặp dưới 15% được coi là phù hợp nhưng nếu mức độ lặp từ liên tục, chúng có thể bị đánh giá là đạo văn.
Nếu tỷ lệ phần trăm trùng lặp từ 25%, được highlight bằng màu vàng, cam hoặc đỏ, bài viết sẽ bị coi là ăn cắp ý tưởng. Nào, hãy cùng Dr Nhanh xem qua 3 bước tổng quát mà bất kỳ phần mềm quét đạo văn nào cũng trải qua nhé.
Bước 1: Tiền xử lý dữ liệu

Để kiểm tra trùng lặp của một nội dung, một tài liệu thì bắt buộc chúng ta phải có nội dung cần kiểm tra. Tuy nhiên, dữ liệu đầu vào của từng người dùng là khác nhau.
Hiện nay hầu hết các hệ thống đều hỗ trợ cho phép người dùng tải lên toàn bộ tài liệu dưới dạng doc, docx, pdf. Do đó hệ thống đầu tiên phải trích xuất được nội dung từ tài liệu thành nội dung text (chỉ có chữ).
Các thư viện hỗ trợ việc này khá là nhiều, do đó việc này nghe có vẻ tương đối dễ giải quyết. Tuy nhiên, vấn đề khó ở bước này là phải chuẩn bị dữ liệu để các bước sau có thể sử dụng được, cụ thể:
Để kiểm tra được trùng lặp, hệ thống phải đối chiếu từng đoạn nội dung với nguồn dữ liệu, đoạn nội dung ở đây sẽ tùy theo chiến lược xử lý của từng hệ thống.
Ví dụ: Turnitin là chuỗi các từ liên tiếp nhau không quan tâm có cùng một câu hay không.
Do đó ở bước tiền xử lý này, từ một nội dung toàn bộ văn bản, ta phải tách làm sao cho chính xác nhất.
Để tách câu, không thể dùng dấu chấm để tách được vì có trường hợp từ viết tắt có dấu chấm (ví dụ Dr., Mr., U.S,…) hoặc các tiêu đề hay liệt kê thì lại không. Sẽ có rất nhiều trường hợp ngách cần xử lý.
Để hiển thị được kết quả trực quan nhất, làm sao để người dùng có được trải nghiệm giống như đang xem văn bản gốc, biết được chính xác đoạn trùng lặp này ở đoạn nào, trang nào, có thể tương tác để xem chi tiết từng đoạn nội dung hoặc lọc kết quả.
Để đáp ứng được việc này thì cần phải lưu trữ thật khéo các thông tin metadata trong quá trình trích xuất để bước tổng hợp kết quả có thể sử dụng.
Bước 2: Kiểm tra, đối chiếu trùng lặp

Sau khi đã có nội dung được trích xuất từ bước 1, ta phải so sánh từng đoạn văn với cơ sở dữ liệu tìm kiếm của hệ thống.
Bài toán khó ở đây là dữ liệu internet khá là lớn, được tính bằng TB dữ liệu (Terabytes, 1 TB = 1024 GB) và một tài liệu luận văn thường trung bình khoảng 1500 câu văn.
Vậy để hoàn thành việc kiểm tra trong 1 phút, với mỗi giây ta phải tìm kiếm được 25 câu văn trên hàng TB dữ liệu (hoặc chia ra thì trung bình là mỗi câu văn phải xử lý trong vòng 40 ms, một con số rất nhỏ).
Để so sánh, hãy thử dùng File Explorer hay một trình quản lý file của bạn, rồi tìm kiếm một vài từ để tìm file chứa những từ đó, một ổ đĩa có 100GB lúc đó cũng phải mất vài giây (nếu là ổ cứng thể rắn SSD, còn nếu ổ cứng HDD thì cũng mất gấp 2-3 lần).
Sử dụng Full-text search

Công nghệ tìm kiếm tương đối full-text search là giải pháp phù hợp để xử lý vấn đề này. Đây là công nghệ tối ưu cho việc tìm kiếm giống như tìm kiếm trên Google và Facebook.
Các kết quả trả về không cần chính xác tuyệt đối mà chỉ cần một vài từ trùng hay có nghĩa tương đồng là được. Các cái tên lớn của công nghệ này bao gồm Elastic Search, Solr,…
Tuy nhiên, khi chạy thực nghiệm, thì công nghệ này chưa đủ đáp ứng nhu cầu, hiệu năng không đáp ứng được nhu cầu kiểm tra những câu văn dài và tần suất liên tục, cũng như chi phí quá lớn.
Sử dụng Google
Một hướng xử lý khác là sử dụng công cụ tìm kiếm Google, tức là đem từng câu lên Google kiểm tra và lấy kết quả từ đó. Cách này sẽ không phải tốn hạ tầng để lưu trữ lượng dữ liệu lớn, cũng như không mất nhiều công lập trình.
Tuy nhiên, thực tế là Google không cung cấp API để có thể truy cập (miễn phí lẫn trả phí). Ngoài ra, Google sẽ sử dụng captcha để phát hiện truy cập không phải là từ con người, hệ thống sẽ bị chặn bằng captcha chỉ sau vài chục câu tìm kiếm.
Do đó, hướng xử lý này không thể áp dụng vào thực tế được. Do phải xử lý lượng lớn dữ liệu như thế, các hệ thống thường có những giới hạn với người dùng (ví dụ Turnitin chỉ bán cho các đơn vị, không bán cá nhân và có giới hạn cho tài khoản sinh viên; DoIT thì hạn chế số lượt).
Bước 3: Tổng hợp kết quả

Kết quả hiển thị cần được thể hiện trực quan nhất, người dùng có thể tương tác được với giao diện kiểm tra hoặc xuất báo cáo kết quả.
Kỹ thuật này mỗi hệ thống xử lý theo những hướng khác nhau và thiên về UI/UX nhiều hơn, do đó chúng ta sẽ không đi sâu vào vấn đề này.
Kết luận
Dr Nhanh đã khái quát một cách cơ bản nhất cách thức hoạt động của một phần mềm quét đạo văn nói chung.
Nhìn chung, xây dựng lên hệ thống cần phải xử lý nhiều vấn đề lớn nhỏ khác nhau, nhưng vấn đề lớn trong hệ thống này là xử lý một lượng dữ liệu lớn trong một thời gian ngắn.
Bên cạnh đó, vấn đề thu thập dữ liệu cũng là một bài toán khá phức tạp không kém. Nếu bạn có góp nào liên quan đến bài viết này, hãy cho chúng tôi biết nhé!