Trước hết, chúng ta phải hiểu,
tại sao và bằng cách nào một con A.I lại có thể viết ra được 1 bộ truyện hay 1 đoạn văn?
Mô hình ngôn ngữ lớn (LLM) trong vai trò tác giả
1. AI như một "công cụ dự đoán từ tiếp theo": Tiểu mục này giải thích rằng các LLM không "hiểu" ngôn ngữ theo cách của con người. Chúng là các mô hình thống kê phức tạp được huấn luyện trên các bộ dữ liệu khổng lồ để dự đoán từ có khả năng xuất hiện cao nhất trong một chuỗi. Đầu ra của chúng là sự sắp xếp lại tinh vi các mẫu đã học, không phải là một sự sáng tạo sinh ra từ sự hiểu biết hay kinh nghiệm.
2. Sự sáng tạo của AI là "sáng tạo liên kết": AI xuất sắc trong việc xác định và kết hợp các mẫu hiện có theo những cách mới lạ, một quá trình được định nghĩa là sáng tạo liên kết. Mặc dù điều này có thể tạo ra văn bản mạch lạc và thậm chí đáng ngạc nhiên, nó thiếu tính nguyên bản nền tảng đến từ qualia. Đầu ra là một sự bắt chước có độ trung thực cao các mẫu ngôn ngữ của con người, không phải là sự phản ánh của tư duy hay cảm xúc thực sự.
3. Sự thiếu vắng "mô hình thế giới thực": Các mô hình AI thiếu nền tảng thực tế, trải nghiệm trực tiếp và sự hiểu biết vật lý về các khái niệm mà chúng thảo luận. Hạn chế cơ bản này là nguyên nhân sâu xa của nhiều lỗi đặc trưng của AI, chẳng hạn như ảo giác và việc không nắm bắt được bối cảnh sâu sắc, sẽ được khám phá trong các phần sau.
Sự căng thẳng cốt lõi trong văn bản của AI nằm ở khả năng đạt được sự hoàn hảo về ngữ pháp và cấu trúc trong khi lại thất bại trong việc nắm bắt "linh hồn" hay giọng văn đích thực của con người. Điều này tạo ra một hiệu ứng "thung lũng kỳ lạ" (uncanny valley), nơi văn bản vừa có cảm giác hoàn hảo không tì vết vừa vô hồn. Quá trình này diễn ra như sau: AI được huấn luyện trên các bộ dữ liệu khổng lồ để tạo ra văn bản đúng ngữ pháp và có cấu trúc chặt chẽ, thường dẫn đến một đầu ra "quá hoàn hảo" hoặc "bóng bẩy".
Tuy nhiên, vì AI thiếu kinh nghiệm cá nhân, cảm xúc và sự hiểu biết thực sự, văn bản của nó thiếu đi giọng văn độc đáo, những khiếm khuyết tự nhiên và sắc thái cảm xúc bắt nguồn từ trải nghiệm sống của con người. Do đó, khi một người đọc bắt gặp một văn bản hoàn hảo về mặt kỹ thuật nhưng lại phẳng lặng về mặt cảm xúc và thiếu cá tính, nó gây ra một cảm giác không thoải mái hoặc giả tạo—tương đương với hiệu ứng thung lũng kỳ lạ trong văn học. Điều này định hình lại quá trình phát hiện không chỉ là việc tìm kiếm lỗi, mà còn là sự nhạy cảm với sự bất hòa cơ bản này.
Mặt khác, mặc dù sức mạnh của AI đến từ quy mô khổng lồ của dữ liệu huấn luyện, chính quy mô này cũng là một hạn chế. Bằng cách lấy trung bình hàng nghìn tỷ điểm dữ liệu, AI có xu hướng tạo ra văn bản chung chung, trung tính và tránh các quan điểm độc đáo, đặc trưng vốn định hình nên tác phẩm của một tác giả con người.
Các LLM được huấn luyện trên các mảng văn bản rộng lớn của con người, tối ưu hóa việc tạo ra các mẫu ngôn ngữ có khả năng thống kê cao, và do đó thường là các mẫu phổ biến hoặc trung bình. Quá trình này vốn dĩ làm mờ đi những điểm khác biệt—những biểu đạt mang tính cá nhân cao, lập dị hoặc sâu sắc—vốn là dấu ấn của văn viết mạnh mẽ của con người. Kết quả là,
"giọng văn" của AI trở thành một sự hồi quy về giá trị trung bình, một "hình ảnh mờ ảo về những gì 'người bình thường' sẽ viết". Điều này ngụ ý rằng một tác phẩm càng chung chung và "an toàn", nó càng giống với đầu ra của AI, tạo ra một thách thức trong việc phân biệt giữa văn viết tầm thường của con người và văn viết thành thạo của AI.
Vậy tại sao A.I lại mắc lỗi, và tạo ra những thông tin sai lệch?
1. Định nghĩa ảo giác của AI :
Ảo giác của AI là việc tạo ra thông tin nghe có vẻ tự tin, hợp lý nhưng lại sai sự thật, vô nghĩa hoặc hoàn toàn bịa đặt. Đây không phải là lỗi do trí nhớ hay lỗi chính tả, mà là những sự giả dối được trình bày một cách tự tin như sự thật. Điều này xảy ra bởi vì AI là một hệ thống khớp mẫu, không phải là một hệ thống kiểm tra sự thật. Nó tạo ra các kết quả có tính thống kê tương tự như dữ liệu huấn luyện của nó, ngay cả khi những kết quả đó không tương ứng với thực tế.
2. Nguyên nhân gốc rễ của ảo giác:
Dữ liệu huấn luyện không đầy đủ hoặc thiên vị: Nếu dữ liệu huấn luyện bị lỗi, không đầy đủ hoặc thiên vị, mô hình sẽ học và tái tạo những lỗi này.
Thiếu nền tảng thực tế: AI không có kinh nghiệm trực tiếp hoặc cơ chế để xác minh các tuyên bố của mình so với thực tế bên ngoài. Nó chỉ biết các mẫu trong dữ liệu của mình.
Quá khớp (Overfitting): Mô hình có thể học các mẫu giả từ dữ liệu huấn luyện của nó mà không thể tổng quát hóa, dẫn đến các suy luận không chính xác khi được trình bày với thông tin mới.
Không giống như lỗi của con người, thường được đặc trưng bởi sự không nhất quán, lỗi chính tả hoặc sự thiếu sót trong trí nhớ, ảo giác của AI thường tự tin, cụ thể và có cấu trúc hợp lý. Điều này làm cho chúng trở thành một công cụ chẩn đoán mạnh mẽ để xác định quyền tác giả của AI. Một con người có thể quên một ngày tháng; một AI sẽ bịa ra một sự kiện lịch sử chi tiết, không tồn tại với một ngày tháng chính xác nhưng không đúng. Lỗi của con người xuất phát từ những hạn chế về nhận thức (trí nhớ, sự chú ý) hoặc thiếu kiến thức và thường đi kèm với sự không chắc chắn hoặc mơ hồ. Ngược lại, ảo giác của AI xuất phát từ chức năng cốt lõi của mô hình: tạo ra văn bản có khả năng thống kê cao. Một nguồn bịa đặt, như "Smith và cộng sự, 2023, Tạp chí Khoa học Viễn tưởng," có cấu trúc hợp lý về mặt thống kê (Tác giả, Năm, Tạp chí). AI lắp ráp các phần hợp lý này mà không có bất kỳ liên kết nào đến một tham chiếu trong thế giới thực. AI trình bày sự bịa đặt này với sự tự tin cao như một sự thật có thật vì các chỉ số nội bộ của nó ghi nhận nó là một đầu ra được hình thành tốt, có khả năng xảy ra cao. Do đó,
bản chất của lỗi—sự tự tin, chi tiết và tính hợp lý về cấu trúc mặc dù hoàn toàn sai—là một tín hiệu mạnh mẽ hơn nhiều về nguồn gốc AI so với một sai lầm thực tế đơn giản. Việc xác minh các trích dẫn trở thành một phương pháp phát hiện chính.
Bây giờ, chúng ta sẽ đi sâu vào các vấn đề mà 1 bài viết hoặc 1 câu chuyện do A.I viết thường có:
1. Các mẫu ngôn ngữ và văn phong
Tính đồng nhất và dễ đoán: Văn bản của AI thường thể hiện một nhịp điệu đơn điệu với ít sự thay đổi về độ dài và cấu trúc câu. Giọng văn thường nhất quán, trung tính và quá cân bằng, thiếu sự thay đổi tự nhiên và phạm vi cảm xúc của văn viết con người.
Sự lặp lại và dư thừa: Do thiếu sự hiểu biết sâu sắc về bối cảnh, AI thường lặp lại cùng một ý tưởng, cụm từ hoặc cấu trúc câu, đôi khi trong cùng một đoạn văn. Điều này trái ngược hoàn toàn với sự ác cảm của con người đối với sự lặp lại, được biết đến là
horror aequi (kinh hoàng công bằng)
Cách diễn đạt quá trang trọng và công thức: AI thường mặc định sử dụng giọng văn trang trọng, gần như văn phong doanh nghiệp, sử dụng các cụm từ cụ thể, bị lạm dụng và các từ thông dụng. Điều này bao gồm các cụm từ giới thiệu như "Trong lĩnh vực", "Điều quan trọng là phải hiểu", và các phép ẩn dụ sáo rỗng như "tấm thảm phong phú" hoặc "bắt đầu hành trình của bạn". Việc sử dụng thường xuyên dấu gạch ngang dài (—) là một thói quen văn phong phổ biến khác.
Thiếu giọng văn cá nhân và giai thoại: Một đặc điểm xác định của văn bản AI là sự vắng mặt của những câu chuyện cá nhân, ý kiến chủ quan và những hiểu biết độc đáo bắt nguồn từ trải nghiệm sống. Nội dung có cảm giác phi cá nhân và xa cách.
2.Các đặc điểm về cấu trúc và định dạng
Cấu trúc quá mức và không phù hợp: Các mô hình AI thường chia nhỏ thông tin thành các danh sách có cấu trúc (được đánh số hoặc gạch đầu dòng) và các tiêu đề phụ, ngay cả khi một đoạn văn xuôi đơn giản sẽ tự nhiên và hiệu quả hơn.
Định dạng máy móc: Văn bản do AI tạo ra có thể hiển thị các yếu tố định dạng từ dữ liệu huấn luyện hoặc môi trường đầu ra của nó. Điều này bao gồm việc lạm dụng chữ in đậm để nhấn mạnh một cách máy móc, theo kiểu "những điểm chính cần nhớ" , việc sử dụng Viết hoa Tiêu đề cho tất cả các tiêu đề mục , và sự xuất hiện của các ký tự danh sách không chuẩn như dấu gạch nối hoặc dấu gạch ngang ngắn thay vì mã wikitext/markdown phù hợp.
3. Nội dung và sự mạch lạc
Tính hời hợt và thiếu chiều sâu: AI có thể tóm tắt thông tin hiệu quả nhưng gặp khó khăn với việc phân tích sâu, tư duy phản biện và tổng hợp thông tin thành các lập luận mới lạ. Văn bản thường chỉ dừng lại ở bề mặt, trình bày các sự kiện mà không có sự diễn giải có ý nghĩa.
Dòng chảy rời rạc và chuyển tiếp đột ngột: Mặc dù các câu riêng lẻ có thể mạch lạc, toàn bộ văn bản có thể có cảm giác rời rạc. AI có thể gặp khó khăn trong việc duy trì một "dòng suy nghĩ" logic, dẫn đến những thay đổi đột ngột về chủ đề hoặc giọng điệu giữa các đoạn văn.
Mù mờ về bối cảnh: AI có thể tham chiếu đến các chi tiết cụ thể mà không cung cấp bối cảnh cần thiết, hoặc nó có thể bỏ lỡ hoàn toàn điểm chính của một chủ đề, cho thấy sự thiếu hiểu biết về thế giới thực của nó.
Các cụm từ đặc trưng của AI như "đi sâu vào" (delve), "sự hiểu biết sâu sắc" (nuanced understanding), và "tấm thảm" (tapestry) không phải là những thói quen ngẫu nhiên. Chúng là những lối tắt ngôn ngữ mà các mô hình AI sử dụng để mô phỏng chiều sâu và sự phức tạp mà không thực sự sở hữu sự hiểu biết.
Các mô hình AI được thiết kế để tạo ra văn bản có vẻ uyên bác và toàn diện. Chúng học được các mẫu này từ dữ liệu huấn luyện, nơi các chuyên gia con người thường sử dụng các cụm từ báo hiệu sự phân tích sâu sắc.
Tuy nhiên, vì thiếu khả năng nhận thức để thực hiện phân tích sâu sắc thực sự, AI sử dụng các cụm từ này như những dấu hiệu văn phong hoặc "từ thông dụng" để lấp đầy những khoảng trống trong kiến thức và tạo ra một vẻ ngoài chuyên môn.
Do đó, sự xuất hiện thường xuyên của bộ từ vựng cụ thể này là một chỉ báo mạnh mẽ cho thấy tác giả đang
thể hiện sự phân tích thay vì
thực hiện nó, một sự khác biệt quan trọng giữa văn viết của chuyên gia máy và người.
Tương tự, các đặc điểm về cấu trúc và định dạng của văn bản AI về cơ bản là "hóa thạch" của dữ liệu huấn luyện và logic hoạt động của nó.
Việc lạm dụng danh sách và chữ in đậm phản ánh cấu trúc của nội dung web, các câu hỏi thường gặp và tài liệu kỹ thuật chiếm một phần lớn trong kho dữ liệu huấn luyện của nó.
Các mô hình AI được huấn luyện trên một lượng lớn dữ liệu web, bao gồm các bài viết dạng danh sách, wiki của người hâm mộ, bản sao tiếp thị và các tệp readme kỹ thuật.
Các định dạng này sử dụng nhiều danh sách, chữ in đậm và các tiêu đề có cấu trúc để làm cho thông tin dễ quét và dễ tiêu hóa cho người đọc. AI tiếp thu các mẫu cấu trúc này như những cách hiệu quả để trình bày thông tin. Khi được yêu cầu tạo văn bản, AI mặc định sử dụng các cấu trúc đã học này, thường áp dụng chúng một cách không phù hợp ở những nơi mà văn xuôi sẽ thích hợp hơn.
Do đó, những lựa chọn định dạng này không phải là ngẫu nhiên; chúng là sự phản ánh trực tiếp về "quá trình trưởng thành" của AI trên một chế độ ăn gồm nội dung web có cấu trúc, thực dụng, tiết lộ nguồn gốc phi con người của nó.
Tìm Hiểu Cách các công cụ phát hiện hoạt động trong thực tế
Một người dùng gửi một văn bản đến một công cụ như GPTZero, Originality.ai, hoặc Copyleaks. Thuật toán của công cụ sẽ phân tích văn bản, tính toán điểm số về độ phức tạp và tính bùng nổ, và so sánh chúng với mô hình đã được huấn luyện về các mẫu của con người so với AI. Đầu ra là một điểm số phần trăm (ví dụ: "98% khả năng được tạo bởi AI") và thường làm nổi bật các câu cụ thể được cho là có nhiều khả năng được viết bởi máy nhất.
Việc phụ thuộc vào độ phức tạp và tính bùng nổ có nghĩa là các công cụ phát hiện AI về cơ bản là các máy phân tích văn phong. Chúng không đánh giá sự thật, tính độc đáo hay chất lượng của ý tưởng.
Chúng chỉ đơn thuần đánh giá xem việc
trình bày những ý tưởng đó có phù hợp với một mẫu thống kê liên quan đến máy móc hay không. Các chỉ số cốt lõi này hoàn toàn không phụ thuộc vào nội dung. Một bài luận xuất sắc của con người nhưng được viết một cách dễ đoán và một bài luận chung chung do AI tạo ra đều có thể kích hoạt điểm độ phức tạp thấp.
Điều này có nghĩa là một người viết có phong cách rất rõ ràng, đơn giản và trực tiếp có thể dễ bị gắn cờ là AI hơn một người viết có phong cách phức tạp, rắc rối. Do đó, phán quyết của công cụ phát hiện không phải là một sự phán xét về việc gian lận hay tính xác thực theo nghĩa rộng, mà là một sự phán xét hẹp về khả năng dự đoán văn phong.
Đây là một sự khác biệt quan trọng mà người dùng, đặc biệt là các nhà giáo dục, phải hiểu để tránh hiểu sai kết quả.
4. Các phương pháp tốt nhất để xác định nguồn gốc văn bản
Phần cuối cùng này cung cấp một chiến lược có thể hành động, có thể bảo vệ được cho người dùng. Nó lập luận rằng trong trường hợp không có các công cụ tự động đáng tin cậy, một cách tiếp cận toàn diện, hướng quy trình và lấy con người làm trung tâm là tiêu chuẩn khả thi duy nhất ("chuẩn").
4.1 Vị trí tối cao của sự phán đoán của con người
Công cụ phát hiện đáng tin cậy nhất là một chuyên gia con người có hiểu biết, người hiểu được các sắc thái của chủ đề và bối cảnh của người viết. Khuôn khổ này ưu tiên chuyên môn này hơn các phán quyết thuật toán. Các công cụ phát hiện AI nên được sử dụng, nếu có, như một công cụ sàng lọc sơ bộ để gắn cờ các đoạn văn cần kiểm tra
thủ công kỹ lưỡng hơn, không bao giờ là bằng chứng kết luận. Sử dụng sự đồng thuận của nhiều công cụ phát hiện có thể giúp giảm khả năng xảy ra lỗi của một công cụ duy nhất, nhưng nó không loại bỏ được các lỗ hổng cơ bản.
4.2 Các chiến lược đánh giá dựa trên quy trình
Thiết lập một đường cơ sở: So sánh văn bản đáng ngờ với một tập hợp các tác phẩm đã có của sinh viên hoặc người viết. Tìm kiếm những sai lệch đáng kể về phong cách, từ vựng, giọng điệu và chất lượng.
Phân tích "dấu vết giấy tờ kỹ thuật số": Khi có thể, hãy sử dụng các tính năng như Lịch sử phiên bản của Google Docs. Điều này có thể tiết lộ nếu một khối văn bản lớn được dán toàn bộ vào tài liệu, trái ngược với việc được gõ và sửa đổi dần dần theo cách của con người.
4.3 Xác minh dựa trên nội dung
Thăm dò sự hiểu biết của tác giả: Phương pháp hiệu quả nhất là tham gia vào một cuộc trò chuyện với tác giả về tác phẩm của họ. Yêu cầu họ giải thích các điểm phức tạp, định nghĩa các thuật ngữ cụ thể mà họ đã sử dụng, bảo vệ lập luận của họ, hoặc tóm tắt luận điểm của họ mà không cần ghi chú. Một người không viết văn bản sẽ gặp khó khăn trong việc thể hiện sự hiểu biết thực sự.
Kiểm tra sự thật và xác minh nguồn: Kiểm tra tỉ mỉ tất cả các trích dẫn, đặc biệt là những trích dẫn có vẻ mơ hồ hoặc hoàn hảo một cách bất thường. Như đã được thiết lập trong Phần 3, sự hiện diện của các nguồn bị ảo giác là một dấu hiệu gần như chắc chắn về việc sử dụng AI.
4.4 Một quy trình làm việc có đạo đức và có thể bảo vệ
- Nghi ngờ: Một giảng viên hoặc biên tập viên phát triển một sự nghi ngờ dựa trên phân tích thủ công (Phần 2) và so sánh với phong cách cơ sở của tác giả.
- Sàng lọc sơ bộ (Tùy chọn & Thận trọng): Văn bản được chạy qua nhiều công cụ phát hiện. Một sự đồng thuận mạnh mẽ về "khả năng cao là AI" được coi là một tín hiệu để điều tra thêm, không phải là một phán quyết. Một kết quả "con người" không xóa bỏ nghi ngờ nếu các nghi ngờ khác vẫn còn.
- Thu thập bằng chứng: Người dùng kiểm tra các ảo giác (Phần 3) và phân tích quy trình kỹ thuật số nếu có (ví dụ: lịch sử phiên bản).
- Đối thoại: Người dùng bắt đầu một cuộc trò chuyện không mang tính buộc tội với tác giả để thăm dò chiều sâu của sự hiểu biết.
- Kết luận: Một phán quyết cuối cùng được đưa ra dựa trên toàn bộ bằng chứng, với trọng lượng chính được đặt vào khả năng của tác giả trong việc thể hiện quyền sở hữu và sự hiểu biết về tác phẩm, và sự hiện diện của các dấu hiệu xác định như ảo giác. Điểm số của công cụ phát hiện tự nó không bao giờ là cơ sở duy nhất cho một quyết định.
Cuộc chạy đua vũ trang giữa việc tạo ra và phát hiện AI cho thấy rằng việc phân tích
sản phẩm văn bản cuối cùng sẽ ngày càng trở nên vô ích. Các mô hình AI đang nhanh chóng cải thiện khả năng bắt chước phong cách viết của con người, làm cho việc phân tích văn phong trở nên kém tin cậy theo thời gian.
Các công cụ "người hóa" được thiết kế đặc biệt để đánh bại phân tích dựa trên sản phẩm. Do đó, việc dựa vào phân tích tĩnh của văn bản cuối cùng là một cuộc chiến thua cuộc. Tuy nhiên, các phương pháp như kiểm tra lịch sử phiên bản , yêu cầu bản nháp, hoặc tiến hành các cuộc bảo vệ/thảo luận miệng trực tiếp kiểm tra
quá trình viết và tư duy.
AI (hiện tại) không thể tái tạo quá trình viết lộn xộn, lặp đi lặp lại của con người hoặc khả năng của con người để thảo luận về hành trình trí tuệ của họ trong thời gian thực. Điều này ngụ ý một sự thay đổi cần thiết về phương pháp sư phạm và biên tập: chúng ta phải coi trọng và đánh giá bằng chứng về công việc và tư duy, không chỉ là bài nộp cuối cùng đã được đánh bóng.
Đây là một hàm ý sâu sắc đối với giáo dục và xuất bản, cho thấy phương pháp xác thực mạnh mẽ và có khả năng chống lại sự thay đổi trong tương lai là chuyển trọng tâm sang quá trình sáng tạo.