AI đang ngày càng được sử dụng nhiều hơn để nhận dạng văn bản văn học. Mới đây một tác phẩm không rõ nguồn gốc từ ​​thế kỷ 16 của Tây Ban Nha đã được tìm thấy nhờ công nghệ này. 

Bản thảo gốc của La francesa Laura được lưu trữ tại Thư viện Quốc gia Tây Ban Nha ở Madrid. Ảnh: Juan Medina/Reuters.

Thư viện Quốc gia Tây Ban Nha đã sử dụng trí tuệ nhân tạo (AI) để phiên âm các tác phẩm văn học chưa rõ nguồn gốc trong thư viện mình, nhờ đó tìm được một vở kịch chưa từng được biết đến của một trong những tác giả nổi tiếng nhất nước này, Felix Lope de Vega. Được đặt tên là La francesa Laura (tạm dịch: Người phụ nữ Pháp Laura), vở kịch được xác định ra đời vào khoảng vài năm trước khi tác giả qua đời năm 1635.

Thời đại hoàng kim của văn học Tây Ban Nha kéo dài khoảng từ đầu thế kỷ 16 đến cuối thế kỷ 17. Trong đó, nhà soạn kịch và nhà viết kịch Lope de Vega (còn có biệt danh là Quái vật của tự nhiên) đã để lại 500 vở kịch, ba cuốn tiểu thuyết và vài nghìn bản sonnet trong suốt cuộc đời của mình.

La francesa Laura (Người phụ nữ Pháp Laura) là một câu chuyện về tình yêu, sự ghen tuông và thứ bậc xã hội. Cốt truyện lấy bối cảnh ở Pháp, xoay quanh Laura, con gái của Công tước xứ Brittany và là vợ của Bá tước Arnaldo. Sau khi nguồn gốc tác phẩm được xác định, một nhà xuất bản tại Tây Ban Nha đã lên kế hoạch để phát hành sách trong vài tháng tới.

Cách AI nhận dạng một tác phẩm

Khám phá này được thực hiện bởi Etso, một dự án được bắt đầu bởi hai chuyên gia văn học Germán Vega và Álvaro Cuéllar vào năm 2017. Đây là dự án sử dụng trí tuệ nhân tạo để xác định tác giả của các vở kịch Thời kỳ Hoàng kim chưa rõ danh tính hoặc đang bị phân loại sai.

Theo The Guardian, 1.300 vở kịch với khoảng 3 triệu từ đã được phiên âm kỹ thuật số bởi Transkribus, một công cụ sao chép và nhận dạng văn bản bằng AI. Sau khi phiên âm hoàn tất, một chương trình khác có tên Stylo sẽ so sánh ngôn ngữ và phong cách của chúng với 2.800 tác phẩm số hóa của 350 tác giả trong cơ sở dữ liệu Etso.

Được thư viện lưu giữ như một bản thảo từ thế kỷ 18, La francesa Laura từ lâu đã được xếp vào danh mục tác phẩm ẩn danh tại thư viện. Nhưng nhờ quá trình phân tích như trên, Etso đã nhanh chóng đưa ra kết luận rằng tác phẩm thuộc về Lope dựa trên sự phù hợp với hơn 100 tác phẩm đã số hóa của ông.

Theo những người đứng đầu chương trình Etso, đây là một kỳ tích quan trọng vì vở kịch gần như không có tài liệu tham khảo nào trong bất kỳ thư mục nào mà họ đã xem trước đây. Nếu không có AI, nguồn gốc của vở kịch sẽ vẫn là một ẩn số.

Sau đó, các chuyên gia đã sử dụng các nguồn nghiên cứu ngữ văn truyền thống để chứng thực phát hiện này. “La francesa Laura là một vở kịch xuất sắc, với sự kịch tính được mong đợi ở một Lope de Vega đã trưởng thành”, thư viện đưa ra kết luận.

AI đang ngày càng được sử dụng nhiều hơn để nhận dạng văn bản văn học. Bốn năm trước, chương trình Etso đã xác định được một vở kịch từ thế kỷ 17 được viết bởi nhà viết kịch người Mexico là Juan Ruiz de Alarcón. Từ năm 2018, Enrique Jiménez, giáo sư Văn học Cận Đông Cổ đại tại Đại học Ludwig Maximilian ở Đức, cùng nhóm của ông đã xử lý văn học Babylon bằng AI. Cho đến nay, nhóm đã xử lý được 22.000 đoạn văn bản.

Vào năm 2022, các nhà nghiên cứu từ công ty nghiên cứu trí tuệ nhân tạo DeepMind, Đại học Oxford và các công ty khác đã phát triển Ithaca, một mạng nơ-ro sâu để khôi phục và truy nguồn các chữ khắc Hy Lạp cổ đại. Các nhà nghiên cứu cho biết công cụ này có thể đạt được độ chính xác 62% trong việc khôi phục các văn bản bị hỏng và độ chính xác 71% trong việc truy tìm vị trí địa lý ban đầu của nó.

nguồn: https://zingnews.vn/dung-ai-de-truy-tim-nguon-goc-cac-tac-pham-post1399656.html