Về chuyện Việt hoá thuật ngữ chuyên ngành

Dạo gần đây, trong cộng đồng khoa học dữ liệu, có nhiều nỗ lực tổng hợp và Việt hoá các kiến thức chuyên môn nhằm lan toả tri thức, có thể kể đến các dự án như Đắm mình vào học sâu của nhóm Machine Learning Cơ bản (Vũ Hữu Tiệp), hay gần đây là dự án ml Algorithms to Practice do Phạm Đình Khánh khởi xướng. Nhìn chung các dự án này đều được cộng đồng đón nhận cởi mở.

Tôi nghĩ đây là một dấu hiệu tốt, không chỉ từ góc độ của một người yêu mến lĩnh vực này, mà còn từ góc nhìn kinh tế học. Điều này cho thấy nhu cầu về nhân lực trình độ cao ở Việt Nam đang lớn, đủ để kéo theo nhu cầu về đào tạo nhân lực trình độ cao. Và lao động sẽ tạo ra thêm nhu cầu lao động. Thống kê ở Mỹ cho thấy trung bình một nhân lực trình độ cao tạo ra đến 2.5 công việc mới trong nền kinh tế – cao hơn bất kỳ ngành nào khác Khái niệm này được gọi là số nhân địa phương (local multiplier) trong kinh tế học . Điều tương tự cũng có thể được kỳ vọng ở Việt Nam. Đơn giản mà nói, nhiều công việc sẽ dẫn đến tăng trưởng kinh tế, và kéo theo nhiều thứ ngọt ngào khác. Các bạn trẻ được hoan nghênh khi theo đuổi lĩnh vực này, nếu có cơ hội. Cộng đồng khoa học dữ liệu ở Việt Nam đang có xu hướng nắm bắt các tiến bộ khoa học mới nhất, và bản địa hoá kiến thức một cách có hệ thống, đi cùng với các kỹ năng tự khảo cứu và tổng hợp.

Có một vấn đề hiển nhiên sẽ gặp khi tìm cách tổng hợp mối kiến thức từ nơi biên giới khoa học, đó là việc bản địa hoá các thuật ngữ chuyên ngành sao cho phù hợp. Quá trình này nhiều khi rất oái oăm. Ví dụ, trong các bài toán phân loại, nếu dịch thô từ tiếng Việt thì accuracyprecision đều có thể hiểu đại khái là độ chính xác, nhưng nội hàm của hai từ này là khác nhau, vậy thì chọn từ ra sao để phân biệt giữa hai khái niệm này? Khái niệm precision còn hay đi kèm với khái niệm recall. Nếu như một ai không biết xuất xứ của hai từ này là từ lý thuyết truy hồi thông tin, thì kể cả có giỏi tiếng Anh cũng khó mà liên hệ với khái niệm mà chúng đại diện. Còn nữa, từ recall đồng nghĩa với từ sensitivity, nhưng khái niệm sensitivity lại hay đi cặp với specificity. Hai từ này lần lượt được cộng đồng thống kê y sinh dịch là độ nhạyđộ đặc hiệu. Nếu không ở trong cộng đồng này, liệu hai từ này có gợi cho bạn chút ý niệm trực giác nào không?

Tóm lại, dịch thuật là một quá trình khó khăn. Thậm chí nó còn là một chủ đề cần nhiều thảo luận xã hội sâu sắc. Nếu không phân tích kỹ để hiểu, chúng ta vẫn sẽ bối rối không biết phải xử lý các vấn đề phát sinh như thế nào. Đó là lý do tôi viết bài này.

Việt hoá thuật ngữ để làm gì?

Thuật ngữ, hay từ vựng nói chung, suy cho cùng chỉ là những quy ước mà chúng ta tạo ra để phối hợp với nhau hiệu quả hơn. Có thể coi ngôn ngữ như một lối tắt trong não bộ, khiến cho chúng ta có thể tư duy về các vấn đề trừu tượng một cách dễ dàng. Thay vì phải nói số-quan-sát-được-chọn-ra-đúng-chia-cho-tổng-số-quan-sát-được-chọn-ra, chúng ta dùng khái niệm precision, và thay vì số-quan-sát-được-chọn-ra-đúng-chia-cho-tổng-số-quan-sát-đúng-có-thể-được-chọn-ra, thì chúng ta dùng từ recall. Nếu bạn đã hiểu hai khái niệm, và sử dụng hai quy ước này, chúng ta có thể tiết kiệm rất nhiều nơ-ron thần kinh mỗi khi trao đổi.

Đôi khi thuật ngữ còn có thể vượt ra khỏi giới hạn của ngôn ngữ bằng lời. Thật khó để giải thích bằng lời ý nghĩa của giá trị riêng (eigenvalue) hay tính compact (compactness), nhưng khi hai nhà toán học trao đổi với nhau bằng những thuật ngữ này, họ có thể truyền đạt những ý tưởng vượt ra khỏi giới hạn của thực tại và ngôn ngữ hàng ngày.

Như vậy, có thể thấy mục đích chính của việc Việt hoá thuật ngữ là để giúp thuận tiện trong giao tiếp, và việc lựa chọn thuật ngữ nên xoay quanh mục tiêu hiệu quả trong trao đổi chuyên môn – bạn sẽ thấy tôi nhắc lại điều này nhiều lần.

Một số ảnh hưởng ngầm trong các thảo luận về Việt hoá thuật ngữ

Điểm qua các cuộc thảo luận về việc Việt hoá thuật ngữ, sẽ có một số luồng quan điểm nổi lên và được nhiều người sử dụng. Tôi tổng hợp những quan điểm như thế trong một cuộc trao đổi tưởng tượng thế này:

“Ôi Việt hoá làm gì? Dịch ra nó chẳng có nghĩa đâu!”

“Dịch để cho người đọc Việt Nam hiểu. Từ đó mới có thể thống nhất ngôn ngữ trong cộng đồng, từ đó mới có thể phát triển trình độ chung được.”

“Nhưng dịch tiếng Việt thì nên dùng từ thuần Việt, tránh từ Hán Việt.”

Và khả năng cuộc hội thoại sẽ kết thúc thế này:

“Từ này cũng hay, nhưng cộng đồng sử dụng từ tiếng Anh quen rồi.”

hoặc:

“Tiếng Việt không có khả năng diễn đạt khái niệm này, đành dùng một từ gần đúng rồi mở ngoặc bên cạnh vậy.”

hy vọng là chưa đến mức này:

“Đành tiếp tục dùng từ tiếng Anh vậy.”

Tất cả những cuộc trò chuyện như ở trên đều có chứa một phần thực tế. Nhưng đan xen trong đó là một số định kiến sai lầm, khiến cho những người viết ra những câu này dù có thể nhận xét đúng thực tế, nhưng lại chưa phản ứng đúng trước vấn đề. Nói cách khác, họ đã vô tình mắc lỗi ngụy biện. Ở đây tôi bóc tách ra một số lỗi như vậy.

Phức cảm thua kém

Phức cảm thua kém là một thuật ngữ trong tâm lý học nói về cảm giác dè chừng, ấm ức khi so sánh bản thân với những cá nhân khác. Điều này thường dẫn đến niềm tin rằng một người, về khía cạnh nào đó, là thua kém những người khác, mặc dù không có bằng chứng rõ ràng cho điều đó. Vì niềm tin và bằng chứng thực tế không phủ định lẫn nhau, người này thường có cảm xúc không nhất quán (phức cảm): họ ngầm tin điều đó, nhưng họ không muốn tin. Những phức cảm này thường là do tác nhân ngoại cảnh, ở mức độ xã hội thay vì cá nhân. Vì vậy, phức cảm thua kém dễ biến thành căn tính của một tập thể.

Phức cảm thua kém ở trong tiếng Việt phần nhiều thể hiện trong cảm xúc của chúng ta về tiếng Việt: dùng từ Hán Việt thường có cảm giác “sang” hơn từ thuần Việt tương ứng; Hay đôi khi những từ Việt hoá lại nghe có vẻ hơi “ngố”, khiến chúng ta không muốn sử dụng. Nguyên nhân là do chúng ta cảm thấy tiếng Việt đại diện cho nền văn minh của người Việt, và nó thua kém các nền văn minh khác.

Như lời tôi được nghe từ dịch giả Trần Quang Đức: “Người Trung Quốc dịch bluetooth là 藍牙 (lam nha), tại sao chúng ta chưa bao giờ có từ răng xanh?”

Nhưng phức cảm, suy cho cùng, cũng chỉ là cảm xúc. Chúng ta nên học cách gạt nó sang một bên để đưa ra các quyết định lý tính * Trước đây tôi sử dụng từ “duy lý” (rationalism) ở chỗ này, sửa lại thành “lý tính” (rationality). và hữu ích. Mỗi khi cảm thấy một từ Việt hoá chưa được “sang”, hãy tự hỏi: Liệu từ này đã phản ánh đúng khái niệm ta muốn truyền đạt chưa? Liệu từ này có gây nhầm lẫn với các khái niệm đã có không? Hiệu quả trong giao tiếp là thứ quan trọng nhất. Những thứ khác có hay không không quan trọng.

Chủ nghĩa thuần tuý

Trong tất cả các cuộc thảo luận về ngôn ngữ, luôn luôn xuất hiện những người có quan điểm “thuần tuý” đối với ngôn ngữ.

Trong tiếng Anh, họ là những người khăng khăng rằng “phải đặt trạng từ đằng sau động từ”; “không được sử dụng bổ ngữ treo (dangling modifiers)”; hay “không được tách đôi nguyên mẫu (split infinitives)”… Hầu như những quan điểm này đều xuất phát từ việc tham chiếu ngữ pháp tiếng Latin, và coi nó như là một hình mẫu tiêu chuẩn. Đối với tiếng Việt, nhóm quan điểm này được biểu lộ thông qua động cơ “giữ gìn sự trong sáng cho tiếng Việt”.

Những lập luận kiểu này được xây dựng dựa trên một giả định quan trọng mà họ (vô tình) bỏ qua: Để có thể tồn tại tiếng Việt không trong sáng, phải tồn tại một phiên bản tiếng Việt trong sáng, tiếng Việt chuẩn. Nhưng thực tế không phải như vậy. Một trong những yếu tố quan trọng nhất của ngôn ngữ là nó luôn thay đổi. Nó luôn vận động. Trong lúc thế hệ Z bắt đầu dùng từ “chằm Zn”, nhiều từ tiếng Việt cũ kỹ đang dần rơi vào quên lãng. Đây không phải một hiện tượng tiêu cực, chỉ đơn giản là vận động xã hội. Thậm chí khoa học cũng vậy. Chúng ta hay ví von tri thức của nhân loại như là một “kho tàng”, nhưng nó cũng mở rộng và đồng thời cũng hao đi cùng với ngôn ngữ. Thomas Kuhn gọi hiện tượng này là tính không thể so sánh (incommensurability) của các lý thuyết khoa học, và gây ra một cuộc cách mạng trong triết học khoa học cuối thế kỷ 20. Thomas Kuhn cũng là người đầu tiên sử dụng từ paradigm – một từ rất phổ biến trong khoa học máy tính. Hình như chưa có ai Việt hoá từ này?

Nói vậy để hiểu rằng khái niệm “sự trong sáng của tiếng Việt” là không có cơ sở vững chắc, và chúng ta cũng nên tránh xa các quyết định đến từ động cơ này – cụ thể là việc tránh né tiếng Hán Việt. Thực tế, từ Hán Việt chiếm tới khoảng 2/3 ngôn ngữ tiếng Việt. Chúng ta đã viết nhiều áng văn chương với nó, sử dụng nó trong văn bản pháp quy, sử dụng nó trong đời sống hàng ngày. Nó chính là ngôn ngữ của chúng ta, không phải đồ mượn. Vậy tại sao phải tránh né nó? Tại sao không vận dụng một nguồn từ vựng dồi dào để diễn đạt những khái niệm ta chưa có, như cách người Nhật đã làm?

Chọn từ phổ biến

Cuối cùng, tôi muốn nói về việc sử dụng các từ đã phổ biến sẵn. Thực ra, trong hầu hết mọi trường hợp, chúng ta nên sử dụng những từ đã có sẵn và được cộng đồng đã và đang sử dụng. Nếu một từ được công nhận, thì khả năng cao là nó có cái lý của nó. Tuy nhiên, khi chúng ta phổ cập một lĩnh vực mới cho cộng đồng, khả năng cao là từ đó chưa bao giờ được dịch, và trong tiếng Việt cũng không có từ nào để diễn tả khái niệm đó. Tôi muốn nhấn mạnh rằng chúng ta không nên đổ lỗi cho sự yếu kém của tiếng Việt, và vội kết luận rằng tiếng Việt không có khả năng diễn đạt. Nếu một khái niệm chưa bao giờ được người Việt chúng ta sáng tạo ra, và dùng nó để giao tiếp, đương nhiên là chúng ta không có sẵn từ nào để mô tả khái niệm đó rồi.

Nếu bạn cũng hay tra cứu từ nguyên hay nguồn gốc của các thuật ngữ như tôi, bạn sẽ thấy không có thuật ngữ nào là có sẵn lúc người ta phát hiện ra khái niệm tương ứng. Rất nhiều từ trong tiếng Anh có nguồn gốc từ tiếng Latin, tiếng Pháp, tiếng Đức,… Quá trình vắt óc để sáng tạo ra một từ mới, nhưng lại có thể gợi lên đúng khái niệm mà tác giả có trong đầu thực ra là một thú vui thầm kín của những người làm khoa học. Nếu chưa có ai dùng thì mình dùng thôi! – nếu như đó là từ thích hợp để chúng ta diễn đạt ý tưởng mà không gây bối rối cho người nghe. Hiệu quả trong giao tiếp là thứ quan trọng nhất. Nói thì đơn giản nhưng thật ra nó không hề dễ. Như tôi đã nói: phải vắt óc mới ra.

Khi đã có một từ hay rồi, nhưng chưa ai từng dùng, thì thứ mà chúng ta cần, đó là:

Bản lĩnh của người nghiên cứu

Cách sử dụng từ ngữ cũng thể hiện dấu ấn cá nhân của người làm nghiên cứu. Có một câu chuyện nổi tiếng như thế này:

Năm 1696, Johann Bernouli gửi một bức thư thách đố tất cả các nhà toán học và vật lý học châu Âu giải một bài toán mà sau này là kinh điển: thiết kế một chiếc cầu trượt dốc xuống, sao cho một vật thể trượt không ma sát trên chiếc cầu này đi từ điểm A cho trước đến điểm B cho trước trong thời gian ngắn nhất. Thách thức này thu hút nhiều nhà khoa học lẫy lừng, trong đó có Issac Newton. Newton tìm được lời giải chỉ trong 12 tiếng đồng hồ, và đăng tải đáp án của mình dưới bút tên ẩn danh. Nhưng bút pháp của ông có vẻ không thể bị nhầm lẫn. Sau này, trong một bức thư gửi cho bạn mình, Bernoulli chia sẻ rằng tác giả của lời giải, “bằng một sự khiêm tốn quá đỗi”, đã không tiết lộ tên của mình, song chỉ bằng chút bằng chứng ít ỏi, ta có thể nhận ra đó chính là Newton, “như nhận ra một con hổ dựa trên những vết cào”.

Đầu năm 2018, lúc mà bitcoin đang trong bong bóng và tôi mới chân ướt chân ráo làm nghiên cứu, chúng ta vẫn còn sử dụng rất nhiều từ để nói về bitcoin và đồng bọn như tiền kỹ thuật số, tiền điện tử, tiền thuật toán… Những từ này không thực sự phản ánh đúng khái niệm của loại tiền này. Qua thảo luận với các đồng nghiệp và với sự gợi ý của tiến sĩ Lê Hồng Giang, chúng tôi quyết định sẽ dịch cryptocurrencytiền mã hoá trong tất cả các cuộc thảo luận và ấn phẩm của vepr kể từ đó. Không phải là để thay đổi thói quen của cộng đồng – chúng tôi làm vậy chỉ vì cho rằng dịch như vậy là sát nhất. Bây giờ cụm từ tiền mã hoá dường như đã trở thành một thuật ngữ được sử dụng rộng rãi.

Đó là một trong những bài học lớn mà tôi học được từ lúc làm nghiên cứu: Luôn cẩn mật với lựa chọn về từ ngữ, và mạnh dạn sử dụng từ mà ta thấy hợp lý nhất. Nếu một thuật ngữ diễn đạt chính xác khái niệm của nó, không ít không hơn, tự nó sẽ thích nghi và trở thành thuật ngữ được chấp nhận.

Một câu chuyện khác là khi chúng tôi thực hiện dự án Sử dụng giá cả trực tuyến để ứng báo lạm phát (2018). Chúng tôi đã dịch từ nowcastingứng báo, bên cạnh khái niệm dự báo (forecasting), nhằm nói về việc sử dụng nguồn số liệu được cập nhật liên tục để tính toán tình trạng lạm phát ngay hiện tại (now-), thay vì trong tương lai. Từ này chưa bao giờ nổi, nhưng chúng tôi thấy mọi người hiểu và sử dụng khái niệm này vào lúc đó, và trong các bức thư hỏi thăm mà đến giờ thỉnh thoảng tôi vẫn được nhận.

Thực ra chỉ cần như thế là đủ.


Bài viết này được tôi chia sẻ ở Forum Machine Learning cơ bản.