Phân biệt thuật ngữ trong thống kê, học máy và kinh tế lượng

Chuyện một khái niệm được gọi bằng vài cái tên khác nhau trong các lĩnh vực khác nhau là không mới, nhất là đối với các lĩnh vực gần nhau là học máy (machine learning), thống kêkinh tế lượng. Các nhà nghiên cứu trong các cộng đồng nhỏ chuyên sâu hầu như ít khi nắm bắt được sự phát triển trong các ngành lân cận, cuối cùng lại sử dụng những thuật ngữ khác nhau cho cùng một khái niệm, hay tệ hơn là tự ‘phát minh’ ra những khái niệm vốn có, sử dụng một thuật ngữ mới.

Ở Việt Nam, việc ứng dụng liên ngành cũng được khuyến khích. Các bạn học phân tích số liệu hay khoa học máy tính được khuyến khích học thêm về thống kê. Dân kinh tế/tài chính thì tiếp thu cả thống kê lẫn kinh tế lượng. Ai cũng thích tìm hiểu về machine learning vì ngành này đang hot.

Việc phân biệt các thuật ngữ giống nhau trong các ngành gần giống nhau là không dễ nếu như ta không thường xuyên đọc về các lĩnh vực này. Việc nắm được sự khác biệt này sẽ tiết kiệm được thời gian tự học hay tra cứu. Nếu bạn làm nghiên cứu hàm lâm và định sử dụng thuật ngữ hay khái niệm từ một ngành khác, bạn cũng nên chú ý sử dụng sao cho đúng.

Ở đây tôi dịch lại một phần bài viết trong blog của Rob J. Hyndman về các thuật ngữ hay bị nhầm lẫn giữa các ngành thống kê, học máy và kinh tế lượng. Tôi sẽ bổ sung thêm nếu tôi nghĩ ra.

1 Cùng khái niệm, khác thuật ngữ

  • Dân kinh tế lượng dùng thuật ngữ “panel data” (dữ liệu mảng), trong khi dân thống kê dùng từ “longitudinal data” (dữ liệu theo chiều dọc) để nói đến một tập hợp các quan sát trên cùng đối tượng theo thời gian.
  • Dân kinh tế lượng dùng thuật ngữ “duration modelling” (mô hình hoá kỳ hạn), trong khi dân thống kê sử dụng “survival analysis” (phân tích sống sót) khi nghiên cứu về thời gian cho đến khi một sự kiện nào đó xảy ra.
  • “Estimation” (ước lượng) trong thống kê là “learning” (học) trong học máy.
  • “Weights” (trọng số) trong các mô hình mạng thần kinh (neural network) được gọi là “parameters” (tham số) trong thống kê.
  • “Covariates” (hiệp phương sai) trong thống kê được gọi là “features” (đặc trưng) trong machine learning.

2 Khác khái niệm, cùng thuật ngữ

  • Một ước lượng được gọi là “robust” trong kinh tế lượng khi ước lượng đó không nhạy cảm với các hiện tượng heteroskedasticity (hiệp phương sai không đồng nhất) và autocorrelation (tự tương quan). Trong thống kê, một ước lượng “robust” không bị ảnh hưởng bởi các giá trị ngoại vi (outliers).
  • Cụm từ “fixed effect model” trong thống kê là một mô hình trong đó các tham số là cố định hay không ngẫu nhiên. Trong kinh tế lượng, cụ thể là đối với số liệu mảng, một ước lượng “fixed effect” là một ước lượng mà trong đó các hệ số trong mô hình là không biến động theo thời gian.