Seminar Thống kê Ứng dụng T4.2022

Thời gian: 14:00 đến 16:00 ngày 13/04/2022, 14:00 đến 16:00 ngày 27/04/2022,

Địa điểm: C101, VIASM và Online

Seminar Thống kê Ứng dụng

Website: https://sites.google.com/view/tkud/home 

Thời gian: 14:00 – 16:00 | Hình thức: Trực tuyến qua phần mềm Zoom

 

Thời gian

Giảng viên

Tên bài giảng

13/04/2022

PGS.TS.Ngô Hoàng Long

TS. Trịnh Thị Hường

Giới thiệu mô hình hồi quy cộng tính tổng quát GAM và ứng dụng

27/4/2022

Bùi Thị Thiện Mỹ

Trường Đại học Ngân Hàng TP. HCM.

TOUS: Một kỹ thuật cân bằng dữ liệu cho các mô hình phân loại

 

PGS.TS. Ngô Hoàng Long, Trường Đại học Sư Phạm Hà Nội

Email: ngolong@hnue.edu.vn

TS. Trịnh Thị Hường, Trường Đại học Thương mại

Email: trinhthihuong@tmu.edu.vn

Các bài toán ước lượng hồi quy phi tham số ngày càng phổ biến trong các nghiên cứu khoa học định lượng. Mô hình hồi quy cộng tính tổng quát GAM là một dạng mô hình hồi quy nửa tham số, các biến độc lập có tác động tuyến tính và có các biến độc lập tác động phi tuyến. Hàm phi tuyến được ước lượng thông qua các hàm trơn Spline, tức là các đoạn đa thức kết nối nhau một cách trơn nhẵn tại các điểm nút (knots). Phương pháp ước lượng hợp lý cực đại có phạt (penalized likelihood maximization) được sử dụng để ước lượng mô hình, trong đó có đề xuất tiêu chuẩn lựa chọn tham số trơn để tránh sự quá khớp (Overfitting) hoặc chưa khớp (Underfitting). Mô hình được minh họa thông qua bài toán ước lượng lợi suất giáo dục đối với tiền lương, thông qua phần mềm R và gói lệnh Mgcv.

Bùi Thị Thiện Mỹ, Bộ Môn Toán Kinh tế, Trường Đại học Ngân Hàng TP. HCM

Email: mybtt@buh.edu.vn 

Dữ liệu mất cân bằng là một vấn đề thu hút sự quan tâm lớn trong các bài toán phân loại. Khi dữ liệu đầu vào mất cân bằng, các mô hình phân loại thường nhận diện kém các phần tử thuộc nhóm thiểu số. Hiệu quả của mô hình càng giảm khi dữ liệu vừa mất cân bằng vừa có các phần tử nhiễu hoặc có sự chồng chéo giữa các nhóm tính chất. Mặc dù đã có rất nhiều nghiên cứu xử lý dữ liệu mất cân bằng, rất ít nghiên cứu xử lý đồng thời tình trạng dữ liệu bị mất cân bằng, có phần tử nhiễu và có các phần tử chồng chéo giữa các nhóm. Các nghiên cứu như thế lại không dễ tiếp cận được phương pháp tính toán. Vì thế, chúng tôi đề xuất một thuật toán mới, đặt tên là TOUS. Thuật toán là sự kết hợp của các phương pháp như liên kết Tomk, lấy mẫu ngẫu nhiên quá mức và lấy mẫu ngẫu nhiên dưới mức. TOUS tạo ra một họ các tập huấn luyện cân bằng có số phần tử khác nhau. Các tập dữ liệu cân bằng này là đầu vào của các mô hình kết hợp (ensemble model) xử lý song song. Để minh họa hiệu quả của TOUS, chúng tôi thiết kế hai mô hình phân loại kết hợp gọi là LLE (Lasso-Logistic Emsemble) và DTE (Decision Tree Ensemble) dựa trên các bộ học cơ bản là hồi quy Lasso-Logistic và Cây quyết định. Kết quả thử nghiệm LLE và DTE trên sáu bộ dữ liệu thực cho thấy hiệu quả vượt trội so với các mô hình phân loại thông thường ngay cả khi áp dụng các kỹ thuật xử lý mất cân bằng phổ biến.