Seminar Thống kê Ứng dụng T4.2022
Thời gian: 14:00 đến 16:00 ngày 13/04/2022, 14:00 đến 16:00 ngày 27/04/2022,
Địa điểm: C101, VIASM và Online
Seminar Thống kê Ứng dụng
Website: https://sites.google.com/view/tkud/home
Thời gian: 14:00 – 16:00 | Hình thức: Trực tuyến qua phần mềm Zoom
Thời gian |
Giảng viên |
Tên bài giảng |
13/04/2022 |
PGS.TS.Ngô Hoàng Long TS. Trịnh Thị Hường |
Giới thiệu mô hình hồi quy cộng tính tổng quát GAM và ứng dụng |
27/4/2022 |
Bùi Thị Thiện Mỹ Trường Đại học Ngân Hàng TP. HCM. |
TOUS: Một kỹ thuật cân bằng dữ liệu cho các mô hình phân loại
|
PGS.TS. Ngô Hoàng Long, Trường Đại học Sư Phạm Hà Nội
Email: ngolong@hnue.edu.vn
TS. Trịnh Thị Hường, Trường Đại học Thương mại
Email: trinhthihuong@tmu.edu.vn
Các bài toán ước lượng hồi quy phi tham số ngày càng phổ biến trong các nghiên cứu khoa học định lượng. Mô hình hồi quy cộng tính tổng quát GAM là một dạng mô hình hồi quy nửa tham số, các biến độc lập có tác động tuyến tính và có các biến độc lập tác động phi tuyến. Hàm phi tuyến được ước lượng thông qua các hàm trơn Spline, tức là các đoạn đa thức kết nối nhau một cách trơn nhẵn tại các điểm nút (knots). Phương pháp ước lượng hợp lý cực đại có phạt (penalized likelihood maximization) được sử dụng để ước lượng mô hình, trong đó có đề xuất tiêu chuẩn lựa chọn tham số trơn để tránh sự quá khớp (Overfitting) hoặc chưa khớp (Underfitting). Mô hình được minh họa thông qua bài toán ước lượng lợi suất giáo dục đối với tiền lương, thông qua phần mềm R và gói lệnh Mgcv.
Bùi Thị Thiện Mỹ, Bộ Môn Toán Kinh tế, Trường Đại học Ngân Hàng TP. HCM
Email: mybtt@buh.edu.vn
Dữ liệu mất cân bằng là một vấn đề thu hút sự quan tâm lớn trong các bài toán phân loại. Khi dữ liệu đầu vào mất cân bằng, các mô hình phân loại thường nhận diện kém các phần tử thuộc nhóm thiểu số. Hiệu quả của mô hình càng giảm khi dữ liệu vừa mất cân bằng vừa có các phần tử nhiễu hoặc có sự chồng chéo giữa các nhóm tính chất. Mặc dù đã có rất nhiều nghiên cứu xử lý dữ liệu mất cân bằng, rất ít nghiên cứu xử lý đồng thời tình trạng dữ liệu bị mất cân bằng, có phần tử nhiễu và có các phần tử chồng chéo giữa các nhóm. Các nghiên cứu như thế lại không dễ tiếp cận được phương pháp tính toán. Vì thế, chúng tôi đề xuất một thuật toán mới, đặt tên là TOUS. Thuật toán là sự kết hợp của các phương pháp như liên kết Tomk, lấy mẫu ngẫu nhiên quá mức và lấy mẫu ngẫu nhiên dưới mức. TOUS tạo ra một họ các tập huấn luyện cân bằng có số phần tử khác nhau. Các tập dữ liệu cân bằng này là đầu vào của các mô hình kết hợp (ensemble model) xử lý song song. Để minh họa hiệu quả của TOUS, chúng tôi thiết kế hai mô hình phân loại kết hợp gọi là LLE (Lasso-Logistic Emsemble) và DTE (Decision Tree Ensemble) dựa trên các bộ học cơ bản là hồi quy Lasso-Logistic và Cây quyết định. Kết quả thử nghiệm LLE và DTE trên sáu bộ dữ liệu thực cho thấy hiệu quả vượt trội so với các mô hình phân loại thông thường ngay cả khi áp dụng các kỹ thuật xử lý mất cân bằng phổ biến.