Một sự hiểu biết mới về Batch bình thường hóa

Batch Normalization (BN) đã được giới thiệu bởi [1] vào năm 2015. Kể từ đó, nó đã được sử dụng trong các mô hình học tập sâu nhất để cải thiện đào tạo và sự mạnh mẽ trong việc lựa chọn tốc độ học tập cũng như khởi tạo tham số.

BN được thiết kế để giảm Chuyển dịch đồng biến nội bộ (ICS) của từng lớp đầu vào của lớp bằng cách chuẩn hóa hai thời điểm đầu tiên - trung bình và phương sai. Đồng thời không ảnh hưởng đến khả năng của mạng trong việc tạo ra phân phối kích hoạt mong muốn bằng cách sử dụng một cặp tham số có thể học được (gamma và beta).

Một bài báo gần đây [2], đã làm sáng tỏ một số điều mới về BN và hiệu suất đạt được bằng cách sử dụng kỹ thuật chuẩn hóa. Dựa trên các thí nghiệm, nó báo cáo:

  • ICS không phải là một yếu tố dự báo tốt về hiệu suất đào tạo
  • Hiệu suất đạt được khi sử dụng BN không xuất phát từ việc giảm ICS
  • BN thay vì cung cấp hiệu ứng làm mịn trên cảnh quan tối ưu hóa, giúp cải thiện độ mạnh của các mô hình thành siêu tham số như tốc độ học tập.

Thí nghiệm 1

Hình 1 bên dưới (lấy từ [2]) cho thấy ba bộ đào tạo mạng VGG. Mạng đầu tiên được đào tạo mà không có BN, mạng thứ hai được đào tạo với BN; cuối cùng, mạng thứ ba được tiêm không ổn định phân phối sau mỗi BN được sử dụng bằng cách thêm nhiễu phương sai khác nhau theo thời gian, trung bình khác không và không đơn vị. Tiếng ồn về cơ bản gây ra một ICS cao, có thể cao hơn cài đặt tiêu chuẩn.

Hình 1 [2], kết quả thí nghiệm 1

Kết quả chứng minh rằng ngay cả khi tăng ICS bằng cách thêm nhiễu, hiệu suất vẫn đạt được (đường màu hồng). Điều này chỉ ra việc giảm ICS không phải là yếu tố gây ra sự cải thiện về hiệu suất.

Thí nghiệm 2

Đối với mỗi lớp mạng thần kinh, ICS nắm bắt sự thay đổi của chính vấn đề tối ưu hóa do thay đổi đầu vào của từng lớp khi các tham số của các lớp trước được cập nhật bằng cách sử dụng độ dốc. Như một phản ứng của ’shift, mỗi lớp cần điều chỉnh các tham số của nó, thường gây ra sự biến mất hoặc nổ của gradient [1].

Ý tưởng thay đổi cảnh quan tối ưu hóa này cũng sẽ được phản ánh bằng các thay đổi về độ dốc của các tham số lớp. Thay đổi cao hơn về độ dốc sẽ phản ánh một thay đổi lớn hơn trong cảnh quan tối ưu hóa. [2] nắm bắt điều này bằng cách đo sự khác biệt giữa độ dốc của từng lớp trước (G) và sau khi cập nhật cho tất cả các lớp trước đó (G đấm). Giá trị nhỏ hơn của chênh lệch l2 sẽ chỉ ra một ICS nhỏ hơn, vì cảnh quan vẫn tương tự.

Hình 2 [2], kết quả thí nghiệm 2

[2] điều tra thêm về liên kết giữa ICS và BN bằng cách vẽ sự khác biệt l2 (và góc cosin) của hai độ dốc, xem trong hình 2. Từ hình trên, có thể thấy rằng sử dụng BN không biểu thị mức giảm của ICS.

Vì vậy, Batch bình thường hóa làm gì sau đó?

Một cảnh quan tối ưu hóa mạng nơ-ron sâu có thể bao gồm nhiều vùng phẳng và các đường xoắn sắc nét, khiến cho vấn đề không lồi lõm. Các vùng như vậy dẫn đến độ dốc biến mất (vùng phẳng) hoặc nổ độ dốc (độ dốc sắc nét). Điều này làm tăng độ nhạy cảm với tốc độ học tập và khởi tạo các tham số, làm cho việc tối ưu hóa không ổn định.

[2] đề cập đến Môi cao hơn của độ dốc sử dụng BN, điều này có nghĩa là độ mịn của cảnh quan tối ưu hóa cao hơn. Điều này có thể được quan sát trong hình 3, sơ đồ tính toán độ dốc của tổn thất ở bước đào tạo và đo lường mức độ tổn thất thay đổi theo hướng dốc đó.

Hình 3 [2]

Từ hình 3, BN cho một hồ sơ mượt mà hơn. Điều này làm cho độ dốc dễ dự đoán hơn, nghĩa là, ở mỗi bước, nhiều khả năng độ dốc vẫn tương tự cho các bước gần trong tương lai. Dự đoán như vậy cho phép thực hiện các bước lớn hơn theo hướng của gradient mà không mất đi sự ổn định.

Cuối cùng, [2] cũng kết luận rằng hiệu ứng làm mịn của BN có thể là lý do để khái quát hóa mạng tốt hơn. Đây là beacuse BN đẩy tối ưu hóa về phía cực tiểu phẳng.

Người giới thiệu:
[1] Ioffe S, Szegedy C. Batch normalization: Tăng tốc đào tạo mạng lưới sâu bằng cách giảm sự thay đổi đồng biến nội bộ. bản in sẵn arXiv arXiv: 1502.03167. 2015 ngày 11 tháng 2.
[2] Santurkar S, Tsipras D, Ilyas A, Madry A. Batch Bình thường hóa giúp tối ưu hóa như thế nào? (Không, nó không phải là về sự thay đổi đồng biến nội bộ). bản in sẵn arXiv arXiv: 1805.11604. 2018 ngày 29 tháng 5.