Openai đã tạo ra một tuyệt tác công nghệ mới như thế nào Chatgpt
Sau khi ra mắt chatgpt qua OPENAI nó đã trở thành một buzz trên thị trường. Thế giới mới của robot đã xuất hiện. Đây là phần mở rộng của mẫu GPT-3 trước đó của OPENAI. Trong bài viết này, tôi sẽ giải thích kiến trúc của Chatgpt và cách nó được đào tạo.
Các mô hình GPT dựa trên kiến trúc Máy biến áp trong đó trong máy biến áp có cả khối bộ mã hóa & bộ giải mã, GPT chỉ sử dụng khối bộ giải mã.
Về cơ bản, có 3 bước trong quá trình đào tạo chatgpt như được đưa ra trong hình ảnh sau đây.
bên trong bước đầu tiên, dữ liệu được gắn nhãn thủ công, nghĩa là câu đầu vào và câu đầu ra tương ứng của nó được người dán nhãn gắn thẻ thủ công, sau đó dữ liệu này được sử dụng để tinh chỉnh mô hình GPT-3 bằng tính năng học có giám sát (gọi mô hình này là SFT–Tinh chỉnh có giám sát). Một điều quan trọng ở đây là mô hình GPT-3 được tinh chỉnh sẽ đưa ra các phản hồi khác nhau cho cùng một lời nhắc (đầu vào) vì phương pháp lấy mẫu cho các phản hồi không tham lam (như được sử dụng trong hầu hết các mô hình ML) thay vì ở đây là phương pháp lấy mẫu cho các phản hồi là Nhiệt độ.
Nếu giá trị của nhiệt độ gần bằng 0, nó sẽ tạo ra cùng một đầu ra cho một dấu nhắc nhất định (đó là một cách tiếp cận tham lam) và khi chúng ta tăng giá trị của nhiệt độ gần bằng một thì tính ngẫu nhiên trong phản hồi tăng lên và chúng ta nhận được các phản hồi khác nhau cho cùng một đầu vào.
Trong bước thứ hai, mô hình SFT được tạo ở bước 1 được sử dụng để tạo nhiều phản hồi cho cùng một lời nhắc (đầu vào). Trong hình đã cho, 4 phản hồi được tạo ra. Sau đó, người dán nhãn xếp hạng các phản hồi này theo cách thủ công về mức độ liên quan của chúng với lời nhắc (đầu vào) ban đầu xét về tính thực tế và các đặc điểm giống con người. Sau đó, dữ liệu này được sử dụng để đào tạo một mô hình phần thưởng, cũng là mô hình GPT với đầu vào là một câu & câu trả lời và đầu ra là một phần thưởng (số tỷ lệ). Minh họa trong hình bên dưới.
Ở đây, điều quan trọng cần lưu ý là hàm mất mát được sử dụng trong mô hình phần thưởng này. Sau đây là hàm mất mát.
Về cơ bản, nó là một bản ghi âm của hàm sigmoid, giả định rằng phản hồi 1 luôn tốt hơn phản hồi 2, v.v. Câu lệnh trên có thể được xác minh là, giả sử chỉ có 2 phản hồi (nghĩa là 2 phản hồi được xem xét, thì hàm mất mát sẽ như sau:
Bây giờ, hãy xem phương trình nếu r1 lớn hơn r2 thì tổn thất sẽ là nhỏ nhất. Nếu r2 trở nên lớn hơn r1 thì tổn thất sẽ tiếp tục tăng.
Trong bước thứ ba, cả hai mô hình được đào tạo trước đó SFT & RM đều được sử dụng và mô hình SFT được tối ưu hóa và cập nhật bằng cách sử dụng Học tăng cường. Một dấu nhắc mới được đưa vào mô hình SFT và các phản hồi khác nhau được tạo cho một dấu nhắc duy nhất. Sau đó, lời nhắc và phản hồi này được đưa vào mô hình phần thưởng và phần thưởng được tạo ra. Sau khi tạo phần thưởng, bước lan truyền ngược được thực hiện trong đó phần thưởng được tạo lại được đưa vào mô hình SFT và mô hình được cập nhật bằng cách sử dụng tối ưu hóa chính sách gần nhất (PPO).
Mục tiêu của PPO là tối đa hóa phần thưởng bằng cách sử dụng chính phần thưởng đó trong hàm mất mát.
Người giới thiệu:
https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf
Mới giao dịch? Hãy thử bot giao dịch tiền điện tử hoặc sao chép giao dịch trên các sàn giao dịch tiền điện tử tốt nhất