66B là một mô hình ngôn ngữ có khoảng 66 tỷ tham số, được thiết kế để hiểu và sinh văn bản ở nhiều ngữ cảnh và lĩnh vực.
66B chủ yếu là mô hình ngôn ngữ theo hướng decoder với nhiều lớp Transformer, kích thước embedding lớn và cơ chế chú ý đa đầu.
66B được huấn luyện trên tập dữ liệu đa dạng gồm văn bản công khai, sách, bài báo và nội dung web. Quá trình huấn luyện tốn chi phí tính toán lớn và đòi hỏi kỹ thuật tối ưu hóa, như tối ưu bằng độ chính xác hỗn hợp để cân bằng hiệu suất và tài nguyên.
66B thể hiện khả năng hiểu và sinh văn bản tự nhiên, hỗ trợ trả lời câu hỏi, tóm tắt nội dung, hỗ trợ viết mã và nhiều tác vụ NLP khác trên nhiều ngữ cảnh và nền tảng.
Những thách thức lớn gồm chi phí vận hành, đảm bảo an toàn, công bằng và minh bạch; đồng thời cần chiến lược giảm thiểu rủi ro và cải thiện khả năng kiểm soát đầu ra.