LUCIE — trí tuệ nhân tạo thực sự mã nguồn mở, được xây dựng dựa trên tính minh bạch, sự tin cậy và hiệu quả.
LUCIE không chỉ là một hệ thống mở, mà còn đặc biệt minh bạch và đáng tin cậy. Ngay từ khi thành lập, mọi quyết định đều được định hướng bởi các nguyên tắc về sự tin cậy, công bằng và trách nhiệm. Dù trong lĩnh vực giáo dục, chính phủ hay nghiên cứu, LUCIE được thiết kế để trở thành một mô hình mà bạn có thể tin tưởng.
Nguồn gốc của chúng tôi
Hành trình phát triển LUCIE bắt đầu vào tháng 6 năm 2023 khi LINAGORA quyết định khởi xướng cộng đồng OpenLLM France, tập hợp các nhà đóng góp (>900 thành viên vào tháng 1 năm 2025) với mục tiêu xây dựng AI tạo sinh mở phù hợp với các giá trị chung của châu Âu. Đến tháng 2 năm 2024, cộng đồng này đã phát triển thành OpenLLM Europe, nhằm kết nối và củng cố các sáng kiến châu Âu cho các mô hình AI tạo sinh mở và có đạo đức. Để đưa tầm nhìn này đi xa hơn, LINAGORA đã dẫn dắt liên minh OpenLLM France, được thành lập cùng với 11 đối tác từ cộng đồng, để tham gia lời kêu gọi dự án "Communs Numériques dans le domaine de l'IA Générative". Giờ đây, với tư cách là quán quân France 2030, liên minh này bắt đầu một sứ mệnh kéo dài hai năm từ cuối năm 2024 nhằm tạo ra các tài nguyên chung về AI tạo sinh mở, với trọng tâm đặc biệt vào giáo dục và lĩnh vực EdTech. Một cột mốc quan trọng đã được thiết lập vào cuối năm 2023, khi LINAGORA bắt đầu huấn luyện LUCIE với sự hỗ trợ của cộng đồng, đặc biệt là từ GENCI (Grand Équipement National de Calcul Intensif) để truy cập vào siêu máy tính Jean Zay. Đến tháng 1 năm 2025, việc ra mắt LUCIE đánh dấu một bước tiến quan trọng trong việc cung cấp một mô hình AI thực sự mã nguồn mở, có đạo đức và hiệu quả cho châu Âu và hơn thế nữa.
Điều gì khiến LUCIE thực sự là mã nguồn mở?
Dữ liệu minh bạch
Tất cả các bộ dữ liệu huấn luyện đều được mở và cấp phép cho mục đích sử dụng công cộng. Từ thu thập đến quản lý, chúng tôi đảm bảo tính minh bạch ở mọi giai đoạn.
Thuật toán mở
Phương pháp huấn luyện, quy trình tối ưu hóa và "bí quyết độc quyền" của chúng tôi được ghi chép đầy đủ và cung cấp công khai để mọi người có thể khám phá, sử dụng và cải thiện.
Mô hình có thể truy cập tự do
Trọng số, điểm kiểm tra và mã nguồn của LUCIE được cung cấp theo giấy phép Apache 2.0. Giấy phép linh hoạt và không giới hạn này cho phép bất kỳ ai trên thế giới sử dụng, điều chỉnh và triển khai mô hình cho bất kỳ mục đích nào, đảm bảo khả năng tiếp cận thực sự và đổi mới toàn cầu.
Thiết kế vì chủ quyền và tính bền vững
LUCIE được tạo ra để giải quyết những thách thức độc đáo trong việc xây dựng trí tuệ nhân tạo có đạo đức, hiệu quả và dễ tiếp cận.
Chủ quyền châu Âu
LUCIE thể hiện cam kết với các giá trị châu Âu, tôn trọng sự đa dạng văn hóa, thúc đẩy phát triển AI có đạo đức và tuân thủ Đạo luật AI.
Nhỏ gọn và hiệu quả
Tối ưu hóa cho các môi trường tài nguyên thấp, kiến trúc của LUCIE cho phép triển khai trên hạ tầng "thiếu GPU" và thậm chí cả trên thiết bị di động.
Trách nhiệm sinh thái
Bằng cách ưu tiên chất lượng hơn số lượng trong dữ liệu huấn luyện, chúng tôi đảm bảo tác động môi trường thấp hơn mà không làm giảm hiệu suất.
Trải nghiệm LUCIE ngay
Bạn có thể kiểm tra khả năng của LUCIE trực tiếp thông qua nền tảng SaaS chuyên dụng của chúng tôi, hiện có sẵn tại LUCIE.chat. Dù bạn muốn khám phá hiệu suất mô hình hay tích hợp nó vào quy trình làm việc của mình, nền tảng này cung cấp quyền truy cập liền mạch vào các tính năng của LUCIE.
Thử ngay
Số liệu về LUCIE
7 tỷ tham số
Kích thước mô hình: 7 tỷ tham số – nhỏ gọn và tối ưu hóa cho hiệu suất cao trong nhiều ứng dụng khác nhau. Năm 2025, chúng tôi sẽ phát triển một phiên bản nhỏ gọn hơn của LUCIE (<3B).
3,1 nghìn tỷ token
Bộ dữ liệu huấn luyện: 3,1 nghìn tỷ token, được tuyển chọn cẩn thận để cân bằng giữa chất lượng và sự đa dạng, bao gồm tiếng Pháp, tiếng Anh, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và mã lập trình.
600 nghìn giờ GPU
Số giờ huấn luyện: Hơn 600.000 giờ GPU trên siêu máy tính Jean Zay, sử dụng song song 512 GPU NVIDIA H100.
Ngôn ngữ được hỗ trợ
Hỗ trợ đa ngôn ngữ, tập trung đặc biệt vào tiếng Pháp và các ngôn ngữ chính của châu Âu, đảm bảo sự đại diện về văn hóa và ngôn ngữ.
2023-2025
Lộ trình phát triển: Quá trình huấn luyện bắt đầu vào cuối năm 2023, dẫn đến việc ra mắt mô hình vào tháng 1 năm 2025.
Tương lai của LUCIE vào năm 2025
Hành trình của LUCIE không dừng lại ở đây. Lộ trình năm 2025 của chúng tôi đặt ra các cột mốc quan trọng nhằm nâng cao khả năng và mở rộng ứng dụng của mô hình:
Cải thiện tinh chỉnh và bộ công cụ tốt hơn cho những nhà phát triển AI
Chúng tôi sẽ cải thiện khả năng làm theo hướng dẫn của LUCIE (fine-instruct), giới thiệu tính năng gọi hàm để tích hợp tốt hơn với các hệ thống bên ngoài, và phát hành ít nhất một mô hình có dưới 3 tỷ tham số nhằm đảm bảo khả năng tiếp cận trong các môi trường có tài nguyên hạn chế.
Tạo sinh nâng cao kết hợp truy xuất (RAG)
LUCIE sẽ được trang bị chức năng RAG nâng cao, giúp tận dụng các cơ sở tri thức bên ngoài để cung cấp câu trả lời chính xác và phù hợp với ngữ cảnh hơn.
Mở rộng đa phương thức với hỗ trợ giọng nói
Chúng tôi sẽ mở rộng khả năng của LUCIE sang AI đa phương thức, tập trung vào xử lý giọng nói bằng tiếng Pháp, mở ra những cơ hội mới cho các ứng dụng trong giáo dục, hỗ trợ tiếp cận và hơn thế nữa.
Khung AI tác nhân
LUCIE sẽ phát triển thành một khung AI tác nhân mạnh mẽ, tận dụng khả năng của mình để hỗ trợ các hệ thống tự động và làm nền tảng cho các Mô hình Hành động Lớn (LAM), đồng thời duy trì tính minh bạch, sự tin cậy và các cam kết đạo đức.
Tham gia phong trào LUCIE
LUCIE không chỉ là một mô hình—đây là một nỗ lực cộng đồng nhằm định hình lại tương lai của AI. Khi tham gia cùng chúng tôi, bạn góp phần xây dựng một AI phù hợp với các giá trị chung về tính mở, minh bạch và đáng tin cậy.