Nguồn gốc của chúng tôi

Hành trình phát triển LUCIE bắt đầu vào tháng 6 năm 2023 khi LINAGORA quyết định khởi xướng cộng đồng OpenLLM France, tập hợp các nhà đóng góp (>900 thành viên vào tháng 1 năm 2025) với mục tiêu xây dựng AI tạo sinh mở phù hợp với các giá trị chung của châu Âu. Đến tháng 2 năm 2024, cộng đồng này đã phát triển thành OpenLLM Europe, nhằm kết nối và củng cố các sáng kiến châu Âu cho các mô hình AI tạo sinh mở và có đạo đức. Để đưa tầm nhìn này đi xa hơn, LINAGORA đã dẫn dắt liên minh OpenLLM France, được thành lập cùng với 11 đối tác từ cộng đồng, để tham gia lời kêu gọi dự án "Communs Numériques dans le domaine de l'IA Générative". Giờ đây, với tư cách là quán quân France 2030, liên minh này bắt đầu một sứ mệnh kéo dài hai năm từ cuối năm 2024 nhằm tạo ra các tài nguyên chung về AI tạo sinh mở, với trọng tâm đặc biệt vào giáo dục và lĩnh vực EdTech. Một cột mốc quan trọng đã được thiết lập vào cuối năm 2023, khi LINAGORA bắt đầu huấn luyện LUCIE với sự hỗ trợ của cộng đồng, đặc biệt là từ GENCI (Grand Équipement National de Calcul Intensif) để truy cập vào siêu máy tính Jean Zay. Đến tháng 1 năm 2025, việc ra mắt LUCIE đánh dấu một bước tiến quan trọng trong việc cung cấp một mô hình AI thực sự mã nguồn mở, có đạo đức và hiệu quả cho châu Âu và hơn thế nữa.

ai-partner ai-partner ai-partner ai-partner ai-partner ai-partner ai-partner ai-partner ai-partner ai-partner

Điều gì khiến LUCIE thực sự là mã nguồn mở?

solution

Dữ liệu minh bạch

Tất cả các bộ dữ liệu huấn luyện đều được mở và cấp phép cho mục đích sử dụng công cộng. Từ thu thập đến quản lý, chúng tôi đảm bảo tính minh bạch ở mọi giai đoạn.

solution

Thuật toán mở

Phương pháp huấn luyện, quy trình tối ưu hóa và "bí quyết độc quyền" của chúng tôi được ghi chép đầy đủ và cung cấp công khai để mọi người có thể khám phá, sử dụng và cải thiện.

solution

Mô hình có thể truy cập tự do

Trọng số, điểm kiểm tra và mã nguồn của LUCIE được cung cấp theo giấy phép Apache 2.0. Giấy phép linh hoạt và không giới hạn này cho phép bất kỳ ai trên thế giới sử dụng, điều chỉnh và triển khai mô hình cho bất kỳ mục đích nào, đảm bảo khả năng tiếp cận thực sự và đổi mới toàn cầu.

Thiết kế vì chủ quyền và tính bền vững

LUCIE được tạo ra để giải quyết những thách thức độc đáo trong việc xây dựng trí tuệ nhân tạo có đạo đức, hiệu quả và dễ tiếp cận.

solution

Chủ quyền châu Âu

LUCIE thể hiện cam kết với các giá trị châu Âu, tôn trọng sự đa dạng văn hóa, thúc đẩy phát triển AI có đạo đức và tuân thủ Đạo luật AI.

solution

Nhỏ gọn và hiệu quả

Tối ưu hóa cho các môi trường tài nguyên thấp, kiến trúc của LUCIE cho phép triển khai trên hạ tầng "thiếu GPU" và thậm chí cả trên thiết bị di động.

solution

Trách nhiệm sinh thái

Bằng cách ưu tiên chất lượng hơn số lượng trong dữ liệu huấn luyện, chúng tôi đảm bảo tác động môi trường thấp hơn mà không làm giảm hiệu suất.

Trải nghiệm LUCIE ngay

Bạn có thể kiểm tra khả năng của LUCIE trực tiếp thông qua nền tảng SaaS chuyên dụng của chúng tôi, hiện có sẵn tại LUCIE.chat. Dù bạn muốn khám phá hiệu suất mô hình hay tích hợp nó vào quy trình làm việc của mình, nền tảng này cung cấp quyền truy cập liền mạch vào các tính năng của LUCIE.

Thử ngay
linagora

Số liệu về LUCIE

7 tỷ tham số

Kích thước mô hình: 7 tỷ tham số – nhỏ gọn và tối ưu hóa cho hiệu suất cao trong nhiều ứng dụng khác nhau. Năm 2025, chúng tôi sẽ phát triển một phiên bản nhỏ gọn hơn của LUCIE (<3B).

3,1 nghìn tỷ token

Bộ dữ liệu huấn luyện: 3,1 nghìn tỷ token, được tuyển chọn cẩn thận để cân bằng giữa chất lượng và sự đa dạng, bao gồm tiếng Pháp, tiếng Anh, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và mã lập trình.

600 nghìn giờ GPU

Số giờ huấn luyện: Hơn 600.000 giờ GPU trên siêu máy tính Jean Zay, sử dụng song song 512 GPU NVIDIA H100.

Ngôn ngữ được hỗ trợ

Hỗ trợ đa ngôn ngữ, tập trung đặc biệt vào tiếng Pháp và các ngôn ngữ chính của châu Âu, đảm bảo sự đại diện về văn hóa và ngôn ngữ.

2023-2025

Lộ trình phát triển: Quá trình huấn luyện bắt đầu vào cuối năm 2023, dẫn đến việc ra mắt mô hình vào tháng 1 năm 2025.

Tương lai của LUCIE vào năm 2025

Hành trình của LUCIE không dừng lại ở đây. Lộ trình năm 2025 của chúng tôi đặt ra các cột mốc quan trọng nhằm nâng cao khả năng và mở rộng ứng dụng của mô hình:

Q1

Cải thiện tinh chỉnh và bộ công cụ tốt hơn cho những nhà phát triển AI

Chúng tôi sẽ cải thiện khả năng làm theo hướng dẫn của LUCIE (fine-instruct), giới thiệu tính năng gọi hàm để tích hợp tốt hơn với các hệ thống bên ngoài, và phát hành ít nhất một mô hình có dưới 3 tỷ tham số nhằm đảm bảo khả năng tiếp cận trong các môi trường có tài nguyên hạn chế.

Q2

Tạo sinh nâng cao kết hợp truy xuất (RAG)

LUCIE sẽ được trang bị chức năng RAG nâng cao, giúp tận dụng các cơ sở tri thức bên ngoài để cung cấp câu trả lời chính xác và phù hợp với ngữ cảnh hơn.

Q3

Mở rộng đa phương thức với hỗ trợ giọng nói

Chúng tôi sẽ mở rộng khả năng của LUCIE sang AI đa phương thức, tập trung vào xử lý giọng nói bằng tiếng Pháp, mở ra những cơ hội mới cho các ứng dụng trong giáo dục, hỗ trợ tiếp cận và hơn thế nữa.

Q4

Khung AI tác nhân

LUCIE sẽ phát triển thành một khung AI tác nhân mạnh mẽ, tận dụng khả năng của mình để hỗ trợ các hệ thống tự động và làm nền tảng cho các Mô hình Hành động Lớn (LAM), đồng thời duy trì tính minh bạch, sự tin cậy và các cam kết đạo đức.