/ tin tức/ngày 28 tháng 4 năm 2023 guangzhou tin tức -- với sự phát triển của máy học tập, các mô hình và mô hình đào tạo yêu cầu dữ liệu nhiều hơn và nhiều hơn nữa, cũng có xu hướng được thực hiện thông qua phân phối đào tạo. Và các kỹ sư thuật toán thường cần phải có một sự hiểu biết sâu sắc về hệ thống lưu trữ tập tin và lập lịch bên dưới liên quan đến các khung phân phối này, để có thể nhanh chóng mở mô hình đào tạo để đảm bảo hiệu quả sử dụng tài nguyên. Hiện nay có rất nhiều cơ cấu tương tự trong ngành công nghiệp, chẳng hạn như TonY, TensorFlowOnSpark, nhân viên đào tạo trong Kubeflow, vân vân, nhưng những cơ cấu này có nhiều hoặc ít vấn đề, Như với khuôn khổ học tập cố định của máy (Tensorflow, Pytorch) cần thiết để ghi các vai trò, chẳng hạn như PS, nhân viên, dung nạp lỗi và linh hoạt, hỗ trợ không thân thiện, không hỗ trợ việc phân bố phân nhánh, lịch trình là đơn giản hơn, không hỗ trợ việc đọc tập tin, và như vậy.
< chính trị > giải phóng các kỹ sư thuật toán khỏi những chi tiết nặng nề bên dưới, tập trung nhiều hơn vào các thuật toán, đó là vấn đề được giải quyết bởi chính trị >< chính trị >Primus chính trị >< chính trị >< chính trị >.
hoạt động hàng ngày triệu byte nhảy thực hành
sau khi các byte nhảy trong các thực hành liên tục điều chỉnh đánh bóng Primus, có các khả năng sau đây để hỗ trợ các nhu cầu kinh doanh:
đào tạo khung: Ngoài công nghiệp mã nguồn mở Tensorflow, Pytorch, để đáp ứng nhu cầu của người dùng, các byte cũng đã được khám phá sâu trong trường hợp máy học tập, tự nghiên cứu nhiều khung đào tạo để đáp ứng nhu cầu của người dùng;
có hệ thống quy hoạch tài nguyên cơ bản của thể thao và Kubernetes: giai đoạn hiện tại trong quá trình di cư của thể thao đến Kubernetes, trong quá trình này, bạn cần phải che đậy hệ thống quy hoạch cơ bản của người dùng, cung cấp một kinh nghiệm nhất định;
quy mô lớn hỗn hợp tài nguyên: do hỗn hợp tài nguyên không ổn định đặc điểm, yêu cầu cao hơn về dung sai và ổn định đào tạo;
hỗ trợ phân bổ phức tạp theo ngữ nghĩa: để tối đa hóa khả năng sử dụng tài nguyên cụm, bạn cần phải đặt một container phù hợp vào vị trí thích hợp và cần phải có khả năng điều chỉnh linh động kích cỡ của sự song song và container.
hỗ trợ các nguồn dữ liệu phức tạp và cần lập lịch trình dữ liệu: hỗ trợ một loạt các loại nguồn dữ liệu hỗn hợp, chẳng hạn như HDFS, Kafka và các nguồn dữ liệu hàng loạt, Text, PB, Parquet và các loại dữ liệu khác. Hiện tại cơ cấu đào tạo dòng Primus trong bộ phận byte hỗ trợ lắc, tiêu đề, Tiktok, quảng cáo và hầu hết các doanh nghiệp khác, hoạt động trên Primus mỗi ngày tổng cộng hàng triệu điểm. Hiệu suất đào tạo tăng gấp 3 lần so với khung tập luyện cũ dựa trên Hadoop Streaming, tổng số dữ liệu đào tạo duy nhất được nâng cấp từ TB đến PB, thời gian chuẩn bị đào tạo giảm từ vài phút xuống cấp thứ hai.
phân phối cơ cấu lịch trình đào tạo Primus
một cơ cấu lịch trình đào tạo chung quản lý vòng đời của cơ cấu đào tạo máy học tập (như Tensorflow, Pytorch) và phân phối dữ liệu để giúp cơ cấu đào tạo đạt được khả năng phân phối tốt hơn.
kiến trúc giới thiệu
tổng thể cấu trúc
toàn bộ cuộc sống của Primus được chia thành hai giai đoạn, giai đoạn gửi và giai đoạn thực hiện.
< chính trị > giai đoạn trình bày
người dùng cần mô tả các nguồn huấn luyện, nhập liệu và chính sách dung sai cho toàn bộ nhiệm vụ.đào tạo tài nguyên bao gồm các vai trò cần thiết (chẳng hạn như PS, nhân viên, vv) và các tài nguyên cần thiết cho các vai trò, bao gồm cả CPU, bộ nhớ cần thiết và chạy tập tin, biến môi trường, vv. Nhập dữ liệu để mô tả cách cung cấp dữ liệu cho bộ huấn luyện. Chính sách dung nạp lỗi được dùng để mô tả hoạt động mà Primus cần làm khi gặp lỗi. Client Primus trình bày ứng dụng Primus Master(AM sau đó) để quản lý việc chạy tập hợp công việc Primus bằng cách trình bày thể trạng của YARN hoặc tập tin Kubernetes dựa trên cấu hình của người dùng.
< chính trị > giai đoạn thực hiện
khi công việc được nộp vào nhóm, AM sẽ áp dụng một số Executor cho quản lý Resource dựa trên cấu hình của người dùng và kéo lên vai trò tương ứng, Trong quá trình tiếp tục theo dõi tình trạng sức khỏe của những nhân vật này, nếu tình trạng bất thường được tìm thấy, AM sẽ phù hợp với cấu hình người dùng để đảm bảo hoạt động phù hợp để đào tạo hoạt động bình thường.
< chính trị > đọc dữ liệu
< chính trị >< p>Primus hỗ trợ đọc dữ liệu đầu ra đến trình đào tạo, có thể đạt được cân bằng tải dữ liệu và ghi lại trạng thái dữ liệu, giảm vấn đề dài đuôi, trong trường hợp một vấn đề trong đào tạo cũng có thể chuyển sang một trình đào tạo bình thường để tiếp tục đào tạo. Thông qua việc quét dữ liệu cần được huấn luyện và phân chia thành công, AM có thể phân phát các công việc cho Executor và ghi lại trạng thái của công việc bằng cách giao tiếp với các công việc. Giới thiệu chức năng [/ p] [p] [/ p] [p] nhiều sự hỗ trợ huấn luyện khung: Tensorflow, PyTorch, Monolith đợi; [/ p] [p] nhiều sự ủng hộ chuyển DuQi: YARN, Kubernetes đợi;
hỗ trợ nhiều vai: chẳng hạn như ps-tie-cpu, nhân viên GPU, nhân viên Evaluator, và hỗ trợ các chính sách kế hoạch đặc biệt như tương phản giữa nhiều vai trò;
nhiều chính sách phối hợp: hỗ trợ cùng một lúc bắt đầu, bắt đầu, bắt đầu theo thứ tự dựa trên vai, vv (chẳng hạn như bắt đầu PS, sau đó bắt đầu công việc);
khoan dung xử lý: công việc thất bại sẽ tự động kéo công việc mới, PS thất bại toàn bộ thất bại;
lập lịch động: chẳng hạn như hỗ trợ việc mở rộng và thu hẹp số lượng Lao động; Hỗ trợ kiểu dữ liệu nhiều nguồn: HDFS, Kafka, vv; [/ p] [p] phụ tải dữ liệu trạng thái cân bằng với bảo tồn: hỗ trợ theo Worker tải trọng lên nó chuyển động phân phối kết Task, như sự ủng hộ ở Worker thất bại khi tái chế Task và tiến hành tái phân phối; [/ p] [p] DuoXianCheng bộ đọc dữ liệu tốc độ cao: ủng hộ DuoXianCheng đọc HDFS và thiết bị đầu ra sau khi Kafka đến huấn luyện, cải thiện TunTu của máy chỉ riêng huấn luyện.
triển khai
Primus hỗ trợ các byte nhảy bên trong "giới thiệu" "quảng cáo" tìm kiếm "và các cảnh như tiêu đề đề, lắc âm thanh và video giới thiệu, tê tê quảng cáo, quảng cáo, lắc âm thanh tìm kiếm và các doanh nghiệp đào tạo với quy mô lớn và sâu, hàng ngày có thể lên đến hàng chục ngàn nhiệm vụ đào tạo, 450W Core sử dụng tài nguyên. Kế hoạch cho tương lai [/ p] [p] [/ p] [p] mã nguồn mở Primus nhiều khả năng hơn sau đó sẽ tiếp tục mở, để biết thêm: https://mp.weixin.qq.com/s/uGBy-WpdjTMUy-7MQAZiww [/ p] [p] Primus hiện tại với lượng byte sẽ lại nợ tiếp quá trình huấn luyện bên trong khuôn khổ liên kết, Tensorflow và Pytorch có thể sử dụng khả năng cơ bản của Primus, và sau đó sẽ phát triển Tensorflow và Pytorch phù hợp với API Primus cho một sự tích hợp sâu hơn, tạo ra một khung huấn luyện mã nguồn mở. Hiện tại, Primus đã mở trên Github, bạn được chào đón để tham gia vào việc xây dựng!