# LLM-DataDist-interface-list【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/geLLM-DataDist大模型分布式集群和数据加速组件提供了集群KV数据管理能力以支持全量图和增量图分离部署。支持的产品形态如下Atlas A2 推理系列产品Atlas A3 训练系列产品/Atlas A3 推理系列产品当前仅支持Python3.9与Python3.11。安装方法请参考Python官网https://www.python.org/。最大注册50GB的Device内存。注册内存越大占用的OS内存越多。LLM-DataDist-interface-list如下。LLM-DataDist表 1LLM-DataDist接口接口名称简介LLMDataDist-constructor构造LLMDataDist。init初始化LLMDataDist。finalize释放LLMDataDist。link_clusters建链。unlink_clusters断链。check_link_status调用此接口可快速检测链路状态是否正常。kv_cache_manager获取KvCacheManager实例。switch_role切换当前LLMDataDist的角色建议仅在使用PagedAttention的场景使用。LLMConfig表 2LLMConfig接口接口名称简介LLMConfig-constructor构造LLMConfig。generate_options生成配置项字典。device_id设置当前进程Device ID对应底层ge.exec.deviceId配置项。sync_kv_timeout配置拉取kv等接口超时时间对应底层llm.SyncKvCacheWaitTime配置项。enable_switch_role配置是否支持角色平滑切换对应底层llm.EnableSwitchRole配置项。ge_options配置额外的GE配置项。listen_ip_infoPROMPT侧设置集群侦听信息对应底层llm.listenIpInfo配置项。mem_utilization配置ge.flowGraphMemMaxSize内存的利用率。默认值0.95。buf_pool_cfg用户指定内存档位配置提高内存申请性能和使用率。KvCacheManager表 3KvCacheManager接口接口名称简介KvCacheManager-constructor介绍KvCacheManager-constructor。is_initialized查询KvCacheManager实例是否已初始化。allocate_cache分配CacheCache分配成功后会同时被cache_id与cache_keys引用只有当这些引用都解除后cache所占用的资源才会实际释放。deallocate_cache释放Cache。remove_cache_key移除CacheKey仅当LLMRole为PROMPT时可调用。pull_cache根据CacheKey从对应的Prompt节点拉取KV到本地KV Cache仅当LLMRole为DECODER时可调用。copy_cache拷贝KV。get_cache_tensors获取cache tensor。allocate_blocks_cachePagedAttention场景下分配多个blocks的Cache。pull_blocksPagedAttention场景下根据BlocksCacheKey通过block列表的方式从对应的Prompt节点拉取KV到本地KV Cache仅当LLMRole为DECODER时可调用。copy_blocksPagedAttention场景下拷贝KV。swap_blocks对cpu_cache和npu_cache进行换入换出。transfer_cache_async异步分层传输KV Cache。KvCache表 4KVCache接口接口名称简介KvCache-constructor构造KVCache。cache_id获取KvCache的id。cache_desc获取KvCache描述。per_device_tensor_addrs获取KvCache的地址。create_cpu_cache创建cpu cache。LLMClusterInfo表 5LLMClusterInfo接口接口名称简介LLMClusterInfo-constructor构造LLMClusterInfo。remote_cluster_id设置对端集群ID。append_local_ip_info添加本地集群IP信息。append_remote_ip_info添加远端集群IP信息。CacheTask表 6CacheTask接口名称简介CacheTask-constructor构造CacheTask。synchronize等待所有层传输完成并获取整体执行结果。get_results等待所有层传输完成并获取每个TransferConfig对应执行结果。其他表 7其他接口名称简介LLMRoleLLMRole的枚举值。PlacementCacheDesc的字段表示cache所在的设备类型。CacheDesc构造CacheDesc。CacheKey构造CacheKey。CacheKeyByIdAndIndex构造CacheKeyByIdAndIndex通常在pull_cache接口中作为参数类型使用。BlocksCacheKeyPagedAttention场景下构造BlocksCacheKey。LayerSynchronizer等待模型指定层执行完成用户需要继承LayerSynchronizer并实现该接口。该接口会在执行KvCacheManager.transfer_cache_async时被调用当该接口返回成功则开始当前层cache的传输。TransferConfig构造TransferConfig。TransferWithCacheKeyConfig构造TransferWithCacheKeyConfig。LLMException获取异常的error-code。error-code列表详见LLMStatusCode。LLMStatusCodeLLMStatusCode的枚举值。DataTypeDataType的枚举类。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考