A Huawei, que sempre foi considerada atrasada na competição de modelos em grande escala, finalmente veio com seus caras desta vez.
Não, na Huawei Developer Conference 2023 de ontem, a Huawei se exibiu.
A coletiva de imprensa de quase três horas ainda herdou o estilo miscelânea do passado da Huawei, o que deixou Shichao deslumbrado.
No entanto, resumindo, na verdade, destaca um tema: Pangu Large Model 3.0.
De fato, apenas alguns dias atrás, quando outros grandes modelos ainda comparavam várias classificações, Pangu entrou no campo de visão de todos de uma maneira única, contando com a placa dourada certificada pela revista Nature mais importante do mundo.
Diz-se que com a adição do grande modelo Pangea, a velocidade de previsão do tempo foi aumentada em mais de 10.000 vezes, e os resultados podem ser obtidos em poucos segundos. Onde o tufão virá, quando virá e quando vai sair, pode lhe dar uma previsão clara.
O mais importante é que sua precisão de previsão supera até mesmo o sistema IFS do Centro Meteorológico Europeu, que é conhecido como o mais forte do mundo.É o primeiro produto de previsão de IA que ganhou a previsão numérica tradicional.
Você sabe, a maioria das previsões meteorológicas anteriores de IA foram desenvolvidas com base em redes neurais 2D, mas o clima é muito complicado e o 2D é realmente demais.
Além disso, o modelo de IA anterior continuará a acumular erros de iteração durante o processo de previsão, o que afetará facilmente a precisão dos resultados.
Portanto, os métodos de previsão de IA não são populares.
O modelo meteorológico em grande escala de Pangu é incrível. Eles usaram uma rede neural tridimensional chamada 3DEST para processar dados meteorológicos. Se o 2D não pode fazer isso, eles podem usar o 3D.
Estratégia de Formação e Inferência de Redes 3DEST
Visando o problema do erro de iteração, o modelo também usa uma "estratégia de agregação hierárquica no domínio do tempo" para reduzir o erro de iteração e melhorar a precisão da previsão.
Embora essa palavra pareça fácil de ser enganada, na verdade é muito fácil de entender.
Por exemplo, o modelo anterior de previsão do tempo AI FourCastNet, antes da chegada do tufão, fará uma previsão com 6 horas de antecedência. Durante essas 6 horas, o modelo calculará o tufão muitas vezes quando ele virá.
Pode ser calculado para 5 horas por um tempo, e 4 horas e meia por um tempo, e o erro será grande se esses resultados forem somados.
Mas o Pangu Meteorological Large Model pensou em uma maneira de treinar 4 modelos com diferentes intervalos de previsão, uma iteração por 1 hora e uma iteração por 3 horas, 6 horas e 24 horas.
Em seguida, de acordo com os requisitos específicos de previsão do tempo, selecione o modelo correspondente para iteração.
Por exemplo, se quisermos prever o tempo nos próximos 7 dias, deixe o modelo de 24 horas iterar 7 vezes; prever 20 horas significa 3 iterações do modelo de 6 horas + 2 iterações do modelo de 1 hora.
**Quanto menos iterações, menor o erro. **
Essa onda de operações elevou a previsão do tempo a um novo nível.
No entanto, alguns amigos podem ter começado a murmurar. Os modelos grandes das pessoas são todos imagens e textos gerados. Como a Huawei se tornou uma previsão do tempo?
Uma coisa a dizer, este modelo Pangu é realmente diferente do ChatGPT e do Midjourney com os quais entramos em contato antes. Eles estão fazendo negócios na indústria.
Para entendê-lo simplesmente, significa que nós pessoalmente não usamos o modelo Pangu.
Não é o "inimigo" do ChatGPT que todos esperam, mas é voltado para o mercado To B que não costuma ser acessível. **
Não vamos mencionar a dificuldade ou não, pelo menos os recursos de clientes corporativos que a Huawei acumulou ao longo dos anos são realmente fáceis de sacar.
Além disso, a coletiva de imprensa da Huawei desta vez não trouxe apenas o papel implacável do modelo de previsão do tempo.
Nenhum novo antibiótico foi descoberto por mais de 40 anos, e a droga super antibacteriana Droga X foi encontrada assim que o modelo molecular da droga Pangea veio, e o ciclo de desenvolvimento da droga foi encurtado de vários anos para vários meses, e a pesquisa e desenvolvimento os custos foram reduzidos em 70%.
O grande modelo da Mina Pangu também pode aprofundar mais de 1.000 processos de mineração de carvão, e a seleção de carvão limpo sozinho pode aumentar a taxa de recuperação de carvão limpo de 0,1% a 0,2%.
Você sabe, para uma planta de preparação de carvão com uma produção anual de 10 milhões de toneladas de carvão de coque, cada aumento de 0,1% na taxa de produção de carvão limpo pode aumentar o lucro anual em 10 milhões.
** Isso é tudo dinheiro branco. . . **
De fato, além da previsão do tempo, desenvolvimento de medicamentos e preparação de carvão mencionados acima, o modelo Pangea tem sido usado em muitas indústrias.
Na conferência de imprensa, Tian Qi, cientista-chefe da HUAWEI CLOUD AI, disse que os projetos HUAWEI CLOUD AI foram aplicados a mais de 1.000 projetos, 30% dos quais são usados no sistema de produção principal do cliente, aumentando a lucratividade do cliente em uma média de 18%. % .
A Huawei é capaz de produzir em massa esses grandes modelos de vários setores, graças à arquitetura de três camadas 5+N+X do Huawei Pangu Model 3.0.
É essa estrutura que permite a Pangu pousar rapidamente em vários setores.
Por que você diz isso?
Como a IA está chegando ao setor, os dados são uma grande dificuldade.
Zhang Pingan disse na conferência de imprensa: "Devido à dificuldade em obter dados da indústria e à dificuldade em combinar tecnologia com a indústria, a implementação de grandes modelos na indústria tem sido lenta."
**Pangu é muito engenhoso, através da estrutura de três níveis de 5+N+X, dividiu diretamente este grande problema em 3 pequenos problemas para resolver. **
Em primeiro lugar, os cinco grandes modelos da camada L0 de Pangu aprenderam centenas de terabytes de dados de texto, como conhecimento de enciclopédias, obras literárias, códigos de programas e bilhões de imagens da Internet com rótulos de texto.
Podemos entender que primeiro deixe os modelos grandes L0 de primeiro nível (os cinco modelos grandes básicos de modelo grande de linguagem natural, modelo grande visual, modelo grande multimodal, modelo grande de previsão e modelo grande de computação científica) estabelecer o reconhecimento básico. é um pouco como a etapa de educação de qualidade antes da nossa universidade.
Então, o modelo na segunda camada L1 é formado aprendendo os dados de N indústrias relacionadas a partir de um certo modelo básico grande em L0. É como o estágio de graduação de uma universidade, onde você precisa escolher uma variedade de cursos para estudar.
Por exemplo, a inspeção de imagem de TC no hospital e a inspeção de qualidade de imagem na fábrica usam grandes modelos visuais.
Mas, afinal, um é um hospital e o outro é uma fábrica, e os cenários de uso são completamente diferentes, definitivamente não vai funcionar confiar apenas no modelo grande básico, mas se os dados da indústria forem adicionados, pode haver surpresas.
O último L2 é semelhante aos alunos de pós-graduação e será refinado para uma determinada cena com base em indústrias específicas. Por exemplo, no setor de armazenamento e logística, diferentes modelos de implantação podem ser necessários para o transporte, armazenamento e saída de mercadorias.
Ao mesmo tempo, a Huawei também adicionou um link de feedback, que é um pouco como um estágio na empresa.
Segundo eles, normalmente levava 5 meses para desenvolver um modelo industrial em escala GPT-3 no passado; com esse conjunto de ferramentas, o ciclo de desenvolvimento pode ser reduzido para 1/5 do original.
Ao mesmo tempo, as limitações de pequenos conjuntos de dados em muitos setores também podem ser resolvidas. Por exemplo, uma indústria muito detalhada, como a fabricação de grandes aeronaves, também pode ter modelos grandes.
Além desse conjunto de modelos grandes, a Huawei também propôs uma coisa muito interessante essa localização temporal do poder de computação.
Como todos sabemos, estamos realmente envergonhados em termos de poder de computação de IA.
Primeiro, não podemos comprar o H100/A100 da Nvidia, o equipamento principal da indústria de IA. Segundo, mesmo que a Nvidia tenha lançado "intimamente" um substituto para o H800, ainda temos reservas. Por exemplo, a taxa de transmissão foi muito cortada.
No contexto de um grande modelo que leva vários meses para treinar, é fácil ser ultrapassado por concorrentes estrangeiros com poder de computação mais forte.
E desta vez, para resolver esse problema, a Huawei ainda eliminou alguns caras de verdade.
Por exemplo, em termos de desempenho no papel, o processador Ascend 910 da Huawei já é melhor que o A100 da Nvidia.
No entanto, na prática, ainda existem algumas lacunas. E o A100 também não é a arma definitiva da Nvidia.
No entanto, Shengteng foi reconhecido por muitos amigos. A Huawei afirmou diretamente na coletiva de imprensa que "o poder de computação de metade dos grandes modelos da China é fornecido por eles".
Claro, os pontos positivos da Huawei no poder de computação no momento são mais prováveis de serem provocados por todo o ecossistema de software.
Por exemplo, de acordo com a coletiva de imprensa, conte a AI Ascend Cloud Computing Power Base e a estrutura de computação CANN. . . Em outros aspectos, a eficiência da Huawei no treinamento de modelos grandes é 1,1 vezes maior que a das GPUs convencionais do setor.
Além disso, eles desenvolveram um conjunto completo de pacotes de aplicativos para usuários.
Por exemplo, a Meitu migrou 70 modelos para o ecossistema Huawei em apenas 30 dias. Ao mesmo tempo, a Huawei também afirmou que ** com os esforços de ambas as partes, o desempenho da IA melhorou 30% em comparação com a solução original. **
Ainda bastante impressionante.
Além disso, a Huawei também disse que agora tem quase 4 milhões de desenvolvedores, número que está alinhado com o ecossistema NVIDIA CUDA.
Esta série de ações pode ser considerada como compensando parte das deficiências. **
De um modo geral, depois de assistir a uma coletiva de imprensa da Huawei, os críticos ruins acham que o layout da Huawei em IA é muito profundo e já começaram a pensar na questão "o que a IA realmente pode nos trazer".
Nos últimos seis meses, embora a indústria de IA tenha recebido aplausos estrondosos, é um tanto embaraçoso quando realmente cai para o nível da indústria.
E esta ação da Huawei apenas confirmou o que Ren Zhengfei disse:
*" No futuro, haverá um aumento nos grandes modelos de IA, não apenas na Microsoft. A contribuição direta das empresas de plataforma de software de inteligência artificial para a sociedade humana pode ser inferior a 2%, e 98% é a promoção da sociedade industrial e sociedade agrícola." *
No campo da IA, a verdadeira grande era ainda está por vir.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O modelo grande da Huawei finalmente chegou, minha avaliação é: bastante chocante
Fonte original: crítica ruim
A Huawei, que sempre foi considerada atrasada na competição de modelos em grande escala, finalmente veio com seus caras desta vez.
Não, na Huawei Developer Conference 2023 de ontem, a Huawei se exibiu.
A coletiva de imprensa de quase três horas ainda herdou o estilo miscelânea do passado da Huawei, o que deixou Shichao deslumbrado.
No entanto, resumindo, na verdade, destaca um tema: Pangu Large Model 3.0.
O mais importante é que sua precisão de previsão supera até mesmo o sistema IFS do Centro Meteorológico Europeu, que é conhecido como o mais forte do mundo.É o primeiro produto de previsão de IA que ganhou a previsão numérica tradicional.
Além disso, o modelo de IA anterior continuará a acumular erros de iteração durante o processo de previsão, o que afetará facilmente a precisão dos resultados.
Portanto, os métodos de previsão de IA não são populares.
O modelo meteorológico em grande escala de Pangu é incrível. Eles usaram uma rede neural tridimensional chamada 3DEST para processar dados meteorológicos. Se o 2D não pode fazer isso, eles podem usar o 3D.
Estratégia de Formação e Inferência de Redes 3DEST
Embora essa palavra pareça fácil de ser enganada, na verdade é muito fácil de entender.
Por exemplo, o modelo anterior de previsão do tempo AI FourCastNet, antes da chegada do tufão, fará uma previsão com 6 horas de antecedência. Durante essas 6 horas, o modelo calculará o tufão muitas vezes quando ele virá.
Pode ser calculado para 5 horas por um tempo, e 4 horas e meia por um tempo, e o erro será grande se esses resultados forem somados.
Mas o Pangu Meteorological Large Model pensou em uma maneira de treinar 4 modelos com diferentes intervalos de previsão, uma iteração por 1 hora e uma iteração por 3 horas, 6 horas e 24 horas.
Em seguida, de acordo com os requisitos específicos de previsão do tempo, selecione o modelo correspondente para iteração.
**Quanto menos iterações, menor o erro. **
Essa onda de operações elevou a previsão do tempo a um novo nível.
No entanto, alguns amigos podem ter começado a murmurar. Os modelos grandes das pessoas são todos imagens e textos gerados. Como a Huawei se tornou uma previsão do tempo?
Uma coisa a dizer, este modelo Pangu é realmente diferente do ChatGPT e do Midjourney com os quais entramos em contato antes. Eles estão fazendo negócios na indústria.
Não é o "inimigo" do ChatGPT que todos esperam, mas é voltado para o mercado To B que não costuma ser acessível. **
Não vamos mencionar a dificuldade ou não, pelo menos os recursos de clientes corporativos que a Huawei acumulou ao longo dos anos são realmente fáceis de sacar.
Além disso, a coletiva de imprensa da Huawei desta vez não trouxe apenas o papel implacável do modelo de previsão do tempo.
Nenhum novo antibiótico foi descoberto por mais de 40 anos, e a droga super antibacteriana Droga X foi encontrada assim que o modelo molecular da droga Pangea veio, e o ciclo de desenvolvimento da droga foi encurtado de vários anos para vários meses, e a pesquisa e desenvolvimento os custos foram reduzidos em 70%.
Você sabe, para uma planta de preparação de carvão com uma produção anual de 10 milhões de toneladas de carvão de coque, cada aumento de 0,1% na taxa de produção de carvão limpo pode aumentar o lucro anual em 10 milhões.
** Isso é tudo dinheiro branco. . . **
De fato, além da previsão do tempo, desenvolvimento de medicamentos e preparação de carvão mencionados acima, o modelo Pangea tem sido usado em muitas indústrias.
A Huawei é capaz de produzir em massa esses grandes modelos de vários setores, graças à arquitetura de três camadas 5+N+X do Huawei Pangu Model 3.0.
Por que você diz isso?
Como a IA está chegando ao setor, os dados são uma grande dificuldade.
Zhang Pingan disse na conferência de imprensa: "Devido à dificuldade em obter dados da indústria e à dificuldade em combinar tecnologia com a indústria, a implementação de grandes modelos na indústria tem sido lenta."
**Pangu é muito engenhoso, através da estrutura de três níveis de 5+N+X, dividiu diretamente este grande problema em 3 pequenos problemas para resolver. **
Em primeiro lugar, os cinco grandes modelos da camada L0 de Pangu aprenderam centenas de terabytes de dados de texto, como conhecimento de enciclopédias, obras literárias, códigos de programas e bilhões de imagens da Internet com rótulos de texto.
Então, o modelo na segunda camada L1 é formado aprendendo os dados de N indústrias relacionadas a partir de um certo modelo básico grande em L0. É como o estágio de graduação de uma universidade, onde você precisa escolher uma variedade de cursos para estudar.
Mas, afinal, um é um hospital e o outro é uma fábrica, e os cenários de uso são completamente diferentes, definitivamente não vai funcionar confiar apenas no modelo grande básico, mas se os dados da indústria forem adicionados, pode haver surpresas.
Ao mesmo tempo, a Huawei também adicionou um link de feedback, que é um pouco como um estágio na empresa.
Segundo eles, normalmente levava 5 meses para desenvolver um modelo industrial em escala GPT-3 no passado; com esse conjunto de ferramentas, o ciclo de desenvolvimento pode ser reduzido para 1/5 do original.
Ao mesmo tempo, as limitações de pequenos conjuntos de dados em muitos setores também podem ser resolvidas. Por exemplo, uma indústria muito detalhada, como a fabricação de grandes aeronaves, também pode ter modelos grandes.
Como todos sabemos, estamos realmente envergonhados em termos de poder de computação de IA.
Primeiro, não podemos comprar o H100/A100 da Nvidia, o equipamento principal da indústria de IA. Segundo, mesmo que a Nvidia tenha lançado "intimamente" um substituto para o H800, ainda temos reservas. Por exemplo, a taxa de transmissão foi muito cortada.
No contexto de um grande modelo que leva vários meses para treinar, é fácil ser ultrapassado por concorrentes estrangeiros com poder de computação mais forte.
E desta vez, para resolver esse problema, a Huawei ainda eliminou alguns caras de verdade.
No entanto, na prática, ainda existem algumas lacunas. E o A100 também não é a arma definitiva da Nvidia.
Por exemplo, de acordo com a coletiva de imprensa, conte a AI Ascend Cloud Computing Power Base e a estrutura de computação CANN. . . Em outros aspectos, a eficiência da Huawei no treinamento de modelos grandes é 1,1 vezes maior que a das GPUs convencionais do setor.
Ainda bastante impressionante.
Além disso, a Huawei também disse que agora tem quase 4 milhões de desenvolvedores, número que está alinhado com o ecossistema NVIDIA CUDA.
De um modo geral, depois de assistir a uma coletiva de imprensa da Huawei, os críticos ruins acham que o layout da Huawei em IA é muito profundo e já começaram a pensar na questão "o que a IA realmente pode nos trazer".
Nos últimos seis meses, embora a indústria de IA tenha recebido aplausos estrondosos, é um tanto embaraçoso quando realmente cai para o nível da indústria.
E esta ação da Huawei apenas confirmou o que Ren Zhengfei disse:
*" No futuro, haverá um aumento nos grandes modelos de IA, não apenas na Microsoft. A contribuição direta das empresas de plataforma de software de inteligência artificial para a sociedade humana pode ser inferior a 2%, e 98% é a promoção da sociedade industrial e sociedade agrícola." *
No campo da IA, a verdadeira grande era ainda está por vir.