Big techs violaram norma do YouTube para treinar IAs com vídeos de Felipe Neto, funk e reportagens
Mais de 700 vídeos do canal do influenciador brasileiro Felipe Neto no YouTube foram usados no desenvolvimento de modelos de inteligência artificial de Microsoft, Google, Baidu e outras empresas. O criador diz que nunca foi consultado sobre o uso de suas produções.
Esses materiais são uma pequena fração da YT-Temporal-180M, uma coleção de 5.494.771 publicações no YouTube citada por gigantes da tecnologia em artigos sobre o desenvolvimento de IAs. O arquivo inclui clipes de funk, reportagens e documentários brasileiros.
Todo esse material, assim como pelo menos outros nove conjuntos de vídeos baixados do YouTube e usados no treinamento de modelos de IA, foi obtido com a quebra dos termos de uso da plataforma.
Isso porque o gigante dos vídeos proíbe o download automático das publicações (mineração de dados). Além disso, as regras do YouTube protegem obras originais com direitos autorais em nome do criador.
Veja exemplos
- Canal Felipe Neto
- 711 vídeos na coleção YT-Temporal-180M
- Canal KondZilla
- 171 vídeos na coleção YT-Temporal-180M
- Maria Clara & JP
- 74 vídeos na coleção YT-Temporal-180M
- Veja+
- 2.205 vídeos na coleção YT-Temporal-180M
- Correio do Povo Play
- 579 vídeos na coleção YT-Temporal-180M
A Microsoft, o Google e a Baidu usaram coleções de vídeos raspados (baixados automaticamente) do YouTube durante o desenvolvimento de IAs chamadas de encoder. São modelos que analisam vídeos e acrescentam contexto às cenas.
Essas ferramentas são excelentes pontos de partida para criação de outros modelos de inteligência artificial, explica o diretor do CEIA (Centro de Excelência em Inteligência Artificial) da UFG (Universidade Federal de Goiás) Anderson Soares.
Além do encoder VideoPrism citado em artigo acadêmico, o Google é o dono do principal aplicativo de IA para gerar vídeos do mercado, o Veo 3. O serviço está disponível em pacote vendido por preços a partir de R$ 96,99 ao mês.
Em nota, o YouTube diz que garante que criadores e detentores de direitos controlem como seu conteúdo é utilizado. A plataforma dá a opção de que o usuário permita o compartilhamento de vídeos com outras companhias de tecnologia nas configurações avançadas de seu canal.
Segundo o comunicado, YouTube e Google usam as publicações dos canais no desenvolvimento de modelos de IA, sob a justificativa de aprimorar a experiência de criadores e espectadores. Para acessar o serviço deles, é preciso concordar com essa condição.
“Essa prática abrange desde o fortalecimento de nossas operações de segurança e o aprimoramento de nossos sistemas de recomendação, até o desenvolvimento de novos recursos de IA generativa, como a dublagem automática”, diz a nota.
O Google não comentou o uso de vídeos minerados por terceiros em violação aos termos do YouTube, plataforma que pertence ao mesmo conglomerado. Procuradas, Microsoft, Nvidia e OpenAI afirmam que não vão se pronunciar. A Baidu não respondeu às tentativas de contato da reportagem.
Felipe Neto não quis fazer comentários adicionais.
Como a maior parte do conteúdo disponível em domínio público na internet está em inglês, obras em outros idiomas são estratégicas para as empresas de inteligência artificial. O conteúdo do YouTube, que hospeda mais de 20 bilhões de vídeos de diversas origens, supre esse vácuo.
Embora a mineração de obras em outros idiomas seja uma estratégia comum, “é difícil afirmar que conteúdo cada empresa minerou”, diz o professor de ciência da computação da PUC-SP Diogo Cortiz. Desde que o ChatGPT se tornou um fenômeno no fim de 2022, os gigantes do setor deixaram de compartilhar detalhes sobre suas pesquisas em IA.
“Há muita falta de transparência na maioria das grandes empresas”, diz Cortiz.
No momento, há um debate judicial sobre a legalidade do uso de obras protegidas por direito autoral sem o devido licenciamento.
De um lado, associações de jornais, produtores cinematográficos e artistas defendem que o uso de material original no treinamento de IAs só poderia acontecer mediante licenciamento ou acordo contratual. De outro, as empresas americanas do setor argumentam que trata-se de um “uso justo”. Elas também pleiteiam uma leitura dos direitos autorais mais permissiva, que não freie a inovação.
De acordo com a professora de direito digital Mariana Valente, da Universidade de St. Gallen, na Suíça, os tribunais pelo mundo precisam decidir se é necessário autorização e pagamento ao autor, se basta a concordância com os termos de uso ou se nenhuma dessas exigências se aplica.
As primeiras decisões são deste ano. No início do mês, por exemplo, um tribunal alemão decidiu que a OpenAI violou os direitos do cantor Herbert Grönemeyer ele mantém um canal no YouTube seguido por 170 mil pessoas.
Os autos mostram que o ChatGPT reproduziu letras do compositor na íntegra. A sentença não abordou o treinamento.
A OpenAI pode recorrer da decisão. “Não concordamos com o veredito e estamos avaliando os próximos passos”, disse a empresa em nota.
O tribunal de Munique ainda precisa definir qual será a reparação financeira. Essa decisão pode servir de precedente em outras ações na Europa, diz Valente.
O que a Folha encontrou
Na coleção de vídeos YT-Temporal-180M (usada por Google, Microsoft e Baidu), há milhares de produções de três dos dez canais mais seguidos no YouTube por brasileiros e de veículos jornalísticos.
São 711 publicações de Felipe Neto, 171 da produtora KondZilla (conhecida por clipes de funk) e 74 do canal infantil Maria Clara & JP. Havia ainda vídeos do veículo gaúcho Correio do Povo (579) e da revista Veja (2.205).
Essa base de dados está disponível na plataforma Hugging Face e hospedada em um servidor do próprio Google. A Hugging Face mostra que os mais de 20 gigabytes de vídeos YT-Temporal-180M foram baixados 1.493 vezes.
Essa coleção foi reunida, em 2021, por pesquisadores do centro de pesquisa Allen Institute for AI da Universidade de Washington. Os autores do trabalho dizem que usaram a API do YouTube para baixar os vídeos e não consultaram seus criadores.
Em respeito à privacidade e aos direitos autorais dos donos dos conteúdos, os pesquisadores dizem que atendem a pedidos de exclusão de obras.
Os artigos acadêmicos das big techs também mencionam outras coleções de vídeos baixados em massa do YouTube. Parte delas foi revelada pela revista The Atlantic.
Coleções de vídeos minerados do YouTube
- Nome – Número de vídeos – Ano
- HowTo100M – 1,2 milhão de vídeos – 2019
- WTS-70M – 55,1 milhões de vídeos – 2020
- YT-Temporal-1B – 20 milhões de vídeos – 2022
- WebVid10M – 10 milhões – 2022
- VideoCC – 133,5 milhões de vídeos – 2022
- InternVid – 2,8 milhões de vídeos – 2023
- HD-Vila-100M – 3,3 milhões – 2023
- Anonymous-Corpus #2 – 44,6 milhões – indefinido
- Anonymous-Corpus #3 – 36,7 milhões – indefinido
Fontes: Artigos na plataforma Arxiv
Os vídeos do YouTube são identificados por um código aleatório, sem referência ao país de origem. Por isso, é difícil medir qual é a parcela exata desse conteúdo que pertence a canais brasileiros.
Conteúdo distribuído por Folhapress
Ouça a rádio de Minas