As contribuições do InternetLab para a Estratégia Nacional de Inteligência Artificial
Conheça os cinco temas centrais que conduziram nossas contribuições para a consulta pública da Estratégia Nacional de Inteligência Artificial, realizada pelo Ministério da Ciência, Tecnologia, Inovações e Comunicações (MCTIC). Buscamos assentar o respeito aos direitos humanos e às garantias processuais brasileiras no contexto do uso de sistemas autônomos.
O InternetLab apresentou contribuições para a consulta pública da Estratégia Nacional de Inteligência Artificial, realizada pelo Ministério da Ciência, Tecnologia, Inovações e Comunicações (MCTIC), encerrada no dia 2 de março de 2020. A consulta, de acordo com o próprio ministério, “tem por objetivo colher subsídios para a construção de uma Estratégia Nacional de Inteligência Artificial que permita potencializar os benefícios da IA para o país, mitigando eventuais impactos negativos”.
Em nossas contribuições, buscamos ressaltar a natureza intrincada do fenômeno do viés ou discriminação algorítmica, apresentar maneiras concretas de mitigar riscos e permitir o exercício de controle público, transparência e accountability em decisões tomadas ou informadas por sistemas de inteligência artificial — em especial quando envolverem o exercício ou acesso a um direito ou liberdade fundamentais —, apontar importantes questões referentes a técnicas de mineração de dados e acesso ao conhecimento, dentre outros. Em especial, por meio das nossas sugestões, buscamos assentar objetivamente o respeito aos direitos humanos e às garantias processuais brasileiras no contexto do uso de sistemas autônomos. Apresentamos comentários às seções da consulta pública referentes a (i) segurança pública; (ii) aplicação no poder público; (iii) legislação, regulação e uso ético; e (iv) governança de IA.
Disponibilizamos nossas contribuições para a consulta pública na íntegra e abaixo, sumarizamos as contribuições e as dividimos em cinco temas centrais:
1- Viés ou discriminação algorítmica: de onde vem e o que fazer
2- Decisões autônomas que afetam direitos e liberdades fundamentais: o que fazer
3- IA, mineração de texto, acesso ao conhecimento e inovação
4- Boas práticas e outras regras de conduta
5- Explicabilidade e transparência. Apresentamos abaixo cada um deles
1- Viés ou discriminação algorítmica: de onde vem e o que fazer
No texto da consulta pública, o MCTIC apresentou o fenômeno do viés como “decorrente, em muitos casos, de bases de dados de treinamento insuficientemente representativas”. De fato, trata-se de risco importante: a falta de representatividade em uma base de dados fará com que a acurácia de determinado sistema seja menor em relação ao grupo sub-representado. Não é à toa, por exemplo, que algoritmos de reconhecimento facial não funcionam bem com pessoas negras. Isso ocorre porque foram treinados majoritariamente com base em rostos de pessoas brancas – o que pode ser resultado simplesmente da negligência dos programadores em buscar maior representatividade no momento de treinar o algoritmo –, mas revela questão muito mais profunda do que simples falta de representatividade: a cristalização e intensificação de vieses sociais por meio de algoritmos de inteligência artificial.
Com efeito, a possibilidade de viés e discriminação não se limita à simples falta de representatividade em bases de dados, e a busca por maior representatividade não necessariamente será bem-sucedida em afastar ou minimizar tais riscos. A falta ou enviesamento dos dados sobre grupos minoritários, por exemplo, frequentemente será estrutural: dados do PNAD de 2014 mostram que somente 38,5% das pessoas brancas não usam a internet no Brasil, contra 60,5% da população negra. Isso, dentre diversos outros fatores, resulta em menos dados sobre essa população (por exemplo, em menor quantidade de fotos em redes sociais que possam ser usadas para treinamento de algoritmos de reconhecimento facial).
Outros três exemplos nesse sentido são (i) o COMPAS, software utilizado nos Estados Unidos para oferecer notas de risco de reincidência em crimes para réus, que são então utilizadas pelos juízes do processo em questão no sopesamento de pena; (ii) um algoritmo utilizado em um hospital não identificado, também nos Estados Unidos, que busca direcionar automaticamente o uso de recursos hospitalares com seus pacientes; e (iii) vieses de gênero no próprio Google Tradutor. Detalhamos cada um deles abaixo.
No caso do COMPAS, comprovou-se que, controladas outras variáveis, as notas de reincidência de negros eram invariavelmente mais altas que as de brancos, discriminação essa que decorre do fato de o software ter sido treinado com base nos dados reais do sistema carcerário norte-americano: se negros estão mais expostos ao controle penal; se policiais abordam mais negros nas ruas; se promotores acusam mais negros e juízes dão penas maiores, tal padrão se repercutirá nos resultados do algoritmo. Os dados refletem os vieses do sistema e seu emprego pode reproduzi-los de forma automatizada. Nessa esteira, relevante notar que das vítimas de abordagens policiais ocorridas na cidade de Nova York, em média, 55% eram negros, enquanto, em média, 13% eram brancos. A realidade na cidade estadunidense levou à ação coletiva Floyd vs. Cidade de Nova York et al. (959 F. Supp. 2d 540 (2013), na qual se alegou que a polícia da cidade praticava ou tinha o costume de realizar abordagens inconstitucionais com base na raça e/ou origem nacional. Em 2013, uma corte distrital de Nova York decidiu em favor dos autores, confirmando as práticas racistas do departamento policial.
Já no caso do algoritmo de saúde, notou-se que os recursos que este direcionava a pacientes brancos eram muito maiores do que os direcionados a pacientes negros. Novamente, o viés ocorreu porque o algoritmo foi treinado não com base em dados diretamente associados à saúde do paciente, e sim com base em dados referentes a recursos de saúde efetivamente despendidos com pacientes passados. Se, por acessarem hospitais de menor qualidade, terem menos condições de ir com frequência ao médico, ou situações similares, menos dinheiro for gasto com pacientes negros, o algoritmo falsamente concluirá que negros são mais saudáveis do que pacientes brancos igualmente doentes. Devemos notar nessa esteira que situações similares podem ocorrer em decisões tomadas pelo poder público e informadas por sistemas autônomos: por exemplo em relação a onde se deve construir determinada infraestrutura pública, a quem e onde prestar determinado serviço, a quem conceder determinado benefício etc.
Por fim, outro exemplo relevante diz respeito a vieses de gênero na ferramenta de tradução do Google. Na tradução de línguas com substantivos de gênero neutro (como o inglês, por exemplo em “the doctor”) para línguas com diferenciação de gêneros (como o português, por exemplo em “a doutora” ou “o doutor”), a ferramenta geralmente traduzirá as palavras de gênero neutro para a sua variante mais comumente utilizada na língua onde há tal diferenciação. Assim, no mesmo exemplo utilizado acima, the doctor seria traduzido como “o doutor”, já que a língua aprendida, o português, encontra-se por razões históricas enviesada para o uso de “doutor” como uma profissão masculina.
Os exemplos acima ilustram a realidade de que o problema do viés não decorre meramente da falta de representatividade nos dados de treinamento, mas, principalmente, da reprodução de padrões sociais pré-existentes nos resultados de algoritmos de aprendizado de máquina. A inteligência artificial, assim, não é um ator neutro capaz de mostrar resultados objetivos, e sim um reprodutor de situações sociais pré-existentes e da subjetividade humana historicamente situada – subjetividade essa que se impõe ao algoritmo tanto por seus dados quanto pela forma de sua construção e a finalidade de sua utilização.
Mesmo conscientes da subjetividade desse tipo de sistema, existem maneiras práticas de mitigar tais discriminações – por mais que não possam ser totalmente afastadas. São diversos os tipos de vieses que, por sua vez, podem possuir diferentes origens. Eles podem ocorrer durante as etapas de coleta, limpeza e tratamento dos dados e/ou teste do modelo gerado.
– Coleta. Vieses resultantes da etapa de coleta ocorrem quando os dados obtidos para formar o conjunto de treinamento não representam precisamente a diversidade do ambiente em que o modelo será aplicado. Este problema pode ser solucionado ou amenizado por meio de ajustes no balanceamento do dataset, isto é, verificando-se se os dados representam proporcionalmente a diversidade do domínio no qual o modelo será aplicado. Caso um determinado grupo de casos não esteja devidamente representado, é necessário adicionar mais dados referentes a este grupo ao conjunto de treinamento.
– Limpeza e Tratamento. Na etapa de limpeza e tratamento dos dados, o(s) viés(es) pode(m) ocorrer devido à exclusão indevida de atributos em razão de crenças pré-existentes dos desenvolvedores do sistema no sentido de que tais atributos não possuem relevância para o contexto. Para evitar esse tipo de viés, recomenda-se o uso de ferramentas que calculam a importância e a (in)dependência entre os atributos de um conjunto de dados (https://fairmlbook.org/).
– Teste. O(s) viés(es) relacionados à etapa de teste do modelo estão diretamente relacionados às crenças das pessoas que o produziram. Ocorre quando a equipe rejeita um grupo de possibilidades para teste do modelo baseado em crenças pré-determinadas pela equipe, estereótipos, influências culturais, entre outros. Estes casos comumente resultam em modelos que reproduzem preconceitos existentes no mundo real, visto que não foram submetidos a todos os casos em que o modelo estará exposto. A principal solução para evitar este tipo de viés é ter diversidade na(s) equipe(s) do projeto.
É importante que a detecção de viés ocorra antes de o modelo ser colocado em produção. Logo, é necessário que se realize um conjunto completo de testes do modelo para diferentes casos possíveis, comparando os resultados obtidos.
Além disso, constituem risco inafastável desse tipo de tecnologia os falsos positivos, que, associados à expectativa generalizada de objetividade que se deposita na inteligência artificial, podem representar sérios riscos às liberdades e direitos de pessoas inocentes. As promessas de altíssima acurácia feitas pelos produtores da tecnologia, muitas vezes baseadas em situações e dados ideais ou de laboratório, não afastam a realidade de que, na prática do uso da tecnologia, sua precisão ainda deixa muito a desejar: dados de 2018 da Polícia Metropolitana de Londres mostram que, de 2685 suspeitos identificados por um sistema de reconhecimento facial em um evento público, 2451 – ou seja, 91% das pessoas atingidas – foram alarmes falsos. Como o próprio Ministério apontou, tal ausência de acurácia será ainda maior caso falte representatividade nos dados de treinamento do sistema, o que comprovadamente ocorre com pessoas negras, por exemplo. Desse risco, resultam importantes limites à confiança que entes públicos, em especial forças policiais, podem depositar nesse tipo de algoritmo, assim como regras de utilização para mitigação desses problemas, conforme detalhamos abaixo.
Tendo-se em mente o que apontamos acima, deve-se destacar o profundo risco social no uso de sistemas inteligentes para fins de segurança pública e outras áreas sensíveis. Esse risco, mesmo com as sugestões práticas e normativas que apontamos na consulta e um uso responsável e consciente da tecnologia, não se encontraria totalmente superado.
2- Decisões autônomas que afetam direitos e liberdades fundamentais: o que fazer –
Como ilustramos acima, o uso de sistemas de inteligência artificial é atividade que pode, em diversas áreas, gerar riscos às liberdades civis e a direitos fundamentais. Citamos aqui, por exemplo, as áreas trazidas pelo próprio MCTIC e consequentemente as mais diretamente exploradas por nós durante a consulta: segurança pública – onde, por exemplo, a identificação de suspeitos pode levar ao cerceamento de sua liberdade, dentre diversos outros direitos fundamentais; áreas sensíveis como saúde, educação e guerra; e para auxiliar na realização (ou prestar) serviços públicos.
Assim, em todas as situações em que um sistema de inteligência artificial puder afetar direitos e liberdades fundamentais, seja tal uso pelo poder público ou por entidades privadas, especial atenção deve ser dada a seus efeitos e formas de mitigar seus riscos. Com isso em mente, apresentamos as recomendações práticas arroladas abaixo, sendo as duas últimas, medidas que dizem especificamente ao risco resultante de falsos positivos.
- Relatórios prévios de Impacto. Documentações similares ao Relatório de Impacto à Proteção de Dados Pessoais devem ser exigidas sempre que um sistema de inteligência artificial for desenvolvido para finalidades sensíveis ou apresentar risco para direitos e liberdades fundamentais. Um relatório como esse deve ser desenvolvido toda vez que um sistema de IA estiver sendo desenvolvido de forma a afetar, mesmo potencialmente, direitos e liberdades fundamentais, e deve ser publicamente disponibilizado, por exemplo no site da empresa ou órgão que o oferecerá ou dele fará uso. Trata-se de medida de controle público, responsabilização (accountability) e transparência, que, concretamente, deve fornecer informações claras quanto:
- Ao fato de tal sistema estar sendo desenvolvido, incluindo informações sobre sua finalidade e possíveis locais de uso e populações afetadas;
- previsões de quais direitos fundamentais serão afetados pelo sistema, e o que está sendo feito para mitigar tais impactos, em formato similar ao Fundamental Rights Impact Assessment defendido pela União Europeia;
- quais os mecanismos utilizados para controle de vieses a partir das bases de dados e da seleção do modelo (tais como o balanceamento do dataset em favor de pessoas sub-representadas e o uso de ferramentas que calculam a importância e a (in)dependência entre os atributos de um conjunto de dados, como mencionamos em outros locais desse texto);
- qual o modelo algorítmico utilizado, se o sistema é atualizado, e se sim, como e com que frequência;
- qual a origem da base de dados utilizada para seu treinamento; e
- informações de contato para o exercício de direitos individuais.
- Medidas posteriores de transparência. Além da publicação de um relatório como o apontado acima durante o desenvolvimento da ferramenta, outras medidas de transparência devem ser exercidas durante sua utilização. Em todas as situações, e em especial se utilizado pelo poder público e perante um grupo indeterminado de pessoas sem conhecimento de que a tecnologia está sendo utilizada (como câmeras de segurança com reconhecimento facial ou no direcionamento automatizado de forças policiais), informações regulares sobre sua utilização devem ser publicamente disponibilizadas, por exemplo no site da empresa ou órgão que o oferece ou dele faz uso. Trata-se de medida contínua de controle público, responsabilização (accountability) e transparência, que, concretamente, deve apresentar informações como:
- O fato de tal sistema estar sendo utilizado, incluindo informações sobre sua finalidade, locais de uso e populações afetadas;
- Quantas pessoas foram atingidas pelo sistema, incluindo porcentagens de pessoas por raça, gênero e etnia, por exemplo;
- Quantas e quais decisões com impacto em direitos e liberdades fundamentais (por exemplo, encarceramentos) foram tomadas com base em informações fornecidas por tais sistemas;
- Por quais órgãos e com que frequência o sistema está sendo utilizado; e
- Informações de contato para o exercício de direitos individuais.
- Ações afirmativas. Existência de cotas raciais e de gênero nos times de desenvolvimento e manutenção dessas tecnologias;
- Comitês para controle público. Instituição de comitês públicos, por exemplo por meio de órgãos associados à Autoridade Nacional de Proteção de Dados, para exigência de tais relatórios, controle de seu conteúdo e auditorias regulares de tais sistemas;
- Comitês para normas técnicas. Criação de comitês para a elaboração de normas técnicas e boas práticas vinculantes para a diminuição de vieses no desenvolvimento e uso dessas ferramentas, como as sugeridas aqui;
- Obrigação de testes prévios. A obrigação de que quaisquer sistemas automatizados utilizados para fins de segurança pública sejam previamente testados de acordo com as normas técnicas mencionadas acima, antes de sua implementação e uso públicos;
- Direitos individuais. Garantia de direitos individuais perante decisões tomadas ou informadas por sistemas de inteligência artificial, como o direito à revisão humana, em especial por se tratar de situação com claro risco às liberdades individuais;
- Garantias processuais. Garantia do direito à ampla defesa e ao contraditório no caso de decisões tomadas ou informadas por tais sistemas, por exemplo por meio da notificação prévia de potenciais atingidos antes que sejam submetidos a uma decisão nesse formato; e
- Estímulo à pesquisa. O estímulo à pesquisa acadêmica sobre o tema, para atualização da consciência pública em relação aos riscos da tecnologia.
- Não-substituição de humanos. A inteligência artificial para a segurança pública e outras áreas sensíveis não deve substituir o julgamento de um ser humano, nem pode ser cegamente confiada. Por exemplo, o reconhecimento de um indivíduo suspeito por um sistema de reconhecimento facial nunca deve ser considerado suficiente para identificá-lo indubitavelmente, devendo sempre haver outras formas de averiguar sua identidade.
- Padrões de qualidade e conduta. Devem existir regras de conduta por parte das forças policiais para evitar a baixa acurácia de sistemas utilizados para segurança pública. Por exemplo, no caso do reconhecimento facial, não devem ser utilizadas fotos de baixa resolução ou com partes do rosto cortadas, não devem ser feitas edições às fotos utilizadas para identificação dos suspeitos, desenhos não devem substituir as fotos, dentre outros. Recomendações valiosas para o reconhecimento facial na segurança pública podem ser encontradas aqui.
Por fim, devemos notar que atualizações às leis de proteção de dados ou a promulgação de novas normas voltadas especificamente ao setor podem ser úteis ao estabelecer as salvaguardas necessárias para um uso não nocivo da inteligência artificial. A criação de comitês públicos, regras de transparência, novas garantias dos direitos de defesa, direito à revisão humana, bem como a exigência de relatórios de impacto prévios e de responsabilização pelo uso de sistemas com potencial de lesão a liberdades fundamentais, dentre outras sugestões que trouxemos na consulta, poderão ser endereçados por lei.
3- IA, mineração de texto, acesso ao conhecimento e inovação.
O tema da propriedade intelectual associada a obras acessadas ou criadas por sistemas de inteligência artificial também deve ser tratado aqui. Em primeiro lugar, fazemos referência à proteção via direitos autorais conferida a bases de dados, conforme estabelecido internacionalmente (Art. 2, item 2, Convenção de Berna; Parte II, Seção 1, Art. 10, TRIPS e Art. 5 do WIPO Copyright Treaty) e também na nossa Lei de Direitos Autorais, proteção essa que pode se apresentar como entrave ao livre desenvolvimento de sistemas de IA. O acesso a grandes base de dados é etapa imprescindível para a criação de um sistema de aprendizado de máquina, ferramenta capaz exatamente de encontrar padrões em tais bases e, por exemplo, realizar predições com base em tais informações. Caso o direito autoral sobre bases de dados seja utilizado como ferramenta para seu bloqueio e impossibilidade de acesso, seriam potencializadas condutas anticompetitivas ou monopolistas por quem detém tais bases de dados, dificultando-se a entrada de novas e menores empresas no mercado e o desenvolvimento de ferramentas de IA alternativas às desenvolvidas por aqueles que detêm as bases de dados.
Tendo-se isso em mente, recomenda-se que existam exceções à proteção autoral sobre bases de dados para o caso de seu acesso e mineração por algoritmos de Inteligência Artificial, de forma a inibir condutas monopolistas e estimular a inovação e o acesso ao conhecimento. Uma exceção como essa, ainda que limitada ao acesso por universidades e instituições de herança cultural e para fins acadêmicos, já está em vigor na União Europeia por meio do Art. 3º da Diretiva 2019/790. Naturalmente, tal direito de acesso deve apresentar mecanismos de proteção à privacidade dos afetados e a outros direitos que o detentor da base de dados possa ter sobre ela.
Além disso, deve ser dada atenção à proteção conferida a obras, ou outros bens imateriais passíveis de proteção, produzidos por algoritmos de inteligência artificial. O tema merece debates mais aprofundados, mas cabe desde já pontuar que uma proteção irrestrita ou excessiva a tais criações via direito autoral pode ter efeitos prejudiciais à inovação, ao desenvolvimento de mercados baseados em dados e em inteligência artificial, e ao equilíbrio entre monopólio e acesso à que correspondem os objetivos dos sistemas de propriedade intelectual. Por exemplo, sistemas de IA podem criar inúmeras variações próximas de determinado software, música, narrativa ou similares, o que pode resultar em dificuldades de licenciamento e acesso a tais obras, ou ainda em disputas jurídicas em torno de materiais similares produzidos por sistemas automatizados distintos. Afinal, esses sistemas produzem com base em instruções, e é possível que não haja muitas formas diferentes de se criar um determinado material à partir de um algoritmo e um conjunto de dados. Regimes para proteção de obras criadas por softwares devem também sopesar o interesse público no acesso a tais criações, tanto do ponto de vista do estímulo à criação quanto do acesso à informação.
4- Boas práticas e outras regras de conduta
Regras de boas práticas corporativas e códigos de conduta podem ter importante papel para o desenvolvimento de técnicas capazes de mitigar efeitos negativos da inteligência artificial, tais como a discriminação e os falsos positivos. Isso porque, se sujeitos a regras de transparência e responsabilização pública conforme defendemos em outros locais desta consulta, os desenvolvedores dos sistemas estão em posição privilegiada para sugerir boas práticas para suas próprias criações.
Com uma proposta pragmática, uma pesquisa realizada pelo Instituto Brookings apresentou um modelo de questões a serem aplicadas pela equipe de um projeto de IA, enquanto desenvolvem o sistema. O objetivo é auxiliar na identificação de possíveis vieses durante o desenvolvimento de um modelo de IA. O modelo é composto por questões como:
- Quem é o público do algoritmo e quem será mais afetado por ele?
- Os dados de treinamento são suficientemente diversos e confiáveis?
- Com quais grupos estamos preocupados quando se trata de treinar erros de dados e tratamento diferenciado?
Importante destacar também um guia publicado pela União Europeia em abril de 2019, sobre ética e IA, no qual são apontadas algumas medidas para a mitigação de discriminações antiéticas executadas por sistemas de IA. As diretrizes envolvem a exigência de maior diversidade, design inclusivo, não discriminação, entre outros, em todas as etapas existentes durante o desenvolvimento de um sistema de IA.
É importante que investimento em pesquisa seja realizado para que haja não só novas contribuições, mas também divulgação e aplicação de um guia de condutas éticas para profissionais que desenvolvem estes sistemas.
5 – Explicabilidade e Transparência
Muito se fala da black box da inteligência artificial, essa “caixa preta”, cujo interior não pode ser visualizado, onde ocorre o processamento do sistema. Em determinadas maneiras de aplicação do aprendizado de máquina, especialmente em deep learning, as informações externas que são alimentadas ao sistema – os inputs – são direcionadas a uma rede de “neurônios artificiais” que processam os dados e distribuem os comandos necessários – os outputs – para operar o sistema. O funcionamento interno desses sistemas é tão intrincado que até mesmo os desenvolvedores que os projetam não são tecnicamente capazes de apontar motivos específicos que os levem a tomar determinada decisão. E, da mesma forma, não há ainda nenhuma maneira óbvia de projetar tais sistemas para que passem a ser capazes de fornecer tal explicação, por mais que pesquisas nesse sentido tenham sido realizadas nos últimos tempos. Tendo-se isso em mente, a explicabilidade é um conceito que deve ser aplicado não de forma absoluta, mas como mais um dos elementos da transparência necessária para a operação desse tipo de sistema.
A explicabilidade deve referir-se a uma maneira de permitir que indivíduos exerçam seus direitos e que o público tenha acesso às principais questões associadas a determinado sistema de IA. Assim, por exemplo, se houver transparência quanto aos efeitos esperados de determinado sistema, as finalidades de seu uso, quais bases de dados foram utilizadas para seu treinamento, e outros elementos que apontamos em outros locais dessa consulta, estará aberto o espaço para controle público e auditoria dos sistemas, assim como para exercício de direitos potencialmente afetados por eles.
Por fim, notamos que a black box da inteligência artificial, assim como sua capacidade de tomar decisões autônomas, i.e., de certa forma independentes da programação inicial dos desenvolvedores do sistema e da esfera de controle de seus usuários, não devem ser argumentos para o afastamento da responsabilidade pela criação ou inserção de um sistema autônomo na sociedade, tratando-se da assunção de um risco.