banner

Blog

Sep 21, 2023

Humano

Nature volumen 616, páginas 707–711 (2023)Cite este artículo

27k Accesos

2 citas

523 altmétrico

Detalles de métricas

Uno de los obstáculos para la construcción de chips semiconductores es el creciente costo requerido para desarrollar procesos químicos de plasma que forman los transistores y las celdas de almacenamiento de memoria1,2. Estos procesos todavía se desarrollan manualmente utilizando ingenieros altamente capacitados que buscan una combinación de parámetros de herramientas que produzca un resultado aceptable en la oblea de silicio3. El desafío para los algoritmos informáticos es la disponibilidad de datos experimentales limitados debido al alto costo de adquisición, lo que dificulta formar un modelo predictivo con precisión a escala atómica. Aquí estudiamos algoritmos de optimización bayesianos para investigar cómo la inteligencia artificial (IA) podría disminuir el costo de desarrollar procesos complejos de chips semiconductores. En particular, creamos un juego de proceso virtual controlado para comparar sistemáticamente el desempeño de humanos y computadoras para el diseño de un proceso de fabricación de semiconductores. Descubrimos que los ingenieros humanos sobresalen en las primeras etapas de desarrollo, mientras que los algoritmos son mucho más rentables cerca de las estrictas tolerancias del objetivo. Además, mostramos que una estrategia que utiliza tanto diseñadores humanos con alta experiencia como algoritmos en una estrategia humana primero y última computadora puede reducir el costo objetivo a la mitad en comparación con solo diseñadores humanos. Finalmente, destacamos los desafíos culturales al asociar humanos con computadoras que deben abordarse al introducir la inteligencia artificial en el desarrollo de procesos de semiconductores.

Los chips semiconductores son el núcleo de todos los sistemas de inteligencia artificial (IA) del mundo y funcionan en estados digitales 0 y 1 definidos por transistores de tamaño nanométrico y celdas de memoria. La fabricación de estos dispositivos en miniatura a partir de obleas de silicio es un proceso de fabricación complicado que implica cientos de pasos de proceso especializados, casi la mitad de los cuales requieren complejos procesos químicos de plasma, como el grabado y la deposición3. Irónicamente, el desarrollo de estos procesos críticos que permiten la IA todavía lo realizan ingenieros de procesos humanos utilizando su intuición y experiencia, recurriendo a menudo a prueba y error. La aplicación de la IA a la ingeniería de procesos para la creación de nuevos chips es de interés general, ya que la automatización de esta actividad podría evocar escenarios de la llamada "singularidad", en los que la IA aprende efectivamente a construir más de sí misma4,5.

La IA tiene muchos ejemplos de algoritmos informáticos que superan a los humanos en tareas complejas, como jugar juegos de mesa como el ajedrez y el Go6,7. Sin embargo, en estos casos, la computadora toma decisiones sólo después de entrenar o generar una gran cantidad de datos económicos. Por el contrario, recopilar datos del proceso en obleas de silicio es caro: más de mil dólares por experimento para la oblea, el funcionamiento del equipo de plasma y la microscopía electrónica. En consecuencia, los ingenieros suelen desarrollar procesos semiconductores probando sólo del orden de cien (entre potencialmente muchos billones) combinaciones diferentes de parámetros del plasma, como presión, potencia, flujos de gas reactivo y temperatura de la oblea. A diferencia de los juegos de mesa, que tienen reglas claras, los sistemas de reactores de oblea se rigen por un número inestimable de interacciones físicas y químicas microscópicas entre el material de la oblea, las especies de plasma y las partes del reactor8,9. La ausencia de datos suficientes en una región de interés específica dificulta la creación de modelos informáticos con precisión a escala atómica, lo que se conoce como "pequeño" problema de datos10. Por lo tanto, el desafío que planteamos a la IA es reducir el costo objetivo (es decir, minimizar la cantidad de datos necesarios para recopilar) del desarrollo de un proceso de semiconductores en relación con un ingeniero de procesos humanos experimentado.

En este trabajo, comparamos el rendimiento de los algoritmos informáticos en relación con ingenieros de procesos humanos experimentados, centrándonos en un escenario en el que una computadora no capacitada tiene acceso solo a los datos recopilados. Inspirándonos en los enfoques de ajedrez de IA en los que agentes informáticos compiten contra humanos, creamos un juego de ingeniería de procesos en el que el objetivo de un jugador (humano o un algoritmo informático) es desarrollar un proceso complejo al menor costo para el objetivo. Realizar una competencia de este tipo utilizando obleas reales sería costoso y poco práctico debido a la variabilidad incontrolada de las obleas entrantes, la metrología y los equipos de procesamiento que dificultarían la interpretación de los resultados. Para superar estas dificultades prácticas, operamos la competencia en una plataforma virtual sofisticada que permite comparar a los participantes en el mismo espacio de proceso.

La competencia se llevó a cabo en un entorno virtual diseñado para parecerse al laboratorio, como se muestra esquemáticamente en la Fig. 1. Nuestro proceso de estudio de caso es un grabado con plasma en un solo paso de un orificio de alta relación de aspecto en una película de dióxido de silicio, uno de los Se utilizan muchos pasos de grabado para fabricar chips semiconductores11. La simulación de este proceso se parametrizó y calibró a partir de datos existentes en un simulador de perfil de características patentado, utilizando relaciones empíricas y basadas en la física para conectar una "receta" de combinación de parámetros de herramienta de entrada a un resultado de grabado de salida en la oblea virtual (Métodos). Para el participante, este simulador sirve como una conversión efectiva de caja negra9 de una receta (por ejemplo, presión, potencia y temperatura) a los requisitos de un paso del proceso necesario para fabricar un chip semiconductor.

La entrada del proceso virtual es una "receta" que controla las interacciones del plasma con una oblea de silicio. Para una receta determinada, el simulador genera métricas junto con una imagen transversal de un perfil en la oblea. El perfil objetivo se muestra junto con ejemplos de otros perfiles que no cumplen el objetivo. El objetivo del juego es encontrar una receta adecuada al menor coste para el objetivo. CD, dimensión crítica.

Al igual que en el laboratorio, el objetivo del juego es minimizar el costo objetivo de encontrar una receta que produzca métricas de producción que cumplan el objetivo. El participante envía un lote (una o más recetas) y recibe métricas de salida e imágenes de perfil transversales. El participante continúa enviando lotes hasta que se cumpla el objetivo como se define en la Tabla de datos ampliados 1, correspondiente al perfil que se muestra en la Fig. 1. Definimos una "trayectoria" como una serie de lotes realizados para cumplir el objetivo. Estimados a partir de los costos reales, asignamos un costo de $1000 por receta para los costos de oblea y metrología y un costo general de $1000 por lote para la operación de la herramienta. Existen muchas recetas potencialmente ganadoras debido a los altos niveles de degeneración en el espacio de parámetros de entrada. Aún así, verificamos desde el principio las bajas probabilidades de cumplir el objetivo al azar: 0,003% por receta según 35.000 muestras aleatorias.

El punto de referencia del coste objetivo lo determinaron los actores humanos. Los voluntarios incluyeron seis ingenieros de procesos profesionales con doctorados en ciencias físicas: tres ingenieros senior con más de siete años de experiencia y tres ingenieros junior con menos de un año de experiencia. Los ingenieros diseñaron sus experimentos utilizando hipótesis mecanicistas basadas en su conocimiento previo de las tendencias del proceso y las dependencias de los parámetros del plasma. Eligieron un tamaño de lote promedio de cuatro recetas, utilizando cambios de parámetros univariados o bivariados en el 95% de todas las opciones de recetas. Como referencia, también participaron tres personas sin experiencia y sin experiencia relevante en procesos.

Las trayectorias de los ingenieros de procesos se muestran en la Fig. 2 (consulte la Fig. 1 de datos extendidos para humanos sin experiencia y la Tabla 2 de datos extendidos para obtener una lista de resultados). Sus trayectorias muestran caminos cualitativamente similares con un progreso incremental hacia el objetivo, que caracterizamos en dos etapas: ajuste aproximado y ajuste fino. El ajuste aproximado se refiere a la rápida mejora inicial hacia el objetivo, mientras que el ajuste fino se refiere al lento progreso al final de la trayectoria en el que los ingenieros lucharon por cumplir con todas las métricas de salida simultáneamente. Los ingenieros superiores requirieron aproximadamente la mitad del costo de los ingenieros jóvenes para lograr la misma cantidad de progreso. El participante humano ganador es el ingeniero senior no. 1 con un costo objetivo de $105 000, como se muestra en el recuadro de la figura 2. Este es nuestro punto de referencia humano "experto".

Las trayectorias son monitoreadas por Progress Tracker como se define en Métodos. El objetivo se cumple cuando el Progress Tracker es 0. Las trayectorias de los ingenieros senior están en verde y las de los ingenieros junior en azul. La trayectoria del experto ganador (ingeniero superior 1) se destaca en el recuadro y muestra los puntos de transferencia A a E utilizados en la estrategia HF-CL. AU, unidades arbitrarias.

Datos fuente

Los algoritmos informáticos que participan en esta competencia son optimizaciones bayesianas, un método de aprendizaje automático comúnmente utilizado para costosas funciones de caja negra12,13,14. Esta clase de algoritmos ha sido estudiada en otras aplicaciones en la industria de los semiconductores15,16,17. Se seleccionaron tres variedades diversas de optimizaciones bayesianas: (1) Algo1 que utiliza el muestreo Monte Carlo de cadena de Markov18, un modelo sustituto lineal multivariado para compensar el alto costo de cálculo del muestreo y una función de mejora esperada (EI). (2) Algo2 de un software de código abierto que utiliza el estimador Parzen estructurado en árbol con una función de adquisición de EI19,20. (3) Algo3 que utiliza un modelo de proceso gaussiano21 y una función de adquisición con límite de confianza inferior. Todos los algoritmos utilizan una distancia euclidiana escalada como función objetivo y comenzaron sin ningún entrenamiento y utilizando antecedentes no informativos22.

Los algoritmos fueron programados para usar métricas de salida pero no imágenes de perfil de salida, por lo que fueron efectivamente ignoradas. Solo se utilizó una receta por lote, la opción predeterminada para las optimizaciones bayesianas23. Las trayectorias se repitieron 100 veces por relevancia estadística para tener en cuenta la aleatoriedad inherente en el costo objetivo debido a la naturaleza probabilística de la optimización bayesiana. Para ahorrar tiempo de cálculo, las trayectorias se truncaron si no cumplían el objetivo antes del punto de referencia experto de 105.000 dólares. Definimos 'tasa de éxito' como el porcentaje de trayectorias con menor costo objetivo que el experto. Como referencia, se estima que la tasa de éxito por pura casualidad es inferior al 0,2 % (basado en las probabilidades del 0,003 % por receta mencionadas anteriormente).

Los algoritmos comenzaron cada trayectoria con una semilla de 32 recetas generada aleatoriamente a partir de un hipercubo latino, antes de generar la receta única por lote. Los resultados están etiquetados como "no humanos" en los paneles de la Fig. 3. Las tasas de éxito son bajas, menos del 1% para Algo1, 2% para Algo2 y 11% para Algo3. En total, sólo 13 de 300 intentos (menos del 5%) lograron vencer al experto. Como referencia, permitimos una trayectoria de Algo2 más allá del límite de truncamiento, y finalmente cumplimos el objetivo de 739.000 dólares, casi un orden de magnitud más costoso que el experto. En general, los algoritmos por sí solos no lograron ganar la competencia contra el experto humano.

a – c, Resultados de tres algoritmos: Algo1 (a), Algo2 (b) y Algo3 (c). Los resultados "no humanos" no cuentan con la ayuda de humanos, como referencia. Las columnas A a E son los puntos de transferencia que se muestran en la Fig. 2. Cada punto representa una de las 100 trayectorias independientes. El costo objetivo es la suma del costo tanto del algoritmo humano como del informático; las líneas naranjas indican el costo objetivo medio; los puntos alineados en la parte superior superan el costo objetivo del experto por sí solo ($105 000); Las líneas horizontales negras representan el costo de los datos proporcionados por el ser humano.

Datos fuente

Sugerimos que los algoritmos fallaron porque desperdiciaron experimentos navegando por el vasto espacio de procesos sin conocimiento previo. Por el contrario, especulamos que los ingenieros de procesos aprovecharon su experiencia e intuición para tomar mejores decisiones en su navegación inicial. Por lo tanto, decidimos probar una estrategia híbrida, en la que el experto guía los algoritmos en un escenario humano primero, última computadora (HF-CL). En esta implementación, en lugar de un muestreo aleatorio, el experto proporciona datos experimentales recopilados hasta un punto de transferencia etiquetado de A a E en la Fig. 2 (también definido en la Tabla de datos extendidos 3), junto con el rango de búsqueda restringido por el experto (Tabla de datos extendidos). 4). Como referencia, se estima que la tasa de éxito para encontrar el objetivo en este rango de búsqueda "restringido" es del 13 %, basándose en una probabilidad del 0,27 % por receta de alcanzar el objetivo en 2700 muestras aleatorias. En la estrategia HF-CL, una vez que la computadora asume el control de la toma de decisiones, el experto efectivamente renuncia al control y no desempeña ningún papel adicional en el diseño experimental. Como antes, por relevancia estadística, cada condición se repitió 100 veces.

En la estrategia HF-CL, el punto de transferencia A proporciona la menor cantidad de datos del experto al algoritmo informático. En este punto, el costo objetivo medio para HF-CL sigue siendo consistentemente más alto que el del experto solo, con una tasa de éxito de solo el 20 % para Algo1, 43 % para Algo2 y 42 % para Algo3. Aunque estos valores son sustancialmente más altos que los resultados obtenidos únicamente por computadora, las tasas de éxito inferiores al 50% indican que es más probable que los costos aumenten que disminuyan. Por lo tanto, aunque algunas orientaciones iniciales han mejorado el rendimiento del algoritmo informático, HF-CL falla estadísticamente en el punto A.

La Figura 3 muestra los resultados de HF-CL con progresivamente más datos proporcionados al algoritmo informático. Observamos una dependencia en forma de V del costo objetivo de la cantidad de datos de expertos. Desde los puntos A al C, el acceso a más datos expertos reduce el costo total objetivo a medida que mejora el rendimiento del algoritmo. Sin embargo, la tendencia se invierte más allá del punto C, en el que el acceso a datos más expertos añade costos sin un beneficio claro para el algoritmo. El rendimiento óptimo de HF-CL para todos los algoritmos se encuentra en el punto C. Algo3 supera en gran medida a los otros algoritmos, atribuido a la flexibilidad de los modelos de proceso gaussianos o a su función de adquisición diferente, ya que se ha demostrado que el algoritmo con límite de confianza inferior supera al EI. función23. HF–CL con Algo3 establece un nuevo punto de referencia, con un costo objetivo medio de $52 000, poco menos de la mitad del costo requerido por el experto solo.

Por lo tanto, la estrategia HF-CL que utilizó el experto asociado con Algo3 ganó el juego, al reducir de manera confiable el costo objetivo del desarrollo del proceso de grabado con plasma en relación con el punto de referencia del experto. (Consulte las figuras 2 y 3 de datos ampliados para obtener resultados de HF-CL con otros seres humanos y la figura 4 de datos ampliados para obtener resultados de HF-CL sin el rango restringido).

El entorno de proceso virtual proporciona un medio para probar diferentes enfoques para el desarrollo de procesos en la industria de semiconductores, una actividad que habría sido prohibitivamente costosa en el laboratorio real. El desempeño de seres humanos en diferentes niveles de habilidades (desde expertos hasta novatos) proporciona puntos de comparación cualitativos en el mismo proceso. Los resultados muestran que los ingenieros de procesos senior desarrollan procesos a aproximadamente la mitad del costo objetivo de los ingenieros de procesos junior, lo que indica la importancia del conocimiento del dominio en nuestra industria. Los algoritmos informáticos, que carecían de formación previa, mostraron un rendimiento deficiente en relación con el experto, y menos del 5% de todas sus trayectorias cumplieron el objetivo con un coste objetivo más bajo. Esto confirma nuestra expectativa inicial de que las computadoras que parten desde cero fallarán: pueden alcanzar el objetivo, pero a un costo demasiado alto. Este es el pequeño problema de datos que se manifiesta. Simplemente no podemos permitirnos la cantidad de datos necesarios para que una computadora prediga con precisión la receta de un proceso.

Un resultado clave de este estudio es el éxito de la estrategia HF-CL. Esta estrategia se basa en que un experto tenga la ventaja en las primeras etapas del desarrollo del proceso y que el algoritmo informático sobresalga en la etapa posterior. Al combinar estas ventajas, se demostró que HF-CL reduce el costo objetivo a la mitad en comparación con el experto solo. La ventaja del experto humano se atribuye a la importancia del conocimiento del dominio, del que carecían estos algoritmos, para navegar cualitativamente por las posibilidades aparentemente ilimitadas de elección de recetas. Puede ser intuitivo que la guía humana ayude a las computadoras, pero si los algoritmos son mejores para abordar problemas complejos de gran tamaño, presumiblemente podrían haber dominado al comienzo del desarrollo24. En cambio, los algoritmos informáticos se volvieron competentes sólo después de que se les proporcionaron datos relevantes y, preferiblemente, también con un rango restringido. El principio de HF-CL recuerda los primeros esfuerzos sobre otros problemas de IA, lo que sugiere que podría generalizarse a otros pequeños problemas de datos. Por ejemplo, al comienzo del ajedrez por computadora (antes de los grandes datos), el primer programa en 1951 se implementó solo para los dos últimos movimientos, mientras que los movimientos iniciales siguen siendo en gran medida los mismos que los determinados por los humanos6. En el plegamiento de proteínas, la técnica de evolución dirigida del Premio Nobel también requiere un "punto de partida adecuado" proporcionado por los humanos25.

Aunque HF-CL puede parecer obvio en retrospectiva, los resultados muestran que sólo funciona en determinadas circunstancias. Incluso con el beneficio de asociarse con un ingeniero experimentado, el éxito de HF-CL también depende en gran medida de cuándo el ser humano se transfiere a la computadora: si es demasiado pronto, los algoritmos no tienen suficiente guía; si es demasiado tarde, lo humano se convierte en una carga de costos. Este principio está incorporado en la dependencia del costo-objetivo en forma de V convexa de datos más expertos en la Fig. 3. Nuestra interpretación de la forma de V es que la profundidad representa el máximo ahorro de costos en relación con el experto, mientras que el vértice representa el punto de transferencia óptimo del ser humano a la computadora. El lado izquierdo de la V corresponde a un rendimiento mejorado de los algoritmos con más datos. Esta parte de la V es consistente con observaciones reportadas previamente y con la noción general de que más datos es mejor10.

La parte más inusual y notable de la V es el lado derecho. Aquí es donde el costo objetivo aumenta incluso cuando los algoritmos obtienen acceso a datos más expertos. En este caso, el alto costo de los datos ha llevado a una penalización de costos por las malas elecciones de recetas por parte del ser humano, lo que ilustra la importancia de la calidad de los datos. El valor de la intuición, incluso para nuestro experimentado ingeniero superior, ha disminuido notablemente, lo que permite que los algoritmos informáticos se vuelvan estadísticamente más competentes a la hora de elegir recetas. La superposición del régimen invertido con la etapa de ajuste fino sugiere que es mejor relegar esta etapa a los algoritmos informáticos. La observación del fenómeno en forma de V para diferentes combinaciones de humanos y computadoras fortalece nuestra creencia de que nuestros conocimientos son generalizables a este pequeño problema de datos, a pesar del número relativamente pequeño de casos de prueba. Además, creemos que el fenómeno de la curva en V es una consecuencia natural de intentar minimizar el costo en el límite de datos costosos y tolerancias estrictas (como es el caso en muchos procesos de fabricación) cuando la necesidad de más datos compite directamente con el costo de obteniendo esos datos.

Para que la industria implemente las lecciones de la estrategia HF-CL en procesos de semiconductores reales, será esencial comprender cómo se aplican los conocimientos a otros procesos y cuándo los seres humanos deberían ceder el control; es decir, cómo identificar el punto de transferencia ideal antes del proceso. tiempo. Demostramos que el ahorro de costos depende de la combinación específica de algoritmo humano (Fig. 3 y Datos ampliados, Figs. 2 y 3). Además, esperamos que el lado derecho de la V podría no ser evidente si los objetivos estuvieran relajados o, por el contrario, podría dominar en procesos que solo necesitan volver a sintonizarse, como en el emparejamiento de cámaras (o transferir un proceso a otra herramienta). El conocimiento humano puede ser particularmente importante en un espacio de exploración de alta dimensionalidad, retrasando efectivamente la transferencia a la computadora. Otros factores que podrían afectar el punto de transferencia incluyen el ruido del proceso, la deriva del proceso, la tolerancia objetivo, el tamaño del lote, el rango restringido y la estructura de costos. Tenemos mucho que aprender. Estos temas son buenos candidatos para un mayor estudio sistemático en la plataforma de procesos virtuales.

Más allá de los desafíos técnicos, probablemente también habrá desafíos culturales al asociar humanos con computadoras26,27. En nuestro estudio, observamos que el comportamiento de las computadoras contrasta con la forma en que los ingenieros de procesos suelen desarrollar procesos. (1) Los ingenieros utilizaron casi exclusivamente cambios de parámetros univariados y bivariados para racionalizar su diseño experimental, mientras que las computadoras utilizaron cambios de parámetros multivariados sin ninguna explicación. A los humanos les puede resultar difícil aceptar recetas que no comprenden. (2) Los ingenieros solicitaron un promedio de cuatro experimentos por lote, mientras que las computadoras se limitaron a un solo experimento por lote, lo que probablemente se considere ineficiente en el laboratorio. (3) Los ingenieros progresaron constantemente hacia el objetivo (Fig. 2), mientras que las computadoras utilizaron estrategias exploratorias de elección de recetas que parecen sacrificadas (Datos ampliados, Fig. 5). Los movimientos contrarios a la intuición y sin emociones están bien documentados en los juegos realizados por ordenador28. En el laboratorio, los ingenieros de procesos tendrán que resistirse a intervenir y aumentar los costos inadvertidamente, sin ninguna garantía de éxito. En última instancia, confiar en los algoritmos informáticos significará cambiar décadas de expectativas culturales en la ingeniería de procesos. Esperamos que el entorno virtual ayude a los ingenieros de procesos a comprender mejor cómo asociarse con las computadoras en el desarrollo de tecnologías de procesos.

La aplicación de la IA a la ingeniería de procesos está todavía en sus inicios. La experiencia humana seguirá siendo esencial en el futuro previsible, ya que el conocimiento del dominio sigue siendo indispensable para navegar las primeras etapas del desarrollo del proceso. Sin embargo, el éxito de la estrategia HF-CL nos muestra que los humanos, como en aplicaciones de automatización anteriores, pronto se verán liberados de los aspectos tediosos del desarrollo de procesos. En el futuro, la capacidad de los algoritmos informáticos podría mejorarse codificando el conocimiento del dominio en los algoritmos (ya sea explícita o indirectamente) para permitir puntos de transferencia más tempranos. Existe abundante literatura sobre el aprendizaje por transferencia de dominios, en la que se pueden aprovechar datos de dominios similares pero no idénticos para acelerar el aprendizaje en nuevos dominios29. Otra área de interés en el campo de la IA es la impresión de conocimiento del dominio en forma de creencia previa23,30. De hecho, crear o aprender una buena experiencia previa podría considerarse una competencia para la estrategia HF-CL aquí estudiada. Otros enfoques potenciales en la literatura incluyen la incorporación de modelos de física mecanicista10. En cualquier caso, las relaciones complejas y altamente no lineales entre los parámetros de entrada y salida significan que se necesitarán más datos para actualizar cualquier modelo anterior en las proximidades del objetivo, en el que las interacciones de orden superior se vuelven prominentes. La necesidad perpetua de más datos en regímenes de interés específicos prácticamente garantiza que la ingeniería de procesos seguirá siendo susceptible al pequeño problema de los datos incluso con la ayuda de algoritmos informáticos.

En resumen, aunque los algoritmos informáticos por sí solos podían desarrollar un proceso de forma independiente mediante el uso de grandes cantidades de datos, no lograron hacerlo con un costo objetivo menor que el punto de referencia humano. Los algoritmos sólo podrían tener éxito cuando se asociaran con un experto para guiarlos hacia un régimen prometedor. Los resultados de este estudio apuntan a un camino para reducir sustancialmente el costo objetivo combinando las ventajas humanas e informáticas. Este enfoque poco convencional de la ingeniería de procesos requerirá cambios en el comportamiento humano para obtener sus beneficios. Los resultados de este estudio fortalecen nuestra confianza en que estamos en el camino de cambiar de manera marcada la forma en que se desarrollan los procesos para los chips semiconductores. Al hacerlo, aceleraremos un vínculo crítico en el ecosistema de semiconductores, utilizando la potencia informática que estos procesos de semiconductores permiten. De hecho, la IA ayudará a crearse a sí misma, de forma similar al famoso gráfico circular de MC Escher de dos manos dibujándose entre sí.

La plataforma de prueba representa un compromiso típico en nuestra industria en el que los parámetros de entrada se eligen para cumplir con las especificaciones objetivo proporcionadas por el fabricante de semiconductores según estrictos criterios de rendimiento. Los parámetros y rangos de herramientas simulados (valores 'sin restricciones' en la Tabla de datos ampliados 4) se basan en un reactor de grabado por plasma de doble frecuencia genérico31. Las métricas de salida se obtienen del perfil simulado.

Para cada receta elegida, los participantes reciben seis métricas de salida junto con un perfil de orificio de SiO2 simulado. Para las métricas de salida, CD denota "dimensión crítica". El CD superior se mide en la parte superior del orificio de SiO2, mientras que ΔCD (CD superior - CD inferior) se calcula restando el ancho al 90% de la profundidad del grabado ("inferior") del CD superior. Bow CD es sinónimo del ancho máximo de la característica. La altura de la máscara se refiere a la altura de la máscara fotorresistente diseñada para proteger el material subyacente del grabado. La altura de la máscara fotorresistente inicial es de 750 nm y el CD inicial tiene 200 nm de diámetro.

Vale la pena señalar que el tiempo del proceso no es un parámetro de entrada porque simulamos un detector de profundidad de grabado para detener automáticamente el grabado a la profundidad deseada. Para ahorrar tiempo de cálculo, la simulación se detiene si se deposita demasiado polímero en la parte superior, los CD se vuelven demasiado anchos o la velocidad de grabado es demasiado lenta. La tasa de grabado se calcula a partir de la profundidad posterior al grabado dividida por el tiempo (virtual) hasta el punto final.

Los parámetros de entrada controlan la creación de plasma en la cámara situada encima de la oblea semiconductora. La ignición del plasma convierte los gases neutros entrantes en una mezcla compleja de iones, electrones y radicales reactivos que inciden en la oblea. La química del proceso y los parámetros de entrada utilizados son típicos del grabado con plasma de SiO2 (ref. 32). Las potencias de radiofrecuencia encienden el plasma y modulan la energía iónica y las funciones de distribución angular. Los gases fluorocarbonados (C4F8, C4F6 y CH3F) controlan el ataque de SiO2 equilibrando la formación de compuestos volátiles, como SiF4, CO y CO2, y la deposición de una capa de pasivación similar al teflón para proteger la máscara y las paredes laterales33. Los parámetros de flujo de fluorocarbonos y O2 proporcionan otros medios para aumentar o disminuir la pasivación del carbono, respectivamente. El perfil grabado se produce a partir de la evolución temporal de los flujos de iones y radicales que interactúan con los materiales en la superficie de la oblea y calculando cómo evoluciona el frente de grabado con el tiempo.

Utilizamos un simulador de perfil de características patentado, una versión sustancialmente aumentada del simulador de procesos comercial SEMulator3D de Coventor34. La versión que utilizamos modela los procesos físicos y químicos detallados que ocurren durante el grabado, utilizando parámetros de plasma y materiales como el rendimiento de iones, el flujo de iones y los coeficientes de adherencia reactiva. Transformamos los 11 parámetros de entrada en una docena de parámetros de plasma y materiales para el simulador de perfiles. Siempre que es posible, utilizamos principios establecidos, derivados de la teoría cinética de los gases y la ecuación de Arrhenius, para transformar parámetros de entrada como presiones y temperaturas de obleas en flujos y velocidades de reacción. Cuando están disponibles, utilizamos relaciones empíricas de la literatura35,36,37 además de mediciones de diagnóstico patentadas.

SEMulator3D utiliza una variedad de métodos computacionales, incluidas operaciones de vóxeles discretos y métodos de ajuste de niveles tanto estáticos como transitorios38. El modelo central de esta publicación utiliza un método de ajuste de niveles transitorios con un modelo de física de plasma de alta fidelidad basado en flujo patentado. En el método de conjunto de niveles, no existe una representación explícita de los puntos de la superficie. En cambio, la distancia desde la superficie se almacena como un campo de distancia basado en el volumen alrededor de la estructura en lugar de en la superficie. Luego se resuelve una ecuación diferencial parcial en el volumen para propagar el campo de distancia a través del tiempo, usando la velocidad r = r(x, t) (que representa la velocidad de grabado, pulverización y deposición) del movimiento de la superficie, adecuadamente extendida para que sea una cantidad de volumen. . El costo principal de calcular r(x, t) en cualquier instante de tiempo es el cálculo de los flujos de partículas hacia cada punto de la superficie del perfil. Estos flujos difieren de los proporcionados por el modelo de plasma debido tanto a la sombra dentro de una característica profunda como a la reflexión de las partículas después de la colisión con otros puntos de la superficie. En particular, el flujo en un punto x se calcula como una integral sobre la superficie de la porción de la densidad de partículas f(x, v) que incide sobre la superficie, en la que v es la velocidad39. La metodología de ajuste de niveles basada en flujo contrasta con un método de pseudopartículas, que rastrea una pseudopartícula a lo largo de su vida desde el plasma hasta que reacciona y cambia el contenido químico de una celda de malla en el modelo40.

Para calcular los perfiles simulados en esta publicación, se estimó numéricamente la integral de flujo para calcular las velocidades r = r(x, t), que luego se usaron en el esquema de diferencias finitas para resolver la ecuación diferencial parcial de conjunto de niveles38. Para ahorrar tiempo de cálculo, elegimos una discretización espacial grande de 25 nm, lo que conduce a una variabilidad observada de ±2 nm en una ejecución típica. Cada simulación dura menos de diez minutos y utiliza 16 núcleos de unidades centrales de procesamiento y 32 GB de RAM.

La plataforma de prueba de proceso se validó de forma cruzada y se ajustó de forma iterativa hasta que reproduce cualitativamente los datos de recetas experimentales de aplicaciones de contacto de alta relación de aspecto. Se utilizó un análisis de sensibilidad para investigar las desviaciones con cada parámetro de entrada para garantizar que el modelo coincida con las tendencias conocidas.

El programa interno de la plataforma de prueba de procesos no se divulgó a los humanos encargados de resolver el desafío del proceso ni a los científicos de datos que desarrollan algoritmos de optimización de IA. Esto se hizo para evitar posibles sesgos en los resultados o ingeniería inversa de nuestra plataforma.

El Progress Tracker es nuestro indicador de desempeño para monitorear qué tan cerca está un proceso de alcanzar su objetivo. Para aclarar, este indicador es sólo para ilustrar el progreso; no se mostró a ningún participante ni fue utilizado por ningún algoritmo informático. En la práctica, los ingenieros de procesos monitorean el progreso hacia el objetivo utilizando una "tabla de control" en la que los resultados del proceso, como la tasa de grabado, están codificados por colores dependiendo de si cumplieron el objetivo, estuvieron cerca del objetivo o no alcanzaron el objetivo. No existe un indicador de rendimiento estándar de valor único que represente esta tabla completa, por lo que diseñamos el Progress Tracker para este propósito. Nuestro Progress Tracker tiene valores de 0 a 1 dependiendo de si el proceso cumplió con las especificaciones (0), falla (1) o se encuentra en algún punto intermedio (0-1). Clasificamos el consumo de parada de grabado y máscara como fallos (1).

Para calcular el Progress Tracker, tomamos la media de seis puntuaciones de las seis métricas de salida, normalizadas a 1, utilizando las definiciones de la Tabla de datos ampliados 1. A cada métrica de salida se le asigna una puntuación de 0 si cumple con los valores objetivo. (Todos los valores deben tener una puntuación de 0 para que el proceso cumpla el objetivo). A una métrica de salida se le asigna una puntuación de 1 si está lejos del objetivo. Para las métricas de salida que están cerca del objetivo, la puntuación se redujo linealmente de 1 a 0. Progress Tracker otorga una puntuación de 1 si el proceso falla debido a la parada del grabado (profundidad de grabado inferior a 2000 nm) o si no queda ninguna máscara (' "máscara restante" es igual a 0). Una vez que se calculan los valores del Progress Tracker para cada experimento, el Progress Tracker se traza como la mejor puntuación por lote con una ventana móvil de cuatro lotes en la Fig. 2 y Datos extendidos en la Fig. 1 y un lote en Datos extendidos en la Fig. 5.

Los datos de origen de las Figs. 2 y 3 se proporcionan con el papel. El autor correspondiente puede obtener más datos que respaldan los hallazgos de este estudio previa solicitud razonable.

La demostración del software de simulación utilizado en este estudio, que opera en una plataforma interna, está disponible a través del autor correspondiente previa solicitud razonable.

IEEE. Hoja de ruta internacional para dispositivos y sistemas, edición 2020 (IEEE, 2020).

Graves, DB Procesamiento por plasma. Traducción IEEE. Ciencia del plasma. 22, 31–42 (1994).

Artículo ADS CAS Google Scholar

Kanarik, KJ Dentro del misterioso mundo del plasma: la perspectiva de un ingeniero de procesos. J.vac. Ciencia. Tecnología. A 38, 031004 (2020).

Artículo CAS Google Scholar

Kurzweil, R. La singularidad está cerca: cuando los humanos trasciendan la biología (Viking, 2005).

Tegmark, M. Life 3.0: Ser humano en la era de la inteligencia artificial (Penguin, 2018).

Hsu, F.-H. Detrás de Deep Blue: construcción de la computadora que derrotó al campeón mundial de ajedrez (Princeton Univ. Press, 2002).

Plata, D. et al. Dominar el juego de Go sin conocimiento humano. Naturaleza 550, 354–359 (2017).

Artículo ADS CAS PubMed Google Scholar

Samukawa, S. y col. La hoja de ruta del plasma para 2012. J. Física. D 45, 253001 (2012).

ADS del artículo Google Scholar

Winters, HF, Coburn, JW y Kay, E. Grabado con plasma con un enfoque de “pseudo-caja negra”. J. Aplica. Física. 48, 4973–4983 (1977).

Artículo ADS CAS Google Scholar

Zhang, Y. & Ling, C. Una estrategia para aplicar el aprendizaje automático a pequeños conjuntos de datos en ciencia de materiales. Computación NPJ. Madre. 4, 28–33 (2018).

ADS del artículo Google Scholar

Kim, K. y col. Ampliar las tecnologías de memoria DRAM y FLASH a 10 nm y más. Proc. SPIE 8326, 832605 (2012).

Artículo de Google Scholar

Greenhill, S., Rana, S., Gupta, S., Vellanki, P. y Venkatesh, S. Optimización bayesiana para el diseño experimental adaptativo: una revisión. Acceso IEEE 8, 13937–13948 (2020).

Artículo de Google Scholar

Shao, K., Pei, X., Grave, DB y Mesbah, A. Exploración activa guiada por aprendizaje del espacio de parámetros de los plasmas de aire para mejorar la eficiencia energética de la producción de NOx. Fuentes de plasma Ciencia. Tecnología. 31, 055018 (2022).

ADS del artículo Google Scholar

Shahriari, B., Swersky, K., Wang, Z., Adams, RP y De Freitas, N. Sacar al ser humano del circuito: una revisión de la optimización bayesiana. Proc. IEEE 104, 148–175 (2016).

Artículo de Google Scholar

Lang, CI, Jansen, A., Didari, S., Kothnur, P. & Boning, DS Modelado y optimización del impacto de los parámetros de procesos y equipos en sistemas de deposición por pulverización catódica utilizando un marco de aprendizaje automático de procesos gaussianos. Traducción IEEE. Semisegundo. Fabricante. 35, 229–240 (2021).

Artículo de Google Scholar

Chen, Z., Mak, S. & Wu, CFJ Un método de mejora esperada jerárquica para la optimización bayesiana. Preimpresión en https://doi.org/10.48550/arxiv.1911.07285 (2019).

Guler, S., Schoukens, M., Perez, TD y Husakowski, J. Optimización bayesiana para ajustar procesos de litografía. IFAC-PapersOnLine 54, 827–832 (2021).

Artículo de Google Scholar

Foreman-Mackey, D., Hogg, DW, Lang, D. y Goodman, J. maestro de ceremonias: el martillo MCMC. Publ. Astron. Soc. Pac. 125, 306 (2013).

ADS del artículo Google Scholar

Akiba, T., Sano, S., Yanase, T., Ohta, T. y Koyama, M. en Proc. 25.a Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos 2623–2631 (ACM, 2019).

Bergstra, J., Bardenet, R., Bengio, Y. y Kégl, B. en Proc. 24ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (Curran Associates, 2011).

Rasmussen, CE y Williams, CKI Procesos gaussianos para el aprendizaje automático (MIT Press, 2006).

Fortuin, V. Prioridades en el aprendizaje profundo bayesiano: una revisión. En t. Estadística. Rev. 90, 563–591 (2022).

Artículo MathSciNet Google Scholar

Liang, Q. y col. Evaluación comparativa del rendimiento de la optimización bayesiana en múltiples dominios de ciencia de materiales experimentales. Computación NPJ. Madre. 7, 188 (2021).

ADS del artículo Google Scholar

Silver, N. La señal y el ruido: por qué tantas predicciones fallan, pero algunas no (Penguin, 2012).

Miller, JL Los ganadores del Nobel de Química aprovecharon la evolución para enseñar nuevos trucos a las proteínas antiguas. Física. Hoy 71, 22-25 (2018).

Artículo ADS CAS Google Scholar

Dietvorst, BJ, Simmons, JP & Massey, C. Aversión a los algoritmos: las personas evitan erróneamente los algoritmos después de verlos equivocarse. J. Exp. Psicólogo. Génesis 144, 114-126 (2015).

Artículo PubMed Google Scholar

Dafoe, A. y col. IA cooperativa: las máquinas deben aprender a encontrar puntos en común. Naturaleza 593, 33–36 (2021).

Artículo ADS CAS PubMed Google Scholar

AlphaGo contra Lee Sedol. Wikipedia https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol (2021).

Pan, SJ y Yang, Q. Una encuesta sobre el aprendizaje por transferencia. Traducción IEEE. Conocimiento. Ing. de datos. 22, 1345-1359 (2010).

Artículo de Google Scholar

Ziatdinov, MA, Ghosh, A. & Kalinin, SV La física marca la diferencia: optimización bayesiana y aprendizaje activo mediante procesos gaussianos aumentados. Mach. Aprender. Ciencia. Tecnología. 3, 015003 (2022).

ADS del artículo Google Scholar

Donnelly, VM & Kornblit, A. Grabado con plasma: ayer, hoy y mañana. J.vac. Ciencia. Tecnología. A 31, 050825 (2013).

Artículo de Google Scholar

Huang, S. y col. Grabado con plasma de características de alta relación de aspecto en SiO2 utilizando mezclas de Ar/C4F8/O2: una investigación computacional. J.vac. Ciencia. Tecnología. A 37, 031304 (2019).

Artículo de Google Scholar

Zheng, L., Ling, L., Hua, X., Oehrlein, GS y Hudson, EA Estudios de deposición de películas en plasmas de fluorocarbono que emplean una estructura de espacio pequeño. J.vac. Ciencia. Tecnología. A 23, 634–642 (2005).

Artículo CAS Google Scholar

Coventor, Inc. Plataforma de software de fabricación virtual SEMulator3D. http://www.coventor.com.

Steinbrüchel, C. Dependencia energética universal de los rendimientos del grabado físico y químico mejorado con iones con baja energía iónica. Aplica. Física. Letón. 55, 1960-1962 (1989).

ADS del artículo Google Scholar

Knoll, AJ, Pranda, A., Lee, H. y Oehrlein, GS Efecto de la temperatura del sustrato sobre el comportamiento de migración de precursores de películas de fluorocarbono en estructuras de alta relación de aspecto. J.vac. Ciencia. Tecnología. B 37, 031802 (2019).

Artículo de Google Scholar

Nelson, CT, Sant, SP, Overzet, LJ y Goeckner, MJ Cinética de superficie con bombardeo de baja energía iónica en plasmas de fluorocarbono. Fuentes de plasma Ciencia. Tecnología. 16, 813–821 (2007).

Artículo ADS CAS Google Scholar

Sethian, JA Métodos de establecimiento de niveles y métodos de marcha rápida: interfaces en evolución en geometría computacional, mecánica de fluidos, visión por computadora y ciencia de materiales (Cambridge Univ. Press, 1999).

Hamaguchi, S. & Dalvie, M. Simulaciones de microperfiles para grabado con plasma con pasivación de superficies. J.vac. Ciencia. Tecnología. 12, 2745–2753 (1994).

Artículo CAS Google Scholar

Hoekstra, RJ, Grapperhaus, MJ & Kushner, MJ Modelo de equipo de plasma integrado para perfiles de grabado de polisilicio en un reactor de plasma acoplado inductivamente con topografía de suboblea y superoblea. J.vac. Ciencia. Tecnología. Un 15, 1913-1921 (1997).

Artículo CAS Google Scholar

Descargar referencias

Agradecemos a CJ Spanos de UC Berkeley por sus útiles conversaciones y comentarios sobre el manuscrito y a nuestros colegas de Lam A. Faucett, A. Chowdhury, Y. Miao, Z. Blum, Q. Kong, L.-C. Cheng, R. Le Picard, E. Hudson, A. Marakhtanov y B. Batch por su ayuda con el proceso virtual. Agradecemos a S. Grantham y D. Belanger por los gráficos.

Lam Research Corporation, Fremont, California, EE. UU.

Keren J. Kanarik, Wojciech T. Osowiecki, Yu (Joe) Lu, Dipongkar Speaker, Niklas Roschewsky, Sae Na Park, Mattan Kamon, David M. Fried y Richard A. Gottscho

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

KJK concibió y diseñó el estudio con RAG, escribió el artículo con RAG y construyó el proceso virtual con WTOWTO construyó el proceso virtual con KJK y escribió parte de los Métodos. YL lideró el esfuerzo de ciencia de datos, creó software para adquirir datos para los algoritmos y analizó e interpretó datos. DT creó un software API que automatizó la participación del algoritmo. NR concibió el uso de Algo2, ejecutó resultados preliminares y ayudó a interpretar los datos. SNP construyó y ejecutó Algo3. MK ayudó a ampliar el software de simulación y escribió parte de Métodos. DMF supervisó la recopilación de datos y ayudó a la interpretación. RAG concibió el uso de un entorno virtual para el estudio y coescribió el artículo con KJK.

Correspondencia a Richard A. Gottscho.

Los autores declaran no tener conflictos de intereses.

Nature agradece a Duane Boning y Ying-Lang Wang por su contribución a la revisión por pares de este trabajo. Los informes de los revisores pares están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

El objetivo se cumple cuando el rastreador de progreso es 0. Ninguno de los participantes sin experiencia logró alcanzar el objetivo. Tenga en cuenta que el costo acumulado en el eje x se trunca en $200 000.

La línea azul es la trayectoria del ingeniero junior n.º 3 únicamente, con un costo objetivo de 190 000 dólares. La línea naranja en el eje secundario es el costo medio de HF-CL (usando Algo3) en los puntos de transferencia indicados (Tabla de datos ampliados 3). La dependencia en forma de V del costo-objetivo es evidente. HF-CL proporciona un impresionante ahorro de costes en el punto B′ en comparación con el ingeniero junior solo. Sin embargo, el costo objetivo sigue siendo notablemente más alto (aproximadamente el doble) que el de HF-CL utilizando la combinación experto-Algo 3.

Resultados para diferentes humanos asociados con Algo3 en la estrategia HF-CL. Consulte la Tabla 2 de datos ampliados para ver la notación. (Tenga en cuenta que SE1 es el punto C en la Fig. 3c y JE3 es el punto C′ en la Fig. 2 de Datos Extendidos). Cada humano transfirió un equivalente a $40 000 en datos (o el lote completo más cercano; consulte la Tabla 5 de Datos Extendidos) junto con un límite rango de búsqueda (Tabla de datos ampliados 4) a la computadora. Como In1 no tenía suficiente experiencia para limitar el rango, se utilizó un parámetro de rango adaptativo que buscaba un 10% más allá de la distribución de datos. Cada punto representa una de 100 trayectorias independientes. El costo objetivo es la suma del costo tanto del humano como del computador; las líneas naranjas son el costo objetivo medio; Las líneas horizontales negras indican el costo transferido del ser humano. Los costes más bajos se obtienen con los mayores niveles de experiencia. En general, los resultados respaldan que la estrategia HF-CL es más efectiva para reducir costos cuando se asocia con humanos más experimentados.

Esta figura muestra los resultados para HF-CL utilizando el experto y Algo3. La primera columna es el punto C en la Fig. 3c, en el que Algo3 recibe 32 puntos de datos expertos y el rango restringido. En la segunda columna, a Algo3 se le proporcionan solo los datos expertos pero no el rango restringido (en lugar de ello, se utiliza un parámetro de rango adaptativo que busca un 10% más allá de la distribución de datos). En la tercera columna, Algo3 recibe el rango restringido pero no recibe datos del experto, sino que utiliza 100 semillas de muestreo aleatorio de hipercubo latino (LHC) de 32 puntos diferentes. En la cuarta columna, Algo3 no recibe información del ser humano. Las flechas negras muestran el porcentaje de ahorro de costos en relación con el experto solo, con una flecha discontinua en la tercera columna porque no cobramos por el acceso a la restricción. Cada punto representa una de 100 trayectorias independientes. El rendimiento de Algo3 tanto con el rango restringido de expertos como con los datos humanos sugiere que el ingeniero, si es posible, debe proporcionar tanto los datos como el rango restringido al implementar HF-CL.

El objetivo se cumple cuando el Progress Tracker es 0. La trayectoria del experto (SE1) se muestra en gris, con transferencia a la computadora en el punto C. La línea azul es la trayectoria del algoritmo; la línea gris discontinua es la continuación de la trayectoria únicamente para el experto. El algoritmo es Algo1 en los paneles a – c, Algo2 en los paneles d – f y Algo3 en los paneles g – i.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kanarik, KJ, Osowiecki, WT, Lu, Y.(. et al. Colaboración entre humanos y máquinas para mejorar el desarrollo de procesos de semiconductores. Nature 616, 707–711 (2023). https://doi.org/10.1038/s41586-023 -05773-7

Descargar cita

Recibido: 12 de enero de 2022

Aceptado: 31 de enero de 2023

Publicado: 08 de marzo de 2023

Fecha de emisión: 27 de abril de 2023

DOI: https://doi.org/10.1038/s41586-023-05773-7

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR