domingo, 16 de agosto de 2015

Arquitectura de una FPGA: DCM


6. Generación de Reloj y su Distribución

Los FPGA tienen unos bloques de lógica dedicados exclusivamente a funciones de control y generación de señales de reloj. En los FPGAs de Xilinx a estos bloques genéricamente se los llama Digital Clock Managers (DCMs) (Gestores de Reloj Digitales). La cantidad de estos bloques disponibles en un FPGA depende del tamaño del mismo, puede haber desde 2 DCMs en los FPGAs más pequeños hasta 12 DCMs en los FPGA grandes.

Los DCMs integran capacidades avanzadas del reloj, dentro de la red de distribución dedicada del reloj del FPGA. Las principales funciones del DCM se pueden resumir en:
  1. Eliminar el sesgo del reloj (clock skew), ya sea dentro del FPGA o con componentes externos. De este modo se mejora el rendimiento del sistema y se eliminan los retardos de ruteo del reloj.
  2. Producir corrimiento de fase (Phase shifting) de una señal de reloj, ya sea por una fracción del periodo de reloj o por incrementos fijos. 
  3. Multiplicar o dividir la frecuencia de entrada del reloj, generando una frecuencia completamente nueva.
  4. Acondicionar la señal de entrada del reloj, asegurando un reloj limpio, con un ciclo de trabajo del 50%.
  5. Amplificar de nuevo (rebuffer) una señal de reloj, normalmente para eliminar el sesgo (deskew) y convertir la señal de entrada a un estándar diferente, por ejemplo, de LVDS a LVTTL.
La Figura 1 detalla gráficamente las distintas funcionalidades del DCM explicadas en los puntos anteriores (excepto el corrimiento de fase).

Figura 1. Diferentes opciones de uso del DCM

Tal como se explicó anteriormente, la señal de reloj usa rutas de conexión dedicadas, cuya distribución dentro del FPGA es bastante particular, tal como se puede ver en la Figura 2. El FPGA se divide en cuatro cuadrantes, los cuales pueden tener como máximo 8 relojes. Multiplexers dedicados seleccionan las señales de reloj que se van a usar en cada cuadrante. Las líneas de ruteo de reloj son líneas dedicadas de muy bajo retardo, de casi nula distorsión del ciclo de trabajo, con jitter (oscilación) mínimo y llegan a todos los elementos sincrónicos del FPGA.


Figura 2. Distribución de los DCMs y rutas de reloj en un FPGA Spartan

Los buffers de entrada (A-H) son buffers con características especiales, como, por ejemplo, conexión directa con el DCM (para evitar retardos de ruteo). De todos modos, una señal de reloj externa puede entrar a través del buffer de entrada y ser ruteado a los flip-flops del FPGA sin pasar por el DCM.

Para configurar un DCM se usa un software del fabricante del FPGA. En el caso de Xilinx se llama CoreGen (Core Generator) el cual tiene una interfaz grafica que facilita la configuración del DCM de acuerdo a las necesidades del diseño.

6.1. Ejemplo de uso del DCM- Eliminando el sesgo del reloj

Se detallará un ejemplo de uso del DCM como supresor del sesgo del reloj del sistema.

En todo sistema sincrónico existe inherentemente sesgo de reloj. Aún la señal de reloj más precisa llega en tiempos diferentes a los diferentes puntos del sistema, ya sea en un mismo dispositivo o a los diferentes dispositivos conectados a la fuente de reloj. Esa diferencia en el tiempo de llegada se conoce como sesgo de reloj (clock skew).

La Figura 3 detalla un ejemplo de un sistema simple que consta de un FPGA y otro dispositivo, que puede ser, por ejemplo, un microcontrolador, un ASIC, o lógica discreta. El reloj entra al FPGA (punto A) a través de un buffer de entrada, por ende sufre un cierto retardo. Usando ruteo dedicado (mínimo retardo, pero retardo al fin) llega a los flip-flops del FPGA (punto B). Luego de un cierto retardo, llamado ∆b en la Figura 3, sale a través de un buffer de salida (más retardo). Además, se le debería sumar también el retardo que sufre la señal a través de la línea de conexión del circuito impreso. Así, cuando el reloj llega al otro dispositivo (punto C) tiene un cierto retardo, creando un cierto desfasaje (sesgo) con el reloj original y con el reloj interno del FPGA (llamado ∆C en la Figura 3). El retardo es tal, que si se quieren transmitir datos desde el FPGA al dispositivo (punto D) se corre el riesgo de violar los tiempos del establecimiento o sostenimiento en el flip-flop del dispositivo receptor.

Figura 3.  Sistema con sesgo de reloj

Este problema del sesgo del reloj en la jerga técnica se conoce como "el ladrón del rendimiento del sistema". Como consecuencia de todos estos retardos, se incrementan los tiempos de establecimientos y los tiempos de retardo de los flip-flops (clock to output) y por lo tanto, se incrementa el periodo de reloj del sistema. De forma análoga, en algunos casos también puede que se requieran tiempos de mantenimiento más largos. Todos esto lleva a que necesariamente se deba buscar una solución a este problema.

Afortunadamente los DCMs internos de un FPGA ofrecen una manera sencilla de eliminar el sesgo de reloj de un sistema. La Figura 4 muestra un ejemplo de uso de dos DCMs del FPGA, un DCM tiene como función eliminar el sesgo del reloj dentro del FPGA, y el otro DCM elimina al sesgo del sistema, resultando prácticamente un alineamiento ideal del reloj en los distintos puntos (A, B, C, D) del sistema.

Figura 4. Uso de DCMs para eliminar sesgo de reloj dentro del FPGA y del sistema

¿Cómo se elimina el sesgo del reloj?. Se debe recordar primero que el sesgo es provocado por los retardos en el camino del reloj (buffers, ruteo, etc). En la Figura 4 el reloj en el punto B está retardado por ∆B y el reloj en el punto C está retardado por ∆C. Qué pasaría si existiera un modo de proveer en el punto B una versión ‘adelantada’ por el tiempo ∆B del reloj?, y otro modo de proveer al punto C una versión ‘adelantada’ por un tiempo ∆C del reloj? El resultado sería que todos los relojes arribarían a su destino perfectamente alineados tal como muestran las formas de ondas de la Figura 4-B. En realidad, el DCM lo que hace es retardar la señal de entrada de modo que parece estar adelantada en el tiempo. Por ejemplo en la Figura 4-C, el reloj en el punto B parece estar adelantado en el tiempo por el retardo ∆B. Sin embargo, la realidad es que el reloj está retardado por T (periodo del reloj)- ∆B. Del mismo modo para el reloj en punto C, el cual es retardado por T-∆C.

Una ventaja aún mayor al usar el DCM es que no es necesario conocer los valores de ∆B y ∆C, es decir no hace falta ni calcularlos ni medirlos, sino que el mismo DLL dentro del DCM constantemente monitorea el retardo por medio del lazo de realimentación (feedback loop) tal como se muestra en la Figura 4-A. Al usar los DCMs la performance total del sistema es óptima, anulando cualquier inherencia del sesgo del reloj en la misma.

Arquitectura de una FPGA: Interconexiones

5. Interconexiones en los FPGAs

Además de las celdas de lógica programable, los FPGAs tienen celdas de interconexión programables. Estas definen el camino (ruta) a seguir por cada señal interna del FPGA. La tecnológica de configuración y la arquitectura de la celda lógica determinan la estructura y complejidad de la interconexión. La Figura 1 muestra cómo se distribuyen las rutas de interconexión entre los CLBs. A la izquierda se muestra más en detalle cómo es la conexión interna entre las diferentes rutas de conexión, programable a través de transistores,

Figura 1.  Interconexión entre distintos caminos de ruteo

La programabilidad de la interconexión, si bien es una gran ventaja, agrega retardos a la señal que pasa por el transistor. Así, si una señal debe pasar por varios elementos de interconexión la suma total de los retardos puede ser considerable y debe ser tenida en cuenta en diseños de alta frecuencia. Por ello, a fin de no ir sumando demasiados retardos en cada interconexión, existe lo que se llaman rutas largas. De este modo, si una señal tiene que pasar por más de medio dispositivo puede hacerlo usando estas rutas largas, evitando las interconexiones intermedias. Del mismo modo, existen también las rutas cortas, llamadas conexiones directas, que comunican un bloque lógico con sus bloques vecinos.

Dentro del FPGA también existen lo que se llaman rutas dedicadas, que se usan para las señales que tienen mucha cargabilidad de salida (fan-out) en el sistema que se está diseñando. Las señales que más comúnmente usan las rutas dedicadas son el reloj y la habilitación del reloj (clock enable). Estas rutas tienen buffers especiales que hacen que la señal no se distorsione con la carga. Por ejemplo, en diseños grandes es fácil encontrar una señal de reloj que llegue a 2000 flip-flops.

Hay una relación directa entre la cantidad de interconexiones y el tamaño físico del FPGA. Por ello es que no se implementan físicamente todas las interconexiones posibles, así como, no todos los bloques lógicos están interconectados entre sí. A raíz de esto, para poder conectar la salida de un bloque lógico con la entrada de otro a veces se pasa por diversas interconexiones que conectan diferentes rutas para poder llegar a destino. Por suerte para el diseñador, el software del fabricante del FPGA realiza automáticamente todas las interconexiones. Es una tarea totalmente transparente al diseñador, siempre y cuando se cumplan los requisitos de tiempo estipulados por las especificaciones del sistema implementado. De lo contrario, el diseñador deberá optimizar algunos parámetros de la herramienta de ruteo (llamada Place and Route) para que pueda cumplir con las especificaciones de tiempo requeridas.

Figura 2. Vista macroscópica a vista microscópica de las interconexiones de un FPGA de Xilinx

La Figura 2 detalla las interconexiones en un FPGA de Xilinx. Se destacan las líneas verticales y horizontales que corren entres los bloques lógicos. La matriz de interconexiones programable (Programmable Switching Matrix, PSM) conecta las diferentes rutas dentro del FPGA a través de los transistores de paso. Se observan también las rutas largas (long lines) que cruzan todo el FPGA. Las rutas de conexión directa saltan sobre las matrices de interconexión para conectar directamente bloques lógicos adyacentes. Se destacan también los transistores que conectan las entadas y salidas de los bloques lógicos a las rutas generales de interconexiones, llamados puntos de interconexión programables (Programmable Interconnection Points, PIP). La Figura 3 detalla cómo se conectan dos bloques lógicos por medio de las matrices de conexión programables (PSM) y los puntos de interconexión programables (PIP).


Figura 3. Ejemplo de ruteo entre dos bloques lógicos a través de PIPs y PSMs

Finalmente, la Figura 4 resalta la importancia de las interconexiones de ruteo en un diseño. Es decir, del total de los recursos de un FPGA usados en este diseño, el 31% corresponde a recursos de interconexión, que es el porcentaje más elevado de recursos usados en este caso. Es por ello que este tema de las interconexiones y el ruteo son de gran importancia, realizándose estudios complejos para obtener algoritmos de optimización del ruteo, a fin de obtener resultados óptimos y evitar el congestionamiento de las rutas de conexión que derivan en una reducción del rendimiento general del FPGA.

Figura 4. Este gráfico resalta la importancia del retardo en los conectores de ruteo (Dr. G. Lemieux, UBC)

viernes, 7 de agosto de 2015

Arquitectura de una FPGA: Bloques DSP

4. Bloques de Multiplicación – Bloques DSP

Las aplicaciones de procesamiento digital de señales (DSP, Digital Signal Processing) basan sus cálculos básicamente en dos elementos: multiplicadores y sumadores. Para cálculos complejos se requiere un gran número de estos elementos, cuya implementación en LUTs resultaría muy compleja, consumiendo gran cantidad de la lógica disponible en el FPGA. Por ello, las generaciones nuevas de FPGAs incluyen en su arquitectura elementos lógicos configurables dedicados a la multiplicación (Spartan 3E) o los FPGAs más avanzados, que permiten hacer la multiplicación y la suma en paralelo (Virtex 4/5/6).

Figura 1. Bloque de Multiplicación en el Spartan 3E

La familia de FPGAs Spartan 3 provee en cada FPGA de 4 a 36 multiplicadores dedicados, detallados en la Figura 1, Estos multiplicadores están localizados cerca de los bloques de memoria RAM a fin de tener un mínimo retardo para la lectura y/o escritura de los datos. Cada multiplicador ejecuta la multiplicación P = A x B, donde A y B son datos de 18 bits en complemento a dos, y P es el resultado de 36 bits, también en C2. Los registros AREG, BREG y PREG son opcionales, pero su uso en una configuración tipo pipelining beneficia el rendimiento total del sistema.

En el rango de los FPGAs de más alto rendimiento, y por ello mucho más caros, se encuentran disponibles bloques más complicados llamados bloques DSP, o más precisamente DSP48 (ya se entenderá porque). La Figura 22 detalla la lógica interna del DSP48 de un Virtex-5 (similar al disponible en el Virtex-6).

Figura 22 - Bloque DSP en un Virtex-5/6

Viendo en detalle la Figura 2, se observa que consiste en un multiplicador de 25x18 bits en C2 y un acumulador de 48 bits. En conjunto pueden llegar trabajar a frecuencias de hasta 550MHz, lo que hace al FPGA un dispositivo muy adecuado para el cálculo en tiempo real de variables aritméticas complejas. Si se tiene en cuenta que un FPGA tipo Virtex-5 puede tener hasta 1056 bloques DSP y, más importante aún, es que pueden trabajar todos al mismo tiempo en paralelo. En muchas aplicaciones el FPGA a desplazados a los procesadores dedicados DSP por su paralelismo y alto rendimiento. Cuando se necesitan hacer cálculos complejos, por ejemplo Correlaciones, Filtros FIR, Convoluciones, etc.; se usa un flujo de diseño que comienza en MatLab-SimuLink y termina con la herramienta del fabricante del FPGA. Esto facilita enormemente el proceso de implementación de cálculos matemáticos complejos y aprovecha toda la capacidad del FPGA.

miércoles, 5 de agosto de 2015

Arquitectura de una FPGA: Bloque de Memoria RAM (BRAM)


3. Bloques de Memoria RAM (BRAM) 

    Para aplicaciones que requieren acceso a memoria, ya sea para escritura y lectura (tipo RAM) o sólo lectura (tipo ROM), los FPGAs tienen bloques de memoria RAM (BRAM) disponibles para usarlos de acuerdo a la necesidad. Aún cuando no se usen estos bloques, siguen estando dentro del FPGA. La cantidad de bloques disponibles depende del tamaño del FPGA. En la familia Spartan, por ejemplo, el rango de bloques de RAM disponibles va desde 4 hasta 100 bloques. Cada bloque de RAM contiene 18.432 bits de RAM estática rápida, de los cuales 16K son dedicados para datos, y los otros 2K para bits de paridad o para algunos bits extras de los datos almacenados. 

Se pueden conectar diferentes BRAMs en cascada, ya sea para tener un mayor ancho de la palabra de datos, para tener un mayor tamaño de la memoria o bien para ambas cosas (ancho + tamaño). En este caso el retardo es mínimo gracias a las conexione, ya que se usan recursos dedicados de ruteo. La Figura 1 muestra ejemplos de distintos tamaños de bloques de memoria que se pueden implementar usando un simple BRAM.

Figura 1. Diferentes configuraciones de relación datos/direcciones que se pueden implementar en los BRAMs

    Los BRAM son bloques configurables de acuerdo a las necesidades del diseño, es decir el mismo bloque puede ser configurado para que funciones como RAM, ROM, FIFO (First Input First Output), convertidor de ancho de palabra, buffers circulares y registros de desplazamientos. A su vez, cada una de estas configuraciones soporta diferentes anchos de la palabra de datos y diferentes tamaños del bus de direcciones.

Figura 2. BRAM de 18Kb como a) dual port y b) single port

    Tal como muestra la Figura 2, físicamente el bloque RAM (BRAM), tiene dos puertos de acceso completamente independientes, llamados Puerto A y Puerto B. La estructura es totalmente simétrica. Cada puerto de memoria tiene su propia señal de reloj, habilitación de reloj y habilitación de escritura. Por ello, cada puerto de memoria es sincrónico con su propio reloj, habilitación de reloj y habilitación de escritura. La lectura de la memoria es sincrónica y requiere un reloj y una habilitación de reloj.

Entre las principales aplicaciones de los BRAM se pueden destacar las siguientes:
  1. Almacenamiento de programas para procesadores embebidos en el FPGA.
  2. Rd/Wr variables durante cálculos matemáticos, por ej. Coeficientes para filtros FIR.
  3. Buffers circulares.
  4. Registros de desplazamiento o muy largos o muy anchos.
  5. Líneas de retardo.
  6. Realización de MEF usando técnicas de microprogramación.
  7. Contadores muy largos.
  8. Memorias Direccionables por Contenido (CAM) de alto rendimiento de Rd/Wr
  9. Almacenamiento de formas de onda o tablas de funciones trigonométricas para generar salidas tipo Direct Digital Synthesis (DDS) (Síntesis Digital Directa).
    Cabe aclarar que lo detallado con respecto al tamaño y cantidad de los BRAMs corresponde a la familia Spartan-3. Por otro lado, el Virtex-5 tiene algunas diferencias al respecto. Por ejemplo, cada bloque BRAM es de 36Kb, se puede configurar para disponer de código corrector de error tipo Hamming (usando 8 bits), las FIFOs tienen construidas la lógica de banderas dentro del BRAM, y así, otras características que por algo hacen a la V-5 más cara, pero de mayor rendimiento.

    Finalmente es necesario recordar algo ya analizado en el post anterior: Rebanadas (SLICE) de un CLB, para implementar pequeñas memorias se hace uso de los SLICEM, que tienen la opción de ser configurados como bloques de memoria de 16x1. Concatenando varios SLICEM se pueden tener memorias de tamaño pequeño y de rápido acceso.

lunes, 3 de agosto de 2015

Arquitectura de una FPGA: Bloque de Entrada/Salida (IOB)

2. Bloque de Entrada/Salida (Input/Output Block, IOB)

    Para poder recibir y transmitir señales digitales, los FPGAs disponen de un bloque de E/S bastante elaborado que posibilita usarlos con muy diversos rangos de tensiones, frecuencias de trabajo, estándares de señales digitales, etc, lo que los hace muy adaptables a las necesidades del sistema del que forman parte.

    Existe un bloque E/S por cada terminal de E/S del FPGA. Así cada terminal puede ser configurado como entrada, como salida o bidireccional. En cada bloque E/S existe un buffer que tiene diversas funciones configurables por el diseñador que permiten adaptar el FPGA en un sistema complejo trabajando con diferentes tensiones y corrientes, en un circuito impreso con muchos problemas de integridad de señal (signal integrity).

Figura 1. IOB de un Xilinx Spartan FPGA

En la Figura 1 se observa un diagrama de la estructura interna de un IOB. Se puede observar que hay tres caminos posibles para una señal:

a) Camino de entrada, que conecta el IO Pad (terminal del circuito integrado) a la lógica interna del FPGA. Esta conexión puede ser:
  • Directa, a través de un elemento de retardo (opcional).
  • Con registro usando el flip-flop IFF1
  • Con registro usando el flip-flop IFF2
    Las tres salidas del IOB, I, IQ1 e IQ2, se conectan al ruteo general interno del FPGA. El par de flip-flops IFF1 e IFF2 se usan para interfaces tipo DDR (dual data rate). De modo que el dato de entrada sea capturado en ambos flancos con distintos flip-flops. El flip-flop IFF1 suele ser usado como registro de entrada para reducir al mínimo el tiempo de establecimiento de la señal de entrada. Se observa también que cada entrada tiene un par equivalente (IO Pin from adjacent IOB) para el caso que se utilice una configuración de entrada diferencial, tales como LVDS.

b) Camino de salida, comunica la lógica interna con el IO Pad del FPGA. Entra al IOB por medio de O1 u O2, pasa a través de un multiplexor y del buffer de salida llegando al IO Pad. El par de flip-flops OFF1 y OFF2 se usan para transmitir datos en ambos flancos del reloj (DDR). También estos flip-flops se usan para poner registros en las señales de salida del FPGA, de modo de reducir al mínimo el tiempo de retardo de flip-flop (Clock to Output, Tco). Además, si se usan los IOB flip-flops en todas las señales de salida de un sistema, se reducen los diferentes tiempos de propagación entre las distintas salidas, generando una transición de las salidas “casi” al mismo tiempo.

c) Camino de alta impedancia, comunica la señal de control de alta impedancia con el buffer de salida. Esta ruta también dispone de un par de flip-flops para interfaces tipo DDR o para registrar en este bloque la señal de control de alta impedancia. Se observa también una realimentación de la señal que controla la alta impedancia del buffer de salida.

2.1. Buffer de E/S

  El buffer de Entrada/Salida del IOB es un buffer configurable de acuerdo al estándar de la Entrada/Salida que se desea. La Tabla 2 detalla los diferentes estándares de E/S disponibles en un FPGA, con sus respectivas tensiones de entrada y de salida, como así también, si se necesita alguna tensión de referencia o de terminación.

    En el caso del buffer de entrada, se puede configurar para trabajar con cualquiera de los estándares de E/S detallados en la Tabla 1. En algunos de estos estándares el buffer de entrada utiliza una tensión de referencia o disparo (threshold), VREF, que se suministra por un terminal determinado del FPGA. VREF normalmente se usa para generar las tensiones de referencia de estándares como diferencial HSTL (High Speed Transceiver Logic) y SSTL (Stub Series Terminal Logic). Este ultimo usado en las interfaces de memorias tipo DDR y DDR2.

    En el caso del buffer de salida, también se puede configurar para un amplio rango de estándares de E/S, tal como detalla Tabla 1. Pero también se puede configurar su corriente de salida (drive strength) y la pendiente de la señal de salida (slew control). Con estos dos controles se pueden minimizar los efectos de rebote de señal (ringing) y las emisiones de alta frecuencia.

Tabla 1. Estándares de E/S soportados por el Bloque E/S (IOB)

    Se puede observar en la Figura 1 que cada IOB tiene un diodo de protección a Vcco y otro a GND. Dispone de resistencias tipo pull-up y pull-down configurables, como así también un circuito de retención de bus (bus keeper o bus holder).

2.2. Bancos de E/S

    Los bloques de E/S (IOBs) están agrupados en lo que se llaman bancos de bloques de E/S (grupos de IOBs). Dependiendo del FPGA, cada banco puede tener entre 20 y 40 IOBs. Cada banco de IOBs tiene su propia tensión de alimentación (VCCO) y su propia tensión de referencia VREF que son comunes a todos los IOBs. Es por esta disposición de tensiones de VCCO y VREF por banco, que si se quieren usar diferentes estándares de E/S con diferente VCCO, se deberán usar diferentes bancos de E/S.

La Figura 2 muestra la división de los IOBs en 8 bancos de E/S en un FPGA Virtex 2.

Figura 2. Bancos de E/S

    Las herramientas usadas cuando se implementa un diseño en un FPGA automáticamente asignan terminales de diferentes bancos cuando los estándares E/S usados necesitan diferentes VCCO o VREF. De todos modos, el diseñador también tiene control suficiente para asignar terminales específicos de E/S a señales específicas de su diseño.

    Otra característica disponible en los IOBs es la de control digital de impedancia (no representada en la Figura 1), que permite controlar la impedancia de entrada o la de salida de los terminales del IOB. Una aplicación típica es, por ejemplo, adecuar la impedancia de salida del FPGA a la impedancia de la traza del circuito impreso (típicamente 50 ohms), para evitar o reducir al mínimo las posibles reflexiones de la señal digital. Esta función es configurable en un esquema banco por banco de IO, es decir cada banco puede tener su propia adaptación de impedancia.

viernes, 31 de julio de 2015

Arquitectura de una FPGA: Bloques Lógicos Configurables (CLB)

1. Bloque Lógico Configurable (CLB)

    Conocidos comúnmente como Bloque Lógico Configurable, (Configurable Logic Block, CLB), estos bloques son la parte lógica mayoritaria dentro de un FPGA. Su estructura macroscópica se detalla en la Figura 1, donde se puede ver que un CLB está constituido por 4 rebanadas (Slices), SLICEM S0, SLICEM S1, SLICEL S2 y SLICEL S3, rutas de conexión para el acarreo matemático, Cin y Cout (carry in, carry out), conexiones a la matriz de conexiones (Switch Matrix) que proveen acceso a las rutas de conexiones generales y conexiones locales entre las rebanadas del mismo CLB y CLBs vecinos.

Figura 1. Esquema de un CLB y su conexióna la matriz de conexión

    Tal como se aprecia en Figura 1 los SLICES se individualizan en coordenadas, desde al más abajo a la izquierda como SLICE X0Y0, hasta el superior derecho identificado como SLICE X1Y1. Del mismo modo para el CLB. Cada CLB se identifica con coordinadas XY dentro del arreglo matricial. Donde XY igual a 00 identifica el primer CLB en la esquina inferior izquierda de la matriz de CLBs, la coordenada del CLB suprior derecho dependerá del tamaño de la matriz, es decir del tamaño del FPGA.

1.1. Rebanadas (SLICE) de un CLB

Hay dos tipos de rebanadas (SLICEs) dentro de un CLB:

SLICEM: además de las funciones lógicas que se pueden implementar en el SLICE, ofrece opciones para implementar pequeñas memorias.
SLICEL: solo puede implementar funciones lógicas.

Figura 2. Vista simplificada de un SLICEL de un FPGA Spartan/ FPGAVirtex

La Figura 2 muestra una vista simplificada de un SLICEL, en la que se destaca lo siguiente:
  1. Dos tablas de búsquedas (Look-Up Tables)
  2. Dos flip-flops
  3. Cuatro salidas, dos combinacionales y dos con registros
  4. Tiene entradas de control para los flip-flops
  5. Entradas para las LUTs
  6. Entrada y salida para la cadena de acarreo (Carry Chain)
1.2. Tablas de Búsqueda - Look-up Tables (LUTs)

    En un FPGA toda la lógica combinacional se implementa utilizando tablas de búsqueda, LUT, es decir la función lógica se almacena en una tabla de verdad de 16x1 (para las LUTs de 4 entradas). En cierta literatura a las LUTs también se les llama “Generadores de Funciones” (Function Generators). La Figura 3 detalla la similitud entre una tabla de verdad y una LUT. La columna de valores Z, valores de la función combinacional, son los valores que realmente se almacenan en la LUT de 16x1. Vale recordar que, a menos que por alguna razón se quiera hacerlo manualmente, el almacenamiento de los valores en las LUTs lo realiza el Software del fabricante del FPGA, siendo el proceso totalmente transparente al diseñador del sistema digital.

Figura 3. Cómo se implementa una función combinacional en una LUT.

    Una característica que a veces es de mucha utilidad, sobre todo para sistemas de muy alta frecuencia, es que el retardo a través de la LUT es constante e independiente de la función implementada. Para implementar funciones lógicas de más de cuatro entradas en una LUT, se usan multiplexores dedicados que están distribuidos en el SLICE(L/M) y en el CLB para poder implementar cualquier función con un mayor número de entradas. Por ejemplo, para implementar cualquier función lógica de cinco entradas se usa el multiplexer F5Mux, que multiplexa las salidas de las dos LUTs (4 entradas) y la quinta entrada funciona como señal de selección del F5Mux. Si bien estos multiplexores dedicados podrían ser implementados en las LUTs, al ser dedicados son más eficientes y dejan las LUTs disponibles para otras funciones. Estos multiplexores no se pueden ver en la Figura 2, al ser una vista simplificada de un SLICE. Pero sí se pueden ver en la Figura 4, donde se destacan
los siguientes multiplexores:
  • F5Mux: multiplexa las salidas de las LUTs dentro del SLICE
  • F6Mux: multpilexa las salidas de los F5Mux de un SLICE
  • F7Mux: multiplexa las salidas de los F6Mux de un CLB
  • F8Mux: multiplexa las salidas de los F7Mux de dos CLBs

Figura 4. Multiplexores dedicados y sus conexiones dentro de un CLB.

    Como se puede ver en la Figura 4, cada SLICE tiene un F5Mux, y un segundo multiplexor llamado genéricamente FiMux. Esto se debe a que este multiplexor puede funcionar como F6Mux, F7Mux o F8Mux dependiendo de su ubicación y su conexión con los otros multiplexores. Se destaca que las conexiones entre los multiplexores se hacen a través de rutas de conexiones dedicadas a tal fin, con retardo cero. De todos modos, las salidas de estos multiplexores también están disponibles en la salida combinacional del CLB para acceder a las conexiones de ruteo general.

Nota: en la última versión de Spartan y Virtex, versión 6, las LUTs son de 6 entradas. Esto fue implementado después de trabajos de investigación llevados a cabo por Xilinx tratando de encontrar cual era el número óptimo de entradas para las LUTs. De todos modos, todo lo explicado en este punto para LUTs de 4 entradas, se aplica también para LUTs de 6 entradas.

1.3. Elementos de Almacenamiento. Flip-Flops

Figura 5. Detalle de la lógica del Registro/Cerrojo en un SLICE

    La Figura 5 detalla las posibles configuraciones del elemento de almacenamiento y sus respectivas señales de control. Cada SLICE posee dos elementos de almacenamiento programables que pueden funcionar como flip-flop D, o cerrojo (latch) transparente. El elemento de almacenamiento ubicado en la parte superior del SLICE se denomina FFY, mientras que el de la parte inferior se denomina FFX. Ambos elementos de almacenamiento tienen un multiplexor de selección para la entrada D, pudiendo seleccionar entre la salida de la respectiva LUT, DY o DX, o una entrada externa al SLICE, llamada BY para el elemento FFY y BX para el FFX.

    Se observa también que las señales de reloj, habilitación del reloj y reset (limpiar) son comunes al par de flip-flops en cada SLICE. El flip-flop tiene construido en su lógica interna la opción de poder poner en cero (reset) el flip-flop de manera sincrónica o asincrónica. La entrada REV (reverse) se usa
cuando se desea invertir el valor lógico de activación de la señal de reset.

1.4. Lógica de Acarreo (Carry)

     El CLB tiene lógica dedicada exclusivamente para el acarreo de la suma aritmética con el objeto de mejorar el rendimiento de sumadores, contadores, comparadores y funciones lógicas relacionadas. En la Figura 6 se detalla la lógica, descrita en compuertas, de cada bit de un sumador total. Mientras que la Figura 7 muestra la analogía entre la lógica del sumador total y la lógica disponible en un SLICE para implementar el sumador total de una manera más eficiente que si fuera implementado solo con LUTs.

Figura 6. Detalle de la lógica del Registro/Cerrojo en un SLICE

Figura 7. Relación entre la lógica de acarreo en un SLICE y el sumador total

La lógica de acarreo disponible en los CLB está constituida por los siguientes elementos, detallados en la Figura 7:
  • Compuertas lógicas dedicadas sólo para el acarreo
  • Multiplexores dedicados
  • Ruteo y conexiones dedicadas
1.5. Componentes del SLICE

    Después de haber visto en detalle los distintos componentes de un SLICE, es hora de ver como se utilizan e interconectan dentro del mismo. La Figura 8 muestra una vista generalizada de los componentes sin sus interconexiones.

Figura 8. Componentes de un SLICEM y SLICEL, sin sus interconexiones

    Como ya de detalló en 1.1, los FPGA de Xilinx tienen los SLICELs y los SLICEMs. Tal como se ve en la parte izquierda de la Figura 8, el SLICEM permite implementar bloques de memoria, registros de desplazamiento y lógica combinacional en una especie de LUT-multifunción. En los dispositivos actuales, aproximadamente un 50% del total de los CLBs de un FPGA contienen SLICEM y el otro 50% SLICEL. En versiones anteriores de FPGAs, el 100% de los CLBs eran SLICEM, pero esto fue cambiando hasta llegar a la relación actual de 50-50. Esto se debe principalmente a dos motivos: primero, si bien el SLICEM es más genérico, físicamente ocupa más lugar que el SLICEL y por ende,
hace el dispositivo más costoso. Segundo, se llevaron a cabo intensos estudios del uso del CLB, y rara vez se usaba más del 50% de ellos como SLICEM.

    La Figura 9 muestra todos los bloques vistos anteriormente por separado (excepto las funciones unidas por líneas de puntos que no se han descripto todavía), ahora juntos en un SLICEM. Se procederá a describir la mitad inferior del SLICE (que es exactamente igual a la mitad superior).

Figura 9. Detalle de un SLICEM

    Cuatro líneas de señal de entradas, F(4:1), entran directamente a la LUT o Generador de Funciones F. Tal como se detalló antes, en la LUT o GF se genera la lógica combinacional necesaria. La salida de la LUT o GF, llamada D, tiene cuatro caminos posibles:
  1. Salir en forma directa o negada (XORF) por la salida X, pasando por el multiplexor FXMUX.
  2. Entrar por la entrada de datos D al elemento de almacenamiento FFX, cuya salida es XQ.
  3. Controlar el mutliplexor CYMUXF de la cadena de acarreo.
  4. Entrada de datos al multiplexor F5Mux para implementar funciones combinacionales de más de 4 entradas.
Otras entradas al SLICE son BY y BX, conocidas como Bypass Y y Bypass X. Estas pueden tener una de las siguientes funciones:
  1. Eludir (bypass) la LUT y entrar a la entrada D del elemento de almacenamiento. De este modo, en una mitad de un SLICE se puede tener al mismo tiempo una función combinacional y otra secuencial.
  2. Controlar el multiplexor F5Mux.
  3. Entrar a la cadena de acarreo.
  4. BY (solamente) controla la entrada REV de FFY y FFX (ver la Figura 5).
    Se debe resaltar el hecho de que los dos elementos de almacenamiento del SLICE son controlados por el mismo reloj y las mismas señales de habilitación de reloj y de reset. También que la salida de una mitad del SLICE, por ejemplo XQ, puede entrar en la otra mitad del SLICE, por la entrada BY por ejemplo, utilizando rutas de conexión local. Esto es muy usado para sincronizar una señal asincrónica utilizando doble flip-flop, con un mínimo retardo entre ellos.

jueves, 30 de julio de 2015

Arquitectura de un FPGA


    En un post anterior se explicó que la celda de configuración es el elemento básico de cualquier FPGA y que en ella se determina la configuración de cada elemento lógico y la configuración de los elementos de ruteo y de las interconexiones. Ahora toca hablar sobre otros componentes y como estos están organizados dentro de un FPGA para que puedan realizar la función de lo que nosotros hemos programado, es decir hablaremos sobre su Arquitectura Interna.

   La arquitectura de un FPGA varía de un fabricante a otro. En realidad es una discusión permanente, en la que cada fabricante se atribuye que tiene la mejor arquitectura. Independientemente del fabricante elegido para el diseño, ciertamente el más beneficiado en esta competencia es el usuario final de los FPGAs. En la carrera por diferenciarse como el mejor, cada fabricante incluye tecnología de punta en sus dispositivos, aumenta el rendimiento, baja los costos, ofrece bloques enteros de propiedad intelectual (Intellectual Property, IP) como así también bloques en silicio dentro del FPGA para aplicaciones complejas especificas, tales como procesador(es) PowerPC, Gigabit Transceivers, PCIe, controlador Ethernet, etc.

    A pesar de tratar de diferenciarse uno del otro, en realidad los FPGAs de los diferentes fabricantes tienen muchos componentes en común, tales como bloques lógicos programables, bloques de memoria de doble puerto (dual port), bloques para ejecución de MACs ( Multiplicador–Acumulador o bloques DSPs), bloques de control de reloj (generación de frecuencias a partir de una frecuencia base, corrimiento de fase), bloques de entrada/salida, etc. Debido a su similitud con otros FPGAs, en este blog se verá en detalle la arquitectura de uno de los fabricantes, los FPGAs de Xilinx.

    La empresa Xilinx ofrece al mercado dos tipos de FPGAs: una de bajo costo, performance media y otra de alto costo, performance alta-muy alta. La primera se denomina la familia de los FPGA Spartan, y la segunda los FPGA Virtex. A su vez, y debido a la gran competitividad del mercado, estas familias se van renovando cada dos o tres años. Tal es así que, por ejemplo, la familia Spartan fué evolucionando como Spartan, Spartan 2, Spartan 3 y la recientemente lanzada Spartan 6. Del mismo modo para la Virtex, comenzando con Virtex, Virtex-E, Virtex 2, Virtex 2Pro, Virtex 4, Virtex 5 y la reciente Virtex 6.

Figura 1. Arquitectura de un FPGA Spartan 3

    Por ejemplo, la Figura 1 muestra cómo están organizados los distintos componentes en un FPGA Spartan 3. Se puede observar el anillo de bloques de E/S (Input/Output Blocks, IOBs) que rodea el arreglo matricial de los bloques lógicos configurables (Configurable Logic Blocks, CLBs). Los bloques de memoria RAM en realidad constan de varios bloques de memoria RAM de 18K bits. Cada
bloque de memoria RAM está asociado a un multiplicador dedicado. Los controladores de reloj (Digital Clock Manager, DCM) están distribuidos de manera que hay dos en la parte superior, dos en la inferior y uno en cada uno de los costados del FPGA. En la Figura no se muestran la gran cantidad de recursos destinados a la interconexión de los diferentes componentes del FPGA.

Los seis elementos funcionales programables que componen la arquitectura de un FPGA modelo Spartan III son los siguientes:
  1. Bloques Lógicos configurables (Configurable Logic Blocks – CLBs): Contienen Look-Up Tables basadas en tecnología RAM (LUTs) para implementar funciones lógicas y elementos de almacenamiento que pueden ser usados como flip-flops o como latches. 
  2. Bloques de entrada/salida (Input/Output Blocks – IOBs): Controlan el flujo de datos entre los pines de entrada/salida y la lógica interna del dispositivo. Soportan flujo bidireccional más operación tri-estado y un conjunto de estándares de voltaje e impedancia controlados de manera digital.
  3. Bloques de memoria RAM (Block RAM): Proveen almacenamiento de datos en bloques de 18 Kbits con dos puertos independientes cada uno.
  4. Bloques de multiplicación: Aceptan dos números binarios de 18 bit como entrada y entregan uno de 36 bits.
  5. Celdas de Interconexión: Son celdas que definen el camino (ruta) a seguir por cada señal interna del FPGA. 
  6. Administradores digitales de reloj (Digital Clock Managers – DCMs): Estos elementos proveen funciones digitales auto calibradas, las que se encargan de distribuir, retrazar arbitrariamente en pocos grados, desfasar en 90, 180, y 270 grados, dividir y multiplicar las señales de reloj de todo el circuito.