사용자 도구

사이트 도구


컴퓨터_구조

문서의 이전 판입니다!


4.3 SIMD Instruction Set Extensions for Multimedia

SIMD Multimedia Extensions started with the simple observation that many media applications operate on narrower data types than the 32-bit processors were optimized for.

SIMD 멀티미디어 확장 기능은 많은 미디어 애플리케이션들이 32-bit 프로세서에서 최적화 되었지만 더 작은 데이터 타입들로 동작하는 간단한 관찰에서 시작되었습니다.

Many graphics systems used 8 bits to represent each of the three primary colors plus 8 bits for transparency.

많은 그래픽 시스템은 세 가지 원색에 투명도를 위한 8 bit를 더하고 각 각을 표현하는데 8 bits 를 사용했다.

Depending on the application, audio samples are usually represented with 8 or 16 bits.

애플리케이션에 따라서 오디오 샘플은 대개 8 또는 16 비트로 표현할 수 있습니다.

By partitioning the carry chains within, say, a 256-bit adder, a processor could perform simultaneous operations on short vectors of thirty-two 8-bit operands, sixteen 16-bit operands, eight 32-bit operands, or four 64-bit operands.

캐리 체인을 분할하게 되면, a 256-bit 가산기, 프로세서는 동시에 32개 8-bit 피연산자, 16개 16-bit 피연산자, 8개 32-bit 피연산자 또는 4개 64-bit 피연자의 작은 벡터들로 수행할 할 수 있다.

The additional cost of such partitioned adders was small.

이렇게 adders 분할했을 때의 추가 비용은 적다.

Figure 4.8 summarizes typical multimedia SIMD instructions.

그림 4.8은 일반적인 멀티미디어 SIMD 지침을 요약한 것입니다.

Like vector instructions, a SIMD instruction specifies the same operation on vectors of data.

벡터 명령들 처럼, SIMD 명령은 데이터의 벡터에 대한 동일한 동작을 지정합니다.

Unlike vector machines with large register files such as the VMIPS vector register, which can hold as many as sixty-four 64-bit elements in each of 8 vector registers, SIMD instructions tend to specify fewer operands and hence use much smaller register files.

VMIPS 벡터 레지스터와 같은 큰 레지스타 파일을 갖는 벡터 머신들과 8 개 벡터 레지스터 각 각에 64개의 64-bit 요소를 저장하는 것과 달리 SIMD 명령은 작은 피연산자를 지정하는 경향이 있어서 작은 레지스터 파일을 사용한다.

In contrast to vector architectures, which offer an elegant instruction set that is intended to be the target of a vectorizing compiler, SIMD extensions have three major omissions:

vectorizing 컴파일러를 대상으로 우아한 명령 집합을 제공하는 벡터 아키텍쳐와는 다르게 SIMD 확장은 3가지 주요 누락을 가진다.

■ Multimedia SIMD extensions fix the number of data operands in the opcode, which has led to the addition of hundreds of instructions in the MMX, SSE, and AVX extensions of the x86 architecture.

x86 아키텍처의 MMX, SSE, 그리고 AVX 확장내에 수백개의 인스트럭션이 추가되어 가지고 있으나 멀티미디어 SIMD 확장은 opcode내의 data 피연산자의 개수를 고정시킨다.

Vector architectures have a vector length register that specifies the number of operands for the current operation.

벡터 아키텍처는 현재 작업(operation)에 대한 피연산자의 수를 지정 벡터 길이 레지스터에 가지고 있습니다.

These variable-length vector registers easily accommodate programs that naturally have shorter vectors than the maximum size the architecture supports.

이러한 가변 길이 벡터는 쉽게 프로그램이 수용하도록 자연스럽게 아키텍처가 지원하는 최대 크기보다 작은 벡터를 가집니다.

Moreover, vector architectures have an implicit maximum vector length in the architecture, which combined with the vector length register avoids the use of many opcodes.

더욱이, 벡터 아키텍처는 벡터 길이 레지스터로 많은 opcode 사용을 피하도록 하고 아키텍처에서 암시적의로 최대 벡터 길이를 가진다.

Instruction category Operands
Unsigned add/subtract Thirty-two 8-bit, sixteen 16-bit, eight 32-bit, or four 64-bit
Maximum/minimum Thirty-two 8-bit, sixteen 16-bit, eight 32-bit, or four 64-bit
Average Thirty-two 8-bit, sixteen 16 16-bit, eight 32-bit, or four 64-bit
Shift right/left Thirty-two 8-bit, sixteen 16-bit, eight 32-bit, or four 64-bit
Floating point Sixteen 16-bit, eight 32-bit, four 64-bit, or two 128-bit
Figure 4.8 Summary of typical SIMD multimedia support for 256-bit-wide operations. Note that the IEEE 754-2008 floating-point standard added half-precision (16-bit) and quad-precision (128-bit) floating-point operations.
그림 4.8 256bit-wide 연산을위한 대표적인 SIMD 멀티미디어 지원에 대한 요약. IEEE 754-2008 부동 소수점 표준에 절반 정밀도를 추가(16비트) 및 쿼드 정밀(128비트) 부동 소수점 연산을 추가했다.

■ Multimedia SIMD does not offer the more sophisticated addressing modes of vector architectures, namely strided accesses and gather-scatter accesses.

멀티미디어 SIMD는 벡터 아키텍처에 더 세련되고 정교한 주소지정 모드를 제공하지 않습니다. 다시 말하면, 큰 범위의 포괄적 접근과 gather-scatter 접근이다.

These features increase the number of programs that a vector compiler can successfully vectorize ( see Section 4.7 )

이러한 특징은 vector 컴파일러가 성공적으로 vectorize하게하고 프로그램의 수가 증가한다. ( 참고 Section 4.7 )

■ Multimedia SIMD usually does not offer the mask registers to support conditional execution of elements as in vector architectures.

멀티미디어 SIMD는 일반적으로 벡터 아키텍처 요소의 조건부 실행을 지원하는 mask 레지스터를 제공하지 않습니다.

These omissions make it harder for the compiler to generate SIMD code and increase the difficulty of programming in SIMD assembly language.

이러한 누락은 SIMD 코드 생성과 SIMD 어셈블리 언어로 프로그래밍하는데 어려움을 증가시켜 컴파일러에 대한 그것을 만들기 더 어렵게 한다.

For the x86 architecture, the MMX instructions added in 1996 repurposed the 64-bit floating-point registers, so the basic instructions could perform eight 8-bit operations or four 16-bit operations simultaneously.

x86 아키텍처의 경우, 1996년에 64-bit floating-point 레지스터의 목적을 달리해 MMX 인스트럭션이 추가됐다. 또한 기본 명령어들은 8개 8-bit 작업 또는 4개 16-bit 작업들을 동시에 수행할 수 있다.

These were joined by parallel MAX and MIN operations, a wide variety of masking and conditional instructions, operations typically found in digital signal processors, and ad hoc instructions that were believed to be useful in important media libraries.

여기에는 병렬 MAX 와 MIN 작업, 마스킹의 다양한 종류, 조건부 인스트럭션들, 디지털 신호 처리에서 일반적인 작업을 찾았고 특수한 인스트력션들에서 중요한 미디어 라이브러리에서 유용할 것이라 믿는 특수한 인스트럭션들이 포함되었다.

Note that MMX reused the floating-point data transfer instructions to access memory.

MMX가 메모리에 액세스하는 부동 소수점 데이터 전송 인스트럭션을 재사용합니다.

The Streaming SIMD Extensions (SSE) successor in 1999 added separate registers that were 128 bits wide, so now instructions could simultaneously perform sixteen 8-bit operations, eight 16-bit operations, or four 32-bit operations.

1999년에 Streaming SIMD 확장(SSE)에 이어 128 비트 와이드 레지스트를 별도로 추가했고 현재 인스트럭션은 16개 8-bit 작업, 8개 16-bit 작업, 또는 4개 32-bit 작업을 동시에 수행할 수 있다.

It also performed parallel single-precision floating-point arithmetic.

이것은 또한 병렬 단일-정밀도 floating-point 연산을 수행한다.

Since SSE had separate registers, it needed separate data transfer instructions.

SSE가 별도의 레지스터를 갔게된 이후, 이것은 별도의 데이터 전송 인스트럭션을 필요로 했습니다.

Intel soon added double-precision SIMD floating-point data types via SSE2 in 2001, SSE3 in 2004, and SEE4 in 2007.

인텔은 곧 배정밀도 SIMD floating-point 데이터 타입들을 2001년에 SSE2, 2004년에 SSE3, 2007년에 SSE4를 통해 추가했다.

Instructions with four single-precision floating-point operations or two parallel double-precision operations increased the peak floating-point performance of the x86 computers, as long as programmers place the operands side by side.

4개 단일 정밀도 floating-point 작업과 병령 배 정밀도 작업 인스트럭션은 x86 컴퓨터의 부동 소수점(floating-point) 성능을 향상 시켰다. 피연산자에 대한 프로그래머의 입장에서도( as long as programmers place the operands side by side. )

With each generation, they also added ad hoc instructions whose aim is to accelerate specific multimedia functions perceived to be important.

각 세대에서 그것들만의 중요하게 인식되는 구체적인 멀티미디어 기능을 가속화시킬 목적으로 특별한 인스트럭션이 추가됐다.

The Advanced Vector Extensions (AVX), added in 2010, doubles the width of the registers again to 256 bits and there by offers instructions that double the number of operations on all narrower data types.

고급 벡터 확장(AVX)은 다시 레지스터의 넓이를 두배인 256비트로 모든 작은 데이터 타입들에 작업(operations)의 두배 수 인스트럭션을 제공하게 2010년에 추가했다.

Figure 4.9 shows AVX instructions useful for double-precision floating-point computations.

그림 4.9는 배정 밀도 부도 소수점 계산에 대한 유용한 AVX 인스트럭션을 보여줍니다.

AVX includes preparations to extend the width to 512 bits and 1024 bits in future generations of the architecture.

AVX는 아키텍처의 다음 세대에서 폭을 512 비트, 1024 비트로 확대하기 위한 준비를 포함한다.

In general, the goal of these extensions has been to accelerate carefully written libraries rather than for the compiler to generate them (see Appendix H), but recent x86 compilers are trying to generate such code, particularly for floating-point-intensive applications.

일반적으로 이러한 확장 목표(부록 H참조)를 생성하는 컴파일러에 대해보다 신중하게 작성된 라이브러리를 가속화기 위해 왔다지만 최근 X86 컴파일러 특히 부동 소수점 집약적인 애플리케이션과 같은 코드를 생성하려고합니다.

Given these weaknesses, why are Multimedia SIMD Extensions so popular?

이러한 약점을 감안할 때, 왜 멀티미디어 SIMD Extensions가 인기인가요?

First, they cost little to add to the standard arithmetic unit and they were easy to implement.

첫째, 그들은 표준 연산 장치에 추가할 약간의 비용 그리고 그들은 쉽게 구현할 수 있었습니다.

Second, they require little extra state compared to vector architectures, which is always a concern for context switch times.

둘째, 그들은 벡터 아키텍처는 항상 컨텍스트 스위치 시간에 대한 관심사에 비해 약간의 여분의 상태를 필요로합니다.

Third, you need a lot of memory bandwidth to support a vector architecture, which many computers don't have.

셋째, 당신은 많은 컴퓨터가없는 벡터 아키텍처를 지원하는 메모리 대역폭을 많이 필요로 합니다.

Fourth, SIMD does not have to deal with problems in virtual memory when a single instruction that can generate 64 memory accesses can get a page fault in the middle of the vector.

넷째, SIMD는 64메모리 접근을 생성할 수 있는 단일 명령은 벡터의 중간에 페이지 오류를 얻을 수 있을 때 가장 메모리에 문제를 감당해내야만하지 않습니다.

AVX Instruction Description
VADDPD Add four packed double-precision operands
VSUBPD Subtract four packed double-precision operands
VMULPD Multiply four packed double-precision operands
VDIVPD Divide four packed double-precision operands
VFMADDPD Multiply and add four packed double-precision operands
VFMSUBPD Multiply and subtract four packed double-precision operands
VCMPxx Compare four packed double-precision operands for EQ, NEQ, LT, LE, GT, GE, …
VMOVAPD Move aligned four packed double-precision operands
VBROADCASTSD Broadcast one double-precision operands to four locations in a 256-bit register
Figure 4.9 AVX instructions for x86 architecture useful in double-precision floating-point programs. Packed double for 256-bit AVX means four 64-bit operands executed in SIMD mode. As the width increases with AVX, it is increasingly important to add data permutation instructions that allow combinations of narrow operands from different parts of the wide registers. AVX includes instructions that shuffle 32-bit, 64-bit, or 128-bit operands within a 256-bit register. For example, BROADCAST replicates a 64-bit operand 4 times in an AVX register. AVX also includes a large variety of fused multiply-add/subtract instructions; we show just two here.
배정밀도 부동 소수점 프로그램에서 유용 x86아키텍처에 대한 그림 4.9 AVX 지침. 256 비트를 위해 이중 포장 AVX는 SIMD 모드에서 실행되는 네 64비트 피연산자를 의미합니다. 너비가 AVX로 증가로서 데이터에게 다양한 레지스터의 다른 부분에서 좁은 피연산자의 조합을 허용 순열 지침을 추가하기 위해 점점 더 중요합니다. AVX는 지시를 포함 셔플 32비트, 64비트 또는 256비트 레지스터 내에서 128비트 피연산자. 예를들어, 방송 AVX레지스터의 64비트 오퍼랜드 4번 복제합니다. AVX또한 융합된 multiply-add/subtract 지침의 큰 다양성을 포함, 우리는 여기서 두 개만 표시됩니다.

SIMD extensions use separate data transfer per SIMD group of operands that are aligned in memory, and so they cannot cross page boundaries.

SIMD 확장 메모리에 정렬됩니다 피연산자의 SIMD 그룹 당 별도의 데이터 전송을 사용하고, 그래서 그들은 페이지 경계를 교차할 수 없습니다.

Another advantage of short, fixed-length “vectors” of SIMD is that it is easy to introduce instructions that can help with new media standards, such as instructions that perform permutations or instructions that consume either fewer or more operands than vectors can produce.

SIMD의 짧은 고정길이 '벡터'의 또 다른 장점은 그러한 순열을 수행 지침 또는 두 벡터가 생산할 수 있는 것보다 적게 이상의 피연산자를 소비 지침 등 새로운 미디어의 기준과 도움 지침을 소개하고 쉽다는 점이다.

Finally, there was concern about how well vector architectures can work with caches.

마지막으로, 벡터 아키텍처 캐시 작업할 수 얼마나 잘 대해 우려가 발생했습니다.

More recent vector architectures ahve addressed all of these problems, but the legacy of past flaws shaped the skeptical attitude toward vectors among architects.

최근 벡터 아키텍처는 이러한 문제를 모두 해결했지만 과거 결함의 유산 건축가들 사이에 벡터 대한 회의적인 태도를 형성.

Example

To give an idea of what multimedia instructions look like, assume we added 256-bit SIMD multimedia instructions to MIPS.

멀티미디어 지침이 어떻게 생겼는지의 아이디어를 부여하려면, 우리는 MIPS로 256비트 SIMD 멀티미디어 지침에 추가된 가정합니다.

We concentrate on floating-point in this example.

우리는 이 예제에서 부동 소수점 집중.

We add the suffix “4D” on instructions that operate on four double-precision operands at once.

우리는 한번에는 네 이중 정밀 피연산자에서 작동 지침에 접미사 “4D”를 추가합니다.

Like vector architectures, you can think of a SIMD processor as having lanes, four in this case.

벡터 아키텍처와 마찬가지로, 이 경우 차선, 넷 것으로 SIMD 프로세서를 생각할 수 있습니다.

MIPS SIMD will reuse the floating-point registers as operands for 4D instructions, just as double-precision reused single-precision registers in the original MIPS.

MIPS SIMD 이중 정밀 원래 MIPS에서 단일 정밀 레지스터를 재사용마찬가지로 4D 지침 피연산자로 부동 소수점 레지스터를 다시 사용합니다.

This example shows MIPS SIMD code for the DAXPY loop.

이 예제는 DAXPY루프 MIPS SIMD 코드를 보여줍니다.

Assume that the starting addresses of X and Y are in Rx and Ry, respectively.

X와 Y의 시작 주소가 각각 RX와 공예에있는 것으로 가정합니다.

Underline the changes to the MIPS code for SIMD.

SIMD를 위한 MIPS코드에 변경 내용을 밑줄

Answer

Here is the MIPS code:

		L.D		F0, a		;load scalar a
		MOV		F1, F0		;copy a into F1 for SIMD MUL
		MOV		F2, F0		;copy a into F2 for SIMD MUL
		MOV		F3, F0		;copy a into F3 for SIMD MUL
		DADDIU	R4,Rx,#512	;last address to load
Loop:	L.4D	F4, 0(Rx)	;load X[i], X[i+1], X[i+2], X[i+3]
		MUL.4D	F4, F4, F0	;a*X[i], a*X[i+1], a*X[i+2], a*X[i+3]
		L.4D	F8, 0(Ry)	;load Y[i], Y[i+1], Y[i+2], Y[i+3]
		ADD.4D	F8, F8, F4	;a*X[i]+Y[i], ..., a*X[i}3]+Y[i+3]
		S.4D	F8, 0(Rx)	;store into Y[i], Y[i+1], Y[i+2], Y[i+3]
		DADDIU	Rx, Rx, #32	;increment index to X
		DADDIU	Ry, Ry, #32	;increment index to Y
		DSUBU	R20, R4, Rx	;compute bound
		BNEZ	R20, Loop	;check if done

The changes were replacing every MIPS double-precision instruction with its 4D equivalent, increasing the increment from 8 to 32, and changing the registers from F2 and F4 to F4 and F8 to get enough space in the register file for four sequential double-precision operands.

변경 사항은 8시 부터 32 증가를 증가 자사 4D에 상응하는 함께 모든 MIPS 이중 정밀 지도를 교체, 4 연속적인 이중 정밀 피연산자에 대해 레지스터 파일에 충분한 공간을 얻을 F2와 F4의 F4와 F8까지 레지스터를 변경했다.

So that each SIMD lane would have its own copy of the scalar a, we copied the value of F0 into registers F1, F2, and F3.

각각의 SIMD의 차선은 스칼라 자체 빅과의 있도록, 우리는 F1 레지스터로 F2 및 F3을 F0의 값을 복사.

(Real SIMD instruction extensions have an instruction to broadcast a value to all other registers in a group.)

(리얼 SIMD 명령 확장은 그룹의 다른 모든 레지스터에 값을 방송하는 명령이 있습니다.)

Thus, the multiply does F4*F0, F5*F1, F6*F2, and F7*F3.

증식하지 F4 * F0, F5 * F1, F6 * F2 및 F3 F7 *.

While not as dramatic as the 100x reduction of dynamic instruction band-width of VMIPS, SIMD MIPS does get a 4x reduction: 149 versus 578 instructions executed for MIPS.

MIPS로 처형 149 대 578 지침: 역동적인 수업 VMIPS의 대역 폭이 100x 감소만큼 드라마틱하지 않지만, SIMD MIPS는 4X 감소를 얻을 않습니다.

Programming Multimedia SIMD Architectures

Given the ad hoc nature of the SIMD multimedia extensions, the easiest way to use these instructions has been through libraries or by writing in assembly language.

SIMD 멀티미디어 확장 특별 성격을 감안할 때, 다음 지침을 사용하는 가장 쉬운 방법은 도서관이나 어셈블리 언어로 작성하여왔다.

Recent extensions have become more regular, giving the compiler a more reasonable target.

최근 확장을 컴파일러에게 보다 합리적인 목표를 부여, 보다 일반되었다.

By borrowing techniques from vectorizing compilers, compilers are starting to produce SIMD instructions automatically.

컴파일러를 vectorizing의 기술을 빌려 함으로써 컴파일러는 자동으로 SIMD 지침을 생산하기 시작했다.

For example, advanced compilers today can generate SIMD floating-point instructions to deliver much higher performance for scientific codes.

예를들어, 고급 컴파일러는 오늘 SIMD 부동 소수점 지침 과학적 코드에 대한 훨씬 높은 성능을 전달하기 위해 성성할 수 있습니다.

However, programmers must be sure to align all the data in memory to the width of the SIMD unit on which the code is run to prevent the compiler from generating scalar instructions for otherwise vectorizable code.

그러나 프로그래머는 코드가 별도로 vectorizable 코드 스칼라 지침을 생성으로부터 컴파일러를 방지하기 위해 실행되는 SIMD 유닛의 넓이에 메모리의 모든 데이터를 정렬해야 합니다.

The Roofline Visual Performance Model

One visual, intuitive way to compare potential floating-point performance of variations of SIMD architectures is the Roofline model[Williams et al. 2009].

SIMD 아키텍처의 변화의 잠재적인 부동 소수점 성능을 비교하기 위해 하나의 시각적, 직관적인 방법은 Roofline 모델[윌리엄스 외 입니다. 2009].

Figure 4.10 Arithmetic intensity, specified as the number of floating-point operations to run program divided by the number of bytes accessed in main memory [Williams et al. 2009]. Some kernels have an arithmetic intensity that scales with problem size, such as dense matrix, but there are many kernels with arithmetic intensities independent of problem size.
메인 메모리[윌리암스 외에 액세스한 바이트로 나눈 프로그램을 실행할 수 있는 부동 소수점 연산의 개수로 지정 그림 4.10 산술 강도. 2009]. 일부 커널 문제크기의 독립적인 산술 농도 많은 커널가와 같은 고밀도 매트릭스와 같은 문제의 크기와 비늘 것이지만, 산술 강도 있습니다.

It ties together floating-point performance, memory performance, and arithmetic intensity in a two-dimensional graph.

그것은 2차원 그래프에서 부동 소수점 성능, 메모리 성능 및 연산 강도 같이 묶어요.

Arithmetic intensity is the ratio of floating-point operations per byte of memory accessed.

산술 강도는 액세스 메모리의 바이트당 부동 소수점 연산의 비율이다.

It can be calculated by taking the total number of floating-point operations for a program divided by the total number of data bytes transferred to main memory during program execution.

이것은 프로그램 실행시 메인 메모리로 전송 데이터 바이트의 총수로 나눈 프로그램을 위해 부동 소수점 연산의 총 수를 복용하여 계산하실 수 있습니다.

Figure 4.10 shows the relative arithmetic intensity of several example kernels.

그림 4.10는 여러 예제 커널의 상대 산술 강도를 보여줍니다.

Peak floating-point performance can be found using the hardware specifications.

피크 부동 소수점 성능은 하드웨어 사양을 사용하여 찾을 수 있습니다.

Many of the kernels in this case study do not fit in on-chip caches, so peak memory performance is defined by the memory system behind the caches.

이 사례 연구 옵칩 캐시에 적합하지 않다에서 커널의 대부분은, 그래서 피크 메모리 성능은 캐시 뒤의 메모리 시스템에 의해 정의됩니다.

Note that we need the peak memory bandwidth that is available to the processors, not just at the DRAM pins as in Figure 4.27 on page 325.

우리는 페이지 325의 그림 4.27에서와 같이 DRAM 핀에서 방금 프로세서, 하지에 사용할 수 있는 최대 메모리 대역폭이 필요합니다.

One way to find the (delivered) peak memory performance is to run the Stream benchmark.

(배달) 최고의 메모리 성능을 찾는 방법 중 하나는 스트리밍 벤치 마크를 실행하는 것입니다.

Figure 4.11 shows the Roofline model for the NEC SX-9 vector processor on the left and the Intel Core i7 920 multicore computer on the right.

그림 4.11은 왼쪽 NEC SX-9 벡터 프로세서와 인텔 코어 i7 920의 오른쪽에 컴퓨터를 멀티 코어를 위한 Roofline 모델을 보여줍니다.

The vertical Y-axis is achievable floating-point performance from 2 to 256 GFLOP/sec.

세로 Y축 2에서 256 GFLOP/초까지 달성 부동 소수점 성능입니다.

The horizontal X-axis is arithmetic intensity, varying from 1/8th FLOP/DRAM byte accessed to 16 FLOP/ DRAM byte accessed in both graphs.

수평 X 축 16플롭/ 두 그래프에 액세스할 D 랩 바이트에 액세스할 1/8th 플롭/DRAM 바이트에서 다양한, 산술 강도입니다.

Note that the graph is a log-log scale, and that Rooflines are done just once for a computer.

그래프는 로그-로그 스케일이며, 그 Rooflines가 컴퓨터에 한번만 수행하고 있습니다.

For a given kernel, we can find a point on the X-axis based on its arithmetic intensity.

주어진 커널 위해, 우리는 산술 강도에 따라 X축에 지점을 찾을 수 있습니다.

If we drew a vertical line through that point, the performance of the kernel on that computer must lie somewhere along that line.

우리가 그 지점을 통해 수직으로 선을 경우 해당 컴퓨터에서 커널의 성능은 그 라인을 따라 어딘가에 누워 있어야합니다.

We can plot a horizontal line showing peak floating-point performance of the computer.

우리는 컴퓨터의 최대 부동 소수점 성능을 보여주는 수평선의 주술하실 수 있습니다.

Obviously, the actual floating-point performance can be no higher than the horizontal line, since that is a hardware limit.

물론 실제 부동 소수점 성능은 그 하드웨어 제한 때문에 수평선보다 더 높을 수 없습니다.

How could we plot the peak memory performance?

우리가 어떻게 최고의 메모리 성능을 모의 있을까?

Since the X-axis is FLOP/byte and the Y-axis is FLOP/sec, bytes/sec is just a diagonal line at a 45-degree angle in this figure.

X-축은 플롭 플롭/바이트이며, Y축가 바이트, 초/플롭/초이므로하면이 그림에서 45도 각도에서 단지 대각선이다.

Hence, we can plot a third line that gives the maximum floating-point performance that the memory system of that computer can support for a given arithmetic intensity.

그러므로 우리는 그 컴퓨터의 메모리 시스템은 주어진 연산 강도에 대해 지원할 수 있는 최대 부동 소수점 성능을 제공하는 세번째 줄에의 주술하실 수 있습니다.

We can express the limits as a formula to plot these lines in the graphs in Figure 4.11:

우리는 그림 4.11의 그래프에서 이러한 라인을 모략하는 수식으로 제한을 표현할 수 있다.

Attainable GFLOPs/sec = Min(Peak Memory BW x Arithmetic Intensity, Peak Floating-Point Perf.)

달성 GFLOPs/초는 = 최소(피크 메모리 BW X의 산술 강도, 피크 부동 소수점 Perf.)

The horizontal and diagonal lines give this simple model its name and indicate its value.

수평 및 대각선 라인이 간단한 모델에게 이름을 주고 그 가치를 나타냅니다.

The “Roofline” sets an upper bound on performance fo a kernel depending on its arithmetic intensity.

“Roofline는” 성능이 구경의 산술 강도에 따라 커널에 바인딩된 상단을 설정합니다.

If we think of arithmetic intensity as a pole that hits the roof, either it hits the flat part of the roof, which means performance is computationally limited, or it hits the slanted part of the roof, which means performance is ultimately limited by memory bandwidth.

우리가 지붕을 눌렀을 때 장대로 산술 강도를 생각하면, 하나는 지붕의 평평한 부분을 치면, 어떤 성능을 계산 제한디어있다는 것을 의미하거나, 그것이 지붕 한쪽으로 치우쳤던 부분을 눌렀을 때, 이 성능이 궁극적으로 메모리 대역폭에 의해 제한되는 것을 의미.

In Figure 4.11, the vertical dashed line on the right (arithmetic intensity of 4) is an example of the former and the vertical dashed line on the left(arithmetic intensity of 1/4) is an example of the latter.

그림 4.11에서 오른쪽에 세로 점선(4산술 강도)는 과거의 예를과 왼쪽에 세로 점선은 (1/4의 산술강도)은 후자의 예입니다.

Given a Roofline model of a computer, you can apply it repeatedly, since it doesn't vary by kernel.

그것이 커널에 따라 다를하지 않기 때문에 컴퓨터의 Roofline 모델을 감안할 때, 당신은 반복적으로 그것을 적용할 수 있습니다.

Note that the “ridge point,” where the diagonal and horizontal roofs meet, offers an interesting insight into the computer.

대각선과 수평 지붕이 만나는 “능선 지점, “컴퓨터에 흥미로운 통찰력을 제공합니다.

If it is far to the right, then only kernels with very high arithmetic intensity can achieve the maximum performance of that computer.

그것이 훨씬 오른쪽에 있다면, 매우 높은 연산강도에서만 커널은 해당 컴퓨터의 최대 성능을 얻을 수 있습니다.

If it is far to the left, then almost any kernel can potentially hit the maximum performance.

그것이 멀리 왼쪽에 있다면, 거의 모든 커널은 잠재적으로 최대 성능을 맞았 수 있습니다.

As we shall see, this vector processor has both much higher memory bandwidth and a ridge point far to the left when compared to other SIMD processors.

우리가 보게 될 것이다로서, 이 벡터 프로세서는 훨씬 더 높은 메모리 대역폭 및 기타 SIMD 프로세서에 비해 훨씬 왼쪽으로 능선 지점을 모두 가지고 있습니다.

Figure 4.11 shows that the peak computational performance of the SX-9 is 2.4x faster than Core i7, but the memory performance is 10x faster.

SX-9의 최고 연산 성능이 2.4x 코어 i7보다 빠르게지만 메모리 성능이 더빠른 10X있다는 것을 그 림 4.11가 표시됩니다.

For programs with an arithmetic intensity of 0.25 the SX-9 is 10x faster (40.5 versus 4.1 GFLOP/sec).

0.25의 산술 강도가 있는 프로그램의 경우 SX-9(40.5대 4.1 GFLOP/초)빠른 10X입니다.

The higher memory bandwidth moves the ridge point from 2.6 in the Core i7 to 0.6 on the SX-9, which means many more programs can reach peak computational performance on the vector processor.

높은 메모리 대역폭을 어떤 더 많은 프로그램은 벡터 프로세서의 최고 연산 성능에 도달할 수 있음을 의미, SX-9에서 코어 i7의 2.6에서 0.6로 능선 지점을 이동합니다.

컴퓨터_구조.1338972642.txt.gz · 마지막으로 수정됨: 2013/12/11 00:46 (바깥 편집)