사용자 도구

사이트 도구


컴퓨터_구조

차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

양쪽 이전 판이전 판
다음 판
이전 판
컴퓨터_구조 [2012/06/07 02:04] – [4.3 SIMD Instruction Set Extensions for Multimedia] lindol컴퓨터_구조 [2013/12/11 00:46] (현재) – 바깥 편집 127.0.0.1
줄 23: 줄 23:
 Figure 4.8 summarizes typical multimedia SIMD instructions. Figure 4.8 summarizes typical multimedia SIMD instructions.
  
-그림 4.8은 일반적인 멀티미디어 SIMD 지침을 요약한 것입니다.+그림 4.8은 일반적인 멀티미디어 SIMD 인스트럭션을 요약한 것입니다.
  
 Like vector instructions, a SIMD instruction specifies the same operation on vectors of data.  Like vector instructions, a SIMD instruction specifies the same operation on vectors of data. 
줄 183: 줄 183:
 To give an idea of what multimedia instructions look like, assume we added 256-bit SIMD multimedia instructions to MIPS. To give an idea of what multimedia instructions look like, assume we added 256-bit SIMD multimedia instructions to MIPS.
  
-멀티미디어 지침이 어떻게 생겼는지의 아이디어를 부여하려면, 우리는 MIPS로 256비트 SIMD 멀티미디어 지침에 추가된 가정합니다.+멀티미디어 인스트럭션을 살펴보기 위해 MIPS에 256-bit SIMD 멀티미디어 인스트럭션이 추가된 것으로 가정합니다.
  
 We concentrate on floating-point in this example. We concentrate on floating-point in this example.
  
-우리는 이 예제에서 부동 소수점 집중.+이 예제에서는 부동 소수점(floating-point)에 대해 살펴본다.
  
 We add the suffix "4D" on instructions that operate on four double-precision operands at once. We add the suffix "4D" on instructions that operate on four double-precision operands at once.
  
-우리는 한번에는 네 이중 정밀 피연산자서 동 지침에 접미사 "4D"를 추가합니다.+우리는 4개 배 정밀도 작 중 하나에 인스트럭션을 동시켜 "4D" 를 추가다.
  
 Like vector architectures, you can think of a SIMD processor as having lanes, four in this case.  Like vector architectures, you can think of a SIMD processor as having lanes, four in this case. 
  
-벡터 아키텍처와 마찬가지로이 경우 차선, 넷 것으로 SIMD 프로세서를 생각할 수 있습니다.+벡터 아키텍처와 마찬가지로 이 사례에서 SIMD 프로세서가 통로를 가진다고 생각할 수 있습니다.
  
 MIPS SIMD will reuse the floating-point registers as operands for 4D instructions, just as double-precision reused single-precision registers in the original MIPS. MIPS SIMD will reuse the floating-point registers as operands for 4D instructions, just as double-precision reused single-precision registers in the original MIPS.
  
-MIPS SIMD 이중 정밀 원래 MIPS에서 단일 정밀 레지터를 재사용마찬가지로 4D 지침 피연산자로 부동 소수점 레지스터를 시 사용니다.+MIPS SIMD는 4D 인트럭션을 위한 피연산자를 부동 소수점(floating-point) 레지스터에 재사용할 것입니. 배 정밀도는 오리지널 MIPS 단일 레지스터 재사용과 마찬가지입니다.
  
 This example shows MIPS SIMD code for the DAXPY loop. This example shows MIPS SIMD code for the DAXPY loop.
  
-이 예제는 DAXPY루프 MIPS SIMD 코드를 보여줍니다.+이 예제는 DAXPY 루프를 위한 MIPS SIMD 코드를 보여줍니다.
  
 Assume that the starting addresses of X and Y are in Rx and Ry, respectively. Assume that the starting addresses of X and Y are in Rx and Ry, respectively.
  
-X와 Y의 시작 주소가 각각 RX와 공예에있는 것으로 가정합니다.+XY를 시작 주소가 각 각 Rx, Ry안에 있는 것으로 가정다.
  
 Underline the changes to the MIPS code for SIMD. Underline the changes to the MIPS code for SIMD.
  
-SIMD를 위한 MIPS코드에 변경 내용을 밑줄+SIMD를 위한 MIPS코드는 밑줄로 표시했다.
 ===== Answer ===== ===== Answer =====
  
줄 235: 줄 235:
 The changes were replacing every MIPS double-precision instruction with its 4D equivalent, increasing the increment from 8 to 32, and changing the registers from F2 and F4 to F4 and F8 to get enough space in the register file for four sequential double-precision operands. The changes were replacing every MIPS double-precision instruction with its 4D equivalent, increasing the increment from 8 to 32, and changing the registers from F2 and F4 to F4 and F8 to get enough space in the register file for four sequential double-precision operands.
  
-변경 사항은 8시 부터 32 증가를 증가 자사 4D에 상응하는 함께 모든 MIPS 이중 정밀 를 교체, 연속적인 이중 정밀 피연산자에 대해 레지스터 파일에 충분한 공간을 얻을 F2와 F4의 F4와 F8까지 레지스터를 변경했다.+4D와 상응하도록 MIPS 배 정밀도 인스트럭션을 변경했다. 점 점더 증가시키기 위해 8 에서 32로 증가하고 4개 순차적인 배 정밀도 피연산자가 레지스터의 충분한 공간을 얻게 F2와 F4에서 F4 와 F8에 대해 레지스터를 변경했다.
  
 So that each SIMD lane would have its own copy of the scalar a, we copied the value of F0 into registers F1, F2, and F3. So that each SIMD lane would have its own copy of the scalar a, we copied the value of F0 into registers F1, F2, and F3.
  
-각각의 SIMD의 차선은 스칼라 자체 빅과의 있도록, 우리는 F1 레지스터로 F2 및 F3을 F0의 값을 복사.+각 각의 SIMD 통로는 스칼라 a의 하나의 복사본을 가지고 우리는 F1, F2, F3 레지스터에 F0의 값을 복사했다
  
 (Real SIMD instruction extensions have an instruction to broadcast a value to all other registers in a group.) (Real SIMD instruction extensions have an instruction to broadcast a value to all other registers in a group.)
  
-(리얼 SIMD 명령 확장은 그룹의 다른 모든 레지스터에 값을 방송하는 명령이 있습니다.)+(실제 SIMD 인스트럭션 확장은 그룹의 모든 다른 레지스터에 값을 알리는 인스트럭션을 갖는다.)
  
 Thus, the multiply does F4*F0, F5*F1, F6*F2, and F7*F3. Thus, the multiply does F4*F0, F5*F1, F6*F2, and F7*F3.
  
-증식하지 F4 * F0F5 * F1F6 * F2 및 F3 F7 *.+그러므로 곱은 F4xF0F5xF1F6xF2, F7xF3 이다.
  
 While not as dramatic as the 100x reduction of dynamic instruction band-width of VMIPS, SIMD MIPS does get a 4x reduction: 149 versus 578 instructions executed for MIPS. While not as dramatic as the 100x reduction of dynamic instruction band-width of VMIPS, SIMD MIPS does get a 4x reduction: 149 versus 578 instructions executed for MIPS.
  
-MIPS로 처형 149 대 578 지침: 역동적인 수업 VMIPS의 대역 폭이 100x 감소만큼 드라마틱하지 않지만, SIMD MIPS는 4X 감소를 얻을 않습니다.+VMIPS의 동적 인스트럭션 대역폭의 100x 감소가 극적인 것은 아니고 SIMD MIPS 는 4x의 감소한다. ( MIPS에서 578 인스트럭션을 실행 했을 때 149이다. )
 ====== Programming Multimedia SIMD Architectures ====== ====== Programming Multimedia SIMD Architectures ======
  
 Given the ad hoc nature of the SIMD multimedia extensions, the easiest way to use these instructions has been through libraries or by writing in assembly language. Given the ad hoc nature of the SIMD multimedia extensions, the easiest way to use these instructions has been through libraries or by writing in assembly language.
  
-SIMD 멀티미디어 확장 특별 성격을 감안할 때, 다음 지침을 사용하는 가장 쉬운 방법은 도서관이나 어셈블리 언어로 작성하여왔다.+SIMD 멀티미디어 확장의 특별을 감안할 때 인스트럭션을 사용하는 가장 쉬운 방법은 이브러리나 어셈블리 언어로 작성하는 것이다.
  
 Recent extensions have become more regular, giving the compiler a more reasonable target. Recent extensions have become more regular, giving the compiler a more reasonable target.
  
-최근 확장을 컴파일러에게 보다 리적인 목표를 부여보다 일반되다.+최근 확장은 컴파일러에게 더 당한 목표를 부여하고 보다 더 일반화 어왔다.
  
 By borrowing techniques from vectorizing compilers, compilers are starting to produce SIMD instructions automatically. By borrowing techniques from vectorizing compilers, compilers are starting to produce SIMD instructions automatically.
  
-컴파일러를 vectorizing의 기술을 빌려 함으로써 컴파일러는 자동으로 SIMD 지침을 생산하기 시작했다.+벡터 라이징 기술을 빌린 컴파일러는 SIMD 인스트럭션을 자동으로 만들어 내기 시작했다.
  
 For example, advanced compilers today can generate SIMD floating-point instructions to deliver much higher performance for scientific codes. For example, advanced compilers today can generate SIMD floating-point instructions to deliver much higher performance for scientific codes.
  
-예를들어, 고급 컴파일러는 오늘 SIMD 부동 소수점 지침 과학적 코드에 대한 훨씬 높은 성능을 전달하기 위해 성성할 수 있습니다.+예를들어, 고급 컴파일러는 오늘날 과학적인 코드를 통해 고성능을 만드는 SIMD 부동 소수점 인스트럭션을 만들수 있다.
  
 However, programmers must be sure to align all the data in memory to the width of the SIMD unit on which the code is run to prevent the compiler from generating scalar instructions for otherwise vectorizable code. However, programmers must be sure to align all the data in memory to the width of the SIMD unit on which the code is run to prevent the compiler from generating scalar instructions for otherwise vectorizable code.
  
-그러나 프로그래머는 코드가 별도로 vectorizable 코드 스칼라 지침을 생성으로부터 컴파일러를 방지하기 위해 실행되는 SIMD 유닛의 넓이에 메모리의 모든 데이터를 정렬해야 합니다. +그러나 프로그래머는 다른 방법으로 백터화 가능한 코드를 위한 스칼라 인스트럭션을 생성하는 컴파일러를 방지하기 위해서 SIMD 유닛의 대역 메모리 안에 모든 데이터를 정렬해야 다.
 ====== The Roofline Visual Performance Model ====== ====== The Roofline Visual Performance Model ======
  
 One visual, intuitive way to compare potential floating-point performance of variations of SIMD architectures is the Roofline model[Williams et al. 2009]. One visual, intuitive way to compare potential floating-point performance of variations of SIMD architectures is the Roofline model[Williams et al. 2009].
  
-SIMD 아키텍처의 변화의 잠재적인 부동 소수점 성능을 비교하기 위해 하나의 시각적, 직관적인 방법은 Roofline 모델[윌리엄스 외 입니다. 2009].+SIMD 아키텍처의 변화로 잠재적인 부동 소수점 성능을 비교하기 위한 하나의 시각적, 직관적 방법은 Roofline 모델이다. [윌리엄스 외, al. 2009]
  
 ^ ^ ^ ^
 | Figure 4.10 Arithmetic intensity, specified as the number of floating-point operations to run program divided by the number of bytes accessed in main memory [Williams et al. 2009]. Some kernels have an arithmetic intensity that scales with problem size, such as dense matrix, but there are many kernels with arithmetic intensities independent of problem size. | | Figure 4.10 Arithmetic intensity, specified as the number of floating-point operations to run program divided by the number of bytes accessed in main memory [Williams et al. 2009]. Some kernels have an arithmetic intensity that scales with problem size, such as dense matrix, but there are many kernels with arithmetic intensities independent of problem size. |
-| 메인 메모리[윌리암스 외에 액세스한 바이트로 눈 프로그램을 실행할 수 있는 부동 소수점 연산의 로 지정 그림 4.10 산술 강도. 2009]일부 커널 문제크기의 독립적인 산술 농도 많은 커널가와 같은 고밀도 매트릭스와 같은 문제의 크기와 비늘 것이지만, 산술 강도 있습니다.|+그림 4.10은 연산의 강도를 메인 메모리에 접근하는 바이트의 수를 누때 프로그램 실행에 부동 소수점 연산의 수를 명시한 것입니다[윌리암스 외 2009] 
 +일부 커널이 연산의 강도로 문제의 크기와 행렬의 밀집를 가지지만 대부분의 많은 커널이 연산의 강도가 문제 크기에 독립적입니다. |
  
 It ties together floating-point performance, memory performance, and arithmetic intensity in a two-dimensional graph. It ties together floating-point performance, memory performance, and arithmetic intensity in a two-dimensional graph.
  
-그것은 2차원 그래프에서 부동 소수점 성능, 메모리 성능 및 연산 강도 같이 묶어요.+그것은 2차원 그래프에서 산술의 강도와, 부동 소수점 성능, 메모리 성능이 함께 여 있다.
  
 Arithmetic intensity is the ratio of floating-point operations per byte of memory accessed. Arithmetic intensity is the ratio of floating-point operations per byte of memory accessed.
  
-산술 강도는 액세스 메모리의 바이트당 부동 소수점 연산의 비율이다.+산술 강도는 메모리 접근을 했던 바이트 당 부동 소수점 연산의 비율이다.
  
 It can be calculated by taking the total number of floating-point operations for a program divided by the total number of data bytes transferred to main memory during program execution. It can be calculated by taking the total number of floating-point operations for a program divided by the total number of data bytes transferred to main memory during program execution.
  
-은 프로그램 실행시 메인 메모리로 전송 데이터 바이트의 수로 나눈 프로그램을 위해 부동 소수점 연산의 총 수를 복용하여 계산하실 수 있습니다.+이 비율은 프로그램의 전체 부동 소수점 연산의 수를 프로그램 실행 동안 메인 메모리로 전송한 데이터 바이트의 전체 수로 나눈 을 계산으로 할 수 있다.
  
 Figure 4.10 shows the relative arithmetic intensity of several example kernels. Figure 4.10 shows the relative arithmetic intensity of several example kernels.
  
-그림 4.10는 여러 제 커널의 상대 산술 강도를 보여줍니다.+그림 4.10는 몇가지 로든 커널의 산술 강도와의 관계를 보여다.
  
 Peak floating-point performance can be found using the hardware specifications. Peak floating-point performance can be found using the hardware specifications.
  
-피크 부동 소수점 성능은 하드웨어 사양을 사용하여 찾을 수 있습니다.+부동 소수점의 최고 성능에 대해서는 하드웨어 사양을 사용해 찾을 수 있다.
  
 Many of the kernels in this case study do not fit in on-chip caches, so peak memory performance is defined by the memory system behind the caches. Many of the kernels in this case study do not fit in on-chip caches, so peak memory performance is defined by the memory system behind the caches.
  
-이 사례 연구 옵칩 시에 적합하지 않다에서 커널의 부분은, 그래서 피크 메모리 성능은 캐시 뒤의 메모리 시스템에 해 정의됩니다.+커널의 대부분은 이 사례로 on-chip 쉬 학습이 적합하지 않다. 최대 메모리 성능은 메모리 시스템의 내부 캐쉬 정의다.
  
 Note that we need the peak memory bandwidth that is available to the processors, not just at the DRAM pins as in Figure 4.27 on page 325. Note that we need the peak memory bandwidth that is available to the processors, not just at the DRAM pins as in Figure 4.27 on page 325.
  
-우리는 페이지 325의 그림 4.27에서와 같이 DRAM 핀에서 방금 프로세서, 하지에 사용할 수 있는 최대 메모리 대역폭이 필요합니다.+참고로 우리는 325쪽 그림 4.27 같이 DRAM 핀들은 프로세서에서 최대 메모리 대역폭을 필요로 합니다.
  
 One way to find the (delivered) peak memory performance is to run the Stream benchmark. One way to find the (delivered) peak memory performance is to run the Stream benchmark.
  
-(배달) 고의 메모리 성능을 찾는 방법 중 하나는 스트리밍 벤치 마크를 실행하는 것입니다.+대 메모리 성능을 찾는 한가지 방법은 Stream 벤치마크를 실행하는 것입니다.
  
 Figure 4.11 shows the Roofline model for the NEC SX-9 vector processor on the left and the Intel Core i7 920 multicore computer on the right. Figure 4.11 shows the Roofline model for the NEC SX-9 vector processor on the left and the Intel Core i7 920 multicore computer on the right.
  
-그림 4.11은 왼쪽 NEC SX-9 벡터 프로세서와 인텔 코어 i7 920의 오른쪽에 컴퓨터를 멀티 코어를 위한 Roofline 모델을 보여줍니다.+그림 4.11 왼쪽은 NEC SX-9 벡터 프로세스를 위한 Rootline 모델과, 오른쪽은 Intel Core i7 920 멀티코어 컴퓨터를 위한 Roofline 모델을 보여다.
  
 The vertical Y-axis is achievable floating-point performance from 2 to 256 GFLOP/sec. The vertical Y-axis is achievable floating-point performance from 2 to 256 GFLOP/sec.
  
-세로 Y축 2에서 256 GFLOP/까지 달성 부동 소수점 성능입니다.+세로 Y축은 2에서 256 GFLOP/sec까지 달성할 수 있는 부동 소수점 성능입니다. 
  
 The horizontal X-axis is arithmetic intensity, varying from 1/8th FLOP/DRAM byte accessed to 16 FLOP/ DRAM byte accessed in both graphs. The horizontal X-axis is arithmetic intensity, varying from 1/8th FLOP/DRAM byte accessed to 16 FLOP/ DRAM byte accessed in both graphs.
  
-수평 X 축 16플롭/ 두 그래프에 액세스할 D 랩 바이트에 액세스할 1/8th 플롭/DRAM 바이트에서 다양한, 산술 강도입니다.+수평 X 축은 산술의 강도로 두 그래프 모두 1/8째 FLOP/DRAM 바이트 접근과 16 FLOP/DRAM 바이트 접근처럼 다양다.
  
 Note that the graph is a log-log scale, and that Rooflines are done just once for a computer. Note that the graph is a log-log scale, and that Rooflines are done just once for a computer.
  
-그래프는 로그-로그 스케일이며그 Rooflines가 컴퓨터에 한번만 행하고 있습니다.+참고로 그래프는 log-log 크기 이며 그리고 Roofline은 컴퓨터에서 한번만 행하고 있다.
  
 For a given kernel, we can find a point on the X-axis based on its arithmetic intensity.  For a given kernel, we can find a point on the X-axis based on its arithmetic intensity. 
  
-주어진 커널 위해, 우리는 산술 강도에 따라 X축에 지점을 찾을 수 있습니다.+주어진 커널 위해, 우리는 산술 강도에 따라 X축 지점을 찾을 수 있습니다.
  
 If we drew a vertical line through that point, the performance of the kernel on that computer must lie somewhere along that line. If we drew a vertical line through that point, the performance of the kernel on that computer must lie somewhere along that line.
  
-우리가 그 지점을 통해 수직으로 선을 경우 해당 컴퓨터에서 커널의 성능은 그 라인을 따라 어딘가에 누워 있어야합니다.+우리가 그 지점을 통해 수직으로 선을 경우 해당 컴퓨터에서 커널의 성능은 그 라인을 따라서 어딘가 보여질것이다.
  
 We can plot a horizontal line showing peak floating-point performance of the computer. We can plot a horizontal line showing peak floating-point performance of the computer.
  
-우리는 컴퓨터의 최대 부동 소수점 성능을 보여주는 수평선의 주술하실 수 있습니다.+우리는 컴퓨터의 최대 부동 소수점 성능을 보여주는 수평 선으로 구간을 설정할 수 있다.
  
 Obviously, the actual floating-point performance can be no higher than the horizontal line, since that is a hardware limit. Obviously, the actual floating-point performance can be no higher than the horizontal line, since that is a hardware limit.
줄 350: 줄 350:
 How could we plot the peak memory performance? How could we plot the peak memory performance?
  
-우리가 어떻게 최고의 메모리 성능을 모의 있을까?+우리가 어떻게 최고의 메모리 성능을 구분할 수 있을까?
  
 Since the X-axis is FLOP/byte and the Y-axis is FLOP/sec, bytes/sec is just a diagonal line at a 45-degree angle in this figure. Since the X-axis is FLOP/byte and the Y-axis is FLOP/sec, bytes/sec is just a diagonal line at a 45-degree angle in this figure.
  
-X-축은 플롭 플롭/바이트이며Y축가 바이트/플롭/초이므하면이 그림에서 45도 각도에서 단지 대각선이다.+X-축은 FLOP/Byte 이며 Y축은 FLOP/Secbytes/sec 로 이 그림에서 45도 각도로 대각선이다.
  
 Hence, we can plot a third line that gives the maximum floating-point performance that the memory system of that computer can support for a given arithmetic intensity.  Hence, we can plot a third line that gives the maximum floating-point performance that the memory system of that computer can support for a given arithmetic intensity. 
  
-그러므로 우리는 그 컴퓨터의 메모리 시스템은 주어진 연산 강도에 대해 지원할 수 있는 최대 부동 소수점 성능을 제공하는 세번째 줄에의 주술하실 수 있습니다.+이런 까닭에 우리는 산술 강도를 위해 컴퓨터가 지원할 수 있는 메모리 시스템의 고 부동 소수점 성능을 3번째 라인으로 구분할 수 있다.
  
 We can express the limits as a formula to plot these lines in the graphs in Figure 4.11: We can express the limits as a formula to plot these lines in the graphs in Figure 4.11:
  
-우리는 그림 4.11의 그래프에서 이러한 라인을 모략하는 으로 제한을 표현할 수 있다.+우리는 그림 4.11에서 그래프의 선들을 는 을 제한 할 수 있다.
  
 Attainable GFLOPs/sec = Min(Peak Memory BW x Arithmetic Intensity, Peak Floating-Point Perf.) Attainable GFLOPs/sec = Min(Peak Memory BW x Arithmetic Intensity, Peak Floating-Point Perf.)
  
-달성 GFLOPs/초는 최소(피크 메모리 BW X의 산술 강도피크 부동 소수점 Perf.)+달성할 GFLOPs/sec MinPeak Memory BW x Arithmetic IntensityPeak Floating-Point Perf. )
  
 The horizontal and diagonal lines give this simple model its name and indicate its value. The horizontal and diagonal lines give this simple model its name and indicate its value.
  
-수평 및 대각선 라인이 간단한 모델에게 이름을 주고 그 가치를 나타냅니다.+수평 및 대각선 라인이 간단한 모델에게 이름을 주고 그 를 나타냅니다.
  
-The "Roofline" sets an upper bound on performance fo a kernel depending on its arithmetic intensity.+The "Roofline" sets an upper bound on performance of a kernel depending on its arithmetic intensity.
  
-"Roofline는" 성능이 구경의 산술 강도에 따라 커널에 바인딩된 상단을 설정합니다.+"Roofline는" 산술 강도에 따라 커널에 의존하는 성능의 상단을 설정합니다.
  
 If we think of arithmetic intensity as a pole that hits the roof, either it hits the flat part of the roof, which means performance is computationally limited, or it hits the slanted part of the roof, which means performance is ultimately limited by memory bandwidth. If we think of arithmetic intensity as a pole that hits the roof, either it hits the flat part of the roof, which means performance is computationally limited, or it hits the slanted part of the roof, which means performance is ultimately limited by memory bandwidth.
  
-우리가 지붕을 눌렀을 때 장대로 산술 강도를 생각하면, 하나는 지붕의 평평한 부분을 치면, 어떤 성능을 계산 제한디어있다는 것을 의미하거나, 그것이 지붕 한쪽으로 치우쳤던 부분을 눌렀을 때, 이 성능이 궁극적으로 메모리 대역폭에 의해 제한되는 것을 의미.+만약 roof의 맟닿은 점을 산술 강도라 생각하면 맟닿은 점은 root의 평평한 부분이다. 어떤 성능이 계산에 제한적이다는 것을 의미하거나 roof의 한쪽으로 치우쳤을 때 성능이 메모리 대역폭에 의해 궁극적으로 제한되는 것을 의미 한다.
  
 In Figure 4.11, the vertical dashed line on the right (arithmetic intensity of 4) is an example of the former and the vertical dashed line on the left(arithmetic intensity of 1/4) is an example of the latter. In Figure 4.11, the vertical dashed line on the right (arithmetic intensity of 4) is an example of the former and the vertical dashed line on the left(arithmetic intensity of 1/4) is an example of the latter.
  
-그림 4.11에서 오른쪽에 세로 점선(4산술 강도)는 과거의 예를과 왼쪽에 세로 점선은 (1/4의 산술강도)은 후자의 예입니다.+그림 4.11에서 오른쪽의 세로 점선(4의 산술 강도)은 이전의 예이며 왼쪽의 수직 점선(4/1의 산술 강도)은 후자의 예다.
  
 Given a Roofline model of a computer, you can apply it repeatedly, since it doesn't vary by kernel. Given a Roofline model of a computer, you can apply it repeatedly, since it doesn't vary by kernel.
  
-그것이 커널에 따라 다를하지 않기 때문에 컴퓨터의 Roofline 모델을 감안할 때, 당신은 반복적으로 그것을 적용할 수 있습니다.+주어진 컴퓨터의 Roofline은 커널에 따라 다지 않기 때문에 당신은 반복적으로 적용할 수 있다.
  
 Note that the "ridge point," where the diagonal and horizontal roofs meet, offers an interesting insight into the computer.  Note that the "ridge point," where the diagonal and horizontal roofs meet, offers an interesting insight into the computer. 
  
-대각선과 수평 지붕이 만나는 "능선 지점, "컴퓨터에 흥미로운 통찰력을 제공합니다.+참고로 대각선과 수평 roofs가 만나는 능선 지점은 컴퓨터 내부의 흥미로운 을 제공합니다.
  
 If it is far to the right, then only kernels with very high arithmetic intensity can achieve the maximum performance of that computer. If it is far to the right, then only kernels with very high arithmetic intensity can achieve the maximum performance of that computer.
  
-그것이 훨씬 오른쪽에 있다면매우 높은 산강도에서만 커널은 해당 컴퓨터의 최대 성능을 얻을 수 있습니다.+만약 훨씬 오른쪽에 있다면 커널은 매우 높은 산술 강도에서만 컴퓨터의 최대 성능을 달성할 수 있습니다.
  
 If it is far to the left, then almost any kernel can potentially hit the maximum performance. If it is far to the left, then almost any kernel can potentially hit the maximum performance.
  
-그것이 멀리 왼쪽에 있다면, 거의 모든 커널은 잠재적으로 최대 성능을 맞았 수 있습니다.+그것이 멀리 왼쪽에 있다면, 거의 모든 커널은 잠재적으로 최대 성능을 기록할 수 있습니다.
  
 As we shall see, this vector processor has both much higher memory bandwidth and a ridge point far to the left when compared to other SIMD processors. As we shall see, this vector processor has both much higher memory bandwidth and a ridge point far to the left when compared to other SIMD processors.
  
-우리가 보게 될 것이로서, 이 벡터 프로세서는 훨씬 더 높은 메모리 대역폭 및 기타 SIMD 프로세서에 비해 훨씬 왼쪽으로 능선 지점을 모두 가지고 있습니다.+우리는 알 수 있습니이 벡터 프로세서는 훨씬 더 높은 메모리 대역폭 및 기타 SIMD 프로세서에 비해 훨씬 왼쪽으로 능선 지점을 모두 가지고 있습니다.
  
 Figure 4.11 shows that the peak computational performance of the SX-9 is 2.4x faster than Core i7, but the memory performance is 10x faster. Figure 4.11 shows that the peak computational performance of the SX-9 is 2.4x faster than Core i7, but the memory performance is 10x faster.
  
-SX-9의 최고 연산 성능이 2.4x 코어 i7보다 빠르게지만 메모리 성능이 더빠른 10X있다는 것을 그 림 4.11가 표시됩니다.+그림 4.11은 SX-9의 에 관계된 최대 성능으로 Core i7보다 2.4x 릅니다. 그러나 메모리 성능은 10x 빠른 것을 보여줍니다.
  
 For programs with an arithmetic intensity of 0.25 the SX-9 is 10x faster (40.5 versus 4.1 GFLOP/sec). For programs with an arithmetic intensity of 0.25 the SX-9 is 10x faster (40.5 versus 4.1 GFLOP/sec).
  
-0.25의 산술 강도가 있는 프로그램의 경우 SX-9(40.5대 4.1 GFLOP/)빠른 10X입니다.+프로그램의 산술 강도가 0.25이 경우 SX-9이 10x 빠릅니다.( 40.5 대 4.1 GFLOP/sec).
  
 The higher memory bandwidth moves the ridge point from 2.6 in the Core i7 to 0.6 on the SX-9, which means many more programs can reach peak computational performance on the vector processor. The higher memory bandwidth moves the ridge point from 2.6 in the Core i7 to 0.6 on the SX-9, which means many more programs can reach peak computational performance on the vector processor.
  
-높은 메모리 대역폭을 어떤 더 많은 그램은 벡터 프로세서의 최고 연산 성능에 도달할 수 있을 의미, SX-9에서 코어 i7의 2.6에서 0.6로 능선 지점을 이동합니다.+높은 메모리 대역폭은 Core i7이 2.6 에서 SX-9이 0.6으로 능선 지점이 이동하고 벡터 프로세서에서 매우 더 많은 프로그램들이 계에 관련된 성능의 최고점에 도달 할 수 있는 것을 의미다. 
컴퓨터_구조.1339002245.txt.gz · 마지막으로 수정됨: 2013/12/11 00:46 (바깥 편집)