HBM-PIM ของ Samsung เพื่อเร่งความเร็วปัญญาประดิษฐ์

HBM-PIM ของ Samsung เพื่อเร่งความเร็วปัญญาประดิษฐ์

HBM-PIM เป็นตัวแปรที่เรียกว่า High Bandwidth Memory ที่นำเสนอโดย ซัมซุง ในปี 2021 โดยที่ PIM ย่อมาจากคำว่า "กำลังประมวลผลในหน่วยความจำ" ซึ่งหมายความว่าเรากำลังเผชิญกับตัวแปรที่มีตัวประมวลผลที่รวมอยู่ในไฟล์. HBM ประเภทนี้มีการนำเสนอความสามารถของกระบวนการอย่างไร มุ่งเป้าไปที่ใคร และมีประโยชน์อย่างไร?

อย่างแรกที่เราต้องเข้าใจในขณะที่เขียนบทความนี้คือ HBM-PIM ไม่ใช่มาตรฐานที่ JEDEC อนุมัติ ซึ่งเป็นคณะกรรมการ 300 บริษัท ที่รับผิดชอบในการสร้างมาตรฐานหน่วยความจำที่แตกต่างกัน แม้ว่าจะมีความผันผวน หรือขัดขืน . ในขณะนี้ เป็นข้อเสนอและการออกแบบโดย Samsung ซึ่งสามารถแปลงเป็นหน่วยความจำ HBM ชนิดใหม่และผลิตโดยบุคคลที่สาม หรือหากล้มเหลวนั้นเป็นผลิตภัณฑ์พิเศษของโรงหล่อของเกาหลีใต้

ซัมซุง HBM-PIM

ไม่ว่าจะเป็นมาตรฐานหรือไม่ก็ตาม HBM-PIM จะถูกผลิตขึ้นสำหรับ Alveo AI Accelerator จาก Xilinx ซึ่งเป็นบริษัทที่เราจำได้ทั้งหมด เอเอ็มดี. ดังนั้นจึงไม่ใช่แนวคิดบนกระดาษและไม่ใช่ผลิตภัณฑ์ในห้องปฏิบัติการ แต่หน่วยความจำ HBM ประเภทนี้สามารถผลิตได้ในปริมาณมาก แน่นอนว่า Xilinx Álveo เป็นการ์ดเร่งความเร็วแบบ FPGA ที่ใช้ในศูนย์ข้อมูล ไม่ใช่ผลิตภัณฑ์สำหรับตลาดมวลชน และเราต้องจำไว้ว่ามันเป็นเพียงตัวแปรหนึ่งของหน่วยความจำ HBM ซึ่งมีราคาแพงมากและหายากในการผลิต ซึ่งช่วยลดการใช้งานในผลิตภัณฑ์เชิงพาณิชย์ เช่น การ์ดกราฟิกสำหรับเล่นเกม หรือโปรเซสเซอร์

แนวคิดของการคำนวณในหน่วยความจำ

แนวคิด HBM-PIM

โปรแกรมที่เราเรียกใช้บนพีซีของเราทำงานผ่านการแต่งงานระหว่าง แรม และ ซีพียูซึ่งคงจะสมบูรณ์แบบถ้าเราสามารถใส่ทั้งสองอย่างไว้บนชิปตัวเดียว น่าเสียดายที่สิ่งนี้ไม่สามารถทำได้และนำไปสู่ปัญหาคอขวดที่เกิดขึ้นเองในสถาปัตยกรรมของคอมพิวเตอร์ทุกเครื่อง ซึ่งเป็นผลคูณของเวลาแฝงระหว่างหน่วยความจำระบบและหน่วยประมวลผลกลาง:

  • เนื่องจากระยะทางไกลกว่า ข้อมูลจึงถูกส่งช้ากว่า
  • การใช้พลังงานจะเพิ่มพื้นที่ว่างมากขึ้นระหว่างหน่วยประมวลผลที่รันโปรแกรมและหน่วยเก็บข้อมูลที่โปรแกรมตั้งอยู่ ซึ่งหมายความว่าความเร็วในการถ่ายโอนหรือแบนด์วิดท์ต่ำกว่าความเร็วของกระบวนการ
  • วิธีปกติในการแก้ปัญหานี้คือการเพิ่มลำดับชั้นของแคชบน CPU, GPU หรือ APU ซึ่งคัดลอกข้อมูลจาก RAM ภายในเพื่อการเข้าถึงข้อมูลที่จำเป็นได้เร็วขึ้น
  • สถาปัตยกรรมอื่นๆ ใช้สิ่งที่เรียกว่า Scratchpad RAM ซึ่งเรียกว่า Embedded RAM ซึ่งไม่ทำงานโดยอัตโนมัติและเนื้อหาต้องถูกควบคุมโดยโปรแกรม

ดังนั้น RAM ที่รวมอยู่ในโปรเซสเซอร์จึงมีปัญหาและเป็นความจุ ซึ่งเก็บข้อมูลไว้ภายในน้อยมาก เนื่องจากข้อจำกัดด้านพื้นที่ทางกายภาพ เนื่องจากทรานซิสเตอร์ส่วนใหญ่ทุ่มเทให้กับการประมวลผลคำสั่งไม่ใช่ที่เก็บข้อมูล

HBM-PIM Arquitectura ทั่วไป

แนวคิดของการคำนวณในหน่วยความจำทำงานตรงกันข้ามกับ DRAM หรือ SRAM แบบฝัง เนื่องจากเรากำลังพูดถึง RAM ที่เราเพิ่มตรรกะโดยที่เซลล์บิตมีน้ำหนักมากกว่า ดังนั้นจึงไม่ใช่คำถามของการผสานรวมโปรเซสเซอร์ที่ซับซ้อน แต่เป็นการเฉพาะโดเมนและแม้แต่ตัวเร่งความเร็วแบบมีสายฮาร์ดแวร์หรือฟังก์ชันคงที่

และข้อดีของหน่วยความจำประเภทนี้คืออะไร? เมื่อเรารันโปรแกรมบนโปรเซสเซอร์ใดๆ อย่างน้อยสำหรับแต่ละคำสั่ง จะมีการเข้าถึง RAM ที่กำหนดให้กับ CPU ดังกล่าวหรือ GPU. แนวคิดของการคำนวณในหน่วยความจำไม่ใช่ใครอื่นนอกจากการมีโปรแกรมที่เก็บไว้ในหน่วยความจำ PIM และ CPU หรือ GPU ต้องใช้คำสั่งการโทรเพียงครั้งเดียวและรอให้หน่วยประมวลผลในการประมวลผลหน่วยความจำดำเนินการโปรแกรมและส่งคืนการตอบสนองสุดท้าย ไปยัง CPU ซึ่งฟรีสำหรับงานอื่นๆ

โปรเซสเซอร์ใน Samsung HBM-PIM

HBM-PIM Arquitectura PCU

CPU ขนาดเล็กถูกรวมเข้ากับชิปแต่ละตัวในสแต็คของชิป HBM-PIM ดังนั้นความจุในการจัดเก็บจึงได้รับผลกระทบจากการนำทรานซิสเตอร์ที่จะไปที่เซลล์หน่วยความจำเพื่อกำหนดให้กับลอจิกเกตที่ประกอบขึ้นเป็นอินทิเกรต โปรเซสเซอร์และอย่างที่เราเคยมีมาก่อนหน้านี้ มันเป็นโปรเซสเซอร์ที่ง่ายมาก

  • ไม่ได้ใช้ ISA ที่รู้จัก แต่มีคำแนะนำทั้งหมดน้อยมาก: 9
  • มีหน่วยทศนิยม 16 หน่วย จำนวน 16 ชุด แต่ละชุดมีความแม่นยำ XNUMX บิต ชุดแรกมีความสามารถในการเพิ่มและชุดที่สองเพื่อทำการคูณ
  • หน่วยดำเนินการของประเภท SIMD ดังนั้นนี่คือตัวประมวลผลแบบเวกเตอร์
  • ความสามารถทางคณิตศาสตร์ของมันคือ: A + B, A * B, (A + B) * C และ (A * C) + B
  • การใช้พลังงานต่อการทำงานต่ำกว่าที่ CPU ทำงานแบบเดียวกัน 70% ในที่นี้ เราต้องคำนึงถึงความสัมพันธ์ระหว่างการใช้พลังงานและระยะทางกับข้อมูล
  • Samsung ได้ให้บัพติศมาโปรเซสเซอร์ขนาดเล็กนี้ภายใต้ชื่อ PCU
  • โปรเซสเซอร์แต่ละตัวสามารถทำงานได้เฉพาะกับชิปหน่วยความจำที่เป็นส่วนหนึ่งหรือกับทั้งสแต็ก นอกจากนี้ หน่วยใน HBM-PIM สามารถทำงานร่วมกันเพื่อเร่งความเร็วอัลกอริทึมหรือโปรแกรมที่ต้องการได้

เนื่องจากสามารถอนุมานได้ด้วยความเรียบง่าย จึงไม่เหมาะสำหรับการรันโปรแกรมที่ซับซ้อน ในทางกลับกัน Samsung ส่งเสริมภายใต้แนวคิดที่เราเชื่อมโยงมันเป็นหน่วยที่เร่งอัลกอริธึมการเรียนรู้ของเครื่อง แต่ไม่สามารถจัดการกับระบบที่ซับซ้อนได้เนื่องจากเป็นโปรเซสเซอร์แบบเวกเตอร์และแบบไม่มีเทนเซอร์ ดังนั้นความสามารถของพวกเขาในด้านนี้จึงมีจำกัด และมุ่งเน้นไปที่สิ่งที่ไม่ต้องการพลังมากนัก เช่น การจดจำเสียง การแปลข้อความและเสียง เป็นต้น อย่าลืมว่าความสามารถในการคำนวณของมันคือ 1.2 TFLOPS

เราจะเห็น HBM-PIM บนพีซีของเราหรือไม่?

ซีลินซ์ อัลวีโอ U280

แอปพลิเคชันที่ Samsung ยกให้เป็นตัวอย่างข้อดีของ HBM-PIM นั้นถูกเร่งด้วยความเร็วสูงขึ้นโดยส่วนประกอบอื่นๆ ในพีซีของเรา ยิ่งไปกว่านั้น ต้นทุนการผลิตหน่วยความจำประเภทนี้ที่สูงเกินไปทำให้ไม่สามารถใช้งานภายใน คอมพิวเตอร์ที่บ้าน ในกรณีที่คุณเป็นโปรแกรมเมอร์ที่เชี่ยวชาญด้านปัญญาประดิษฐ์ สิ่งที่ปลอดภัยที่สุดคือคุณมีฮาร์ดแวร์ในคอมพิวเตอร์ที่มีความสามารถในการประมวลผลที่สูงกว่า HBM-PIM ของ Samsung มาก

ความจริงก็คือดูเหมือนว่าจะเป็นทางเลือกที่ไม่ดีสำหรับแผนกการตลาดของยักษ์ใหญ่ในเกาหลีใต้ที่จะพูดคุยเกี่ยวกับ AI และใช่ เราคำนึงว่าเป็นเทคโนโลยีที่ทันสมัยบนริมฝีปากของทุกคน แต่เราคิดว่า HBM-PIM มีตลาดอื่นๆ ที่สามารถใช้ประโยชน์จากความสามารถของตนได้

แอปพลิเคชั่นเหล่านี้คืออะไร? ตัวอย่างเช่น มันทำหน้าที่เร่งการค้นหาข้อมูลในฐานข้อมูลขนาดใหญ่ที่หลายร้อยบริษัทใช้ทุกวัน และเชื่อเราว่าเป็นตลาดขนาดใหญ่ที่เคลื่อนย้ายได้หลายล้านดอลลาร์ต่อปี ไม่ว่าในกรณีใด เราไม่เห็นว่ามีการใช้ในระดับประเทศและในการคำนวณทางวิทยาศาสตร์ แม้ว่าจะมีความเป็นไปได้ที่ HBM3 ที่ยังไม่เสร็จจะสืบทอดแนวคิดส่วนหนึ่งของ HBM-PIM