Cloudflare Workers AI มีความสามารถในการแปลงเสียงเป็นข้อความด้วย Whisper Model ของ OpenAI และแปลภาษาแบบสคจิน ในเวลาจริง ทำให้คุณสามารถสร้างแอปพลิเคชันที่รองรับหลายภาษา เช่น Chatbot ที่ตัวจริง การบันทึกการประชุม หรือแอปพลิเคชันการแปลภาษาสด โดยไม่ต้องเซิร์ฟเวอร์ GPU แยกต่างหาก
Speech-to-Text ด้วย Whisper Model
Whisper เป็น Model ของ OpenAI ที่เพิ่มความสามารถในการแปลงเสียงพูดเป็นข้อความ รองรับหลายภาษา และมีความแม่นยำสูง:
- รองรับหลายภาษา: แปลงเสียงจากภาษาต่างๆ ไปเป็นข้อความ
- ความแม่นยำสูง: ได้ผลลัพธ์ที่ถูกต้องแม้ในสภาพแวดล้อมที่มีเสียงรบกวน
- การตรวจจับภาษา: โมเดลสามารถตรวจจับภาษาของเสียงอัตโนมัติ
- ความเร็ว: ประมวลผลได้รวดเร็วบน Edge
- ระบุจุดพูดใหม่: จำแนกส่วนต่างๆ ของการพูด
ตัวอย่างการใช้ Speech-to-Text
export default {
async fetch(request, env) {
const formData = await request.formData();
const audioFile = formData.get('audio');
const arrayBuffer = await audioFile.arrayBuffer();
const base64Audio = btoa(String.fromCharCode(...new Uint8Array(arrayBuffer)));
const response = await env.AI.run(
'@cf/openai/whisper',
{
audio: base64Audio
}
);
return new Response(JSON.stringify(response));
}
};
Translation – แปลภาษาแบบสคจิน
Workers AI รองรับการแปลภาษาแบบสด ทำให้คุณสามารถสร้างแอปพลิเคชันที่แปลข้อความระหว่างภาษาต่างๆ:
- แปลข้อความ: แปลระหว่างภาษาต่างๆ ด้วยความแม่นยำ
- รักษาบริบท: เข้าใจความหมายเต็มที่ไม่ใช่แค่การแปลคำศัพท์
- รองรับหลายภาษา: สนับสนุนภาษาหลากหลาย
- ความเร็ว: การแปลแบบ Real-time บน Edge
- ฟังก์ชันพิเศษ: เก็บรูปแบบการจัดรูปแบบต้นฉบับ
ตัวอย่างการแปลภาษา
export default {
async fetch(request, env) {
const { text, source_lang, target_lang } = await request.json();
const response = await env.AI.run(
'@cf/meta/m2m100-1.2b',
{
text: text,
source_language: source_lang,
target_language: target_lang
}
);
return new Response(JSON.stringify(response));
}
};
กรณีการใช้งาน
Speech-to-Text และ Translation ของ Workers AI ใช้ได้ในหลากหลายแอปพลิเคชัน:
- การประชุมและการบันทึก: บันทึกและแปลงการประชุมเป็นข้อความโดยอัตโนมัติ
- Chatbot แบบเสียง: สร้าง Voice Assistant ที่ตัวจริง
- แอปพลิเคชันเรียนรู้ภาษา: ช่วยในการเรียนรู้ภาษาใหม่
- บรรยายสด (Live Captioning): แสดงบรรยายสดในการอัดวิดีโอ
- การให้บริการลูกค้า: สนับสนุนลูกค้าในหลายภาษา
- การดำเนินการเอกสาร: เปลี่ยนบันทึกเสียงเป็นเอกสารเขียน
- เชื่อมต่อ Speech-to-Text กับ Backend API
- บันทึกข้อความแปลใน Database
- สร้างระบบ Voice Command สำหรับแอปพลิเคชัน
- ให้บริการแปลภาษาสด (Live Translation Service)
- บูรณาการกับระบบ CRM หรือ Support System
สรุป
Cloudflare Workers AI ด้วย Whisper และ Translation Models ทำให้การสร้างแอปพลิเคชันที่มีความสามารถด้านเสียงและภาษาเป็นไปได้อย่างง่ายดาย โดยไม่ต้องเซิร์ฟเวอร์ GPU แยกต่างหาก เมื่อรวมกับ ผู้ให้บริการโฮสติ้ง Cloud VPS คุณจะได้ระบบที่สมบูรณ์และมีประสิทธิภาพ

