Apple pracuje na zavedení umělé inteligence do Siri

Výzkum Apple AI odhaluje model, který urychlí a zefektivní zadávání příkazů Siri tím, že převede jakýkoli daný kontext na text, který lze snáze analyzovat pomocí velkého jazykového modelu.
Nechat počítačový program provést úlohu založenou na vágních jazykových vstupech, například jak by uživatel mohl říci „toto“ nebo „tamto“, se nazývá referenční rozlišení. Je to složitý problém, který je třeba vyřešit, protože počítače nedokážou interpretovat obrázky tak, jak to dokážou lidé, ale Apple možná našel efektivní řešení pomocí LLM.
Při rozhovoru s chytrými asistenty, jako je Siri, mohou uživatelé odkazovat na libovolný počet kontextových informací, se kterými mohou komunikovat, jako jsou úkoly na pozadí, data na displeji a další nekonverzační entity. Tradiční metody analýzy spoléhají na neuvěřitelně velké modely a referenční materiály, jako jsou obrázky, ale Apple tento přístup zefektivnil převedením všeho na text.
Apple zjistil, že jeho nejmenší modely ReALM fungovaly podobně jako GPT-4 s mnohem méně parametry, takže se lépe hodí pro použití na zařízení. Zvýšením parametrů používaných v ReALM výrazně překonal GPT-4.
Jedním z důvodů tohoto zvýšení výkonu je, že GPT-4 se spoléhá na analýzu obrazu, aby porozuměl informacím na obrazovce. Velká část dat pro trénování obrázků je postavena na přirozených snímcích, nikoli na umělých webových stránkách založených na kódu vyplněných textem, takže přímé OCR je méně efektivní.
Konverze obrázku na text umožňuje ReALM přeskočit potřebu těchto pokročilých parametrů rozpoznávání obrázků, čímž je menší a efektivnější. Apple se také vyhýbá problémům s halucinacemi tím, že zahrnuje možnost omezit dekódování nebo použít jednoduché následné zpracování.
Zdroj: appleinsider.com