LieCraft:言語モデルの「欺瞞」行動を測るマルチエージェント評価フレームワーク | arXiv News